SEED-Story，一种能够生成多模态长故事的大型语言模型

7/14/2024

https://www.chatbro.cn/news/66934712ee8410af454b8804

SEED-Story 包括与文本内容一致的图像，并且提供了用于训练和评估的大规模数据集 StoryStream。

SEED-Story 是一个多模态长故事生成模型，它能够根据用户提供的图像和文本生成包含连贯叙事和一致的角色与风格图像的故事。该模型基于 SEED-X，并且可以通过不同的开头文本生成不同的故事。SEED-Story 的训练分为三个阶段：第一阶段是使用 ViT 特征作为输入预训练 SD-XL 的去 tokenizer；第二阶段是通过下一个单词预测和目标图像的 ViT 特征之间的图像特征回归来训练 MLLM；第三阶段是将 MLLM 回归的图像特征输入去 tokenizer 进行微调，以提高生成图像的角色和风格一致性。此外，项目还提供了视频演示、安装指南、数据准备、模型权重、推理代码、评估方法和指令调优步骤。SEED-Story 的性能通过 GPT4 API 进行了评估，结果表明其在图像风格一致性、故事吸引力和文本图像连贯性方面表现出色。最后，项目鼓励使用者在使用时进行引用。

要点

SEED-Story 能够生成包含文本和图像的多模态长故事，这些故事在叙事和视觉上都具有连贯性和一致性。
该模型的训练过程分为三个阶段，包括去 tokenizer 的预训练、MLLM 的训练以及去 tokenizer 的适应调整。
StoryStream 数据集是专为多模态故事生成设计的，包含三个子集，用于训练和评估模型的性能。
SEED-Story 提供了详细的使用说明，包括依赖安装、数据准备、模型权重下载、推理和评估方法。
性能评估通过 GPT4 API 进行，涵盖了风格一致性、故事吸引力和文本图像连贯性等方面。
项目鼓励用户在使用 SEED-Story 时进行引用，并提供了相应的引用格式。
SEED-Story 受 Apache License Version 2.0 许可证授权，但需排除特定的第三方组件。