字节提出文本到图像生成框架 DreamPoster ,依托 Seedream3.0,能基于用户提供的图像与文本提示,智能合成高质量海报,保持内容保真且支持灵活输出。它有系统的数据注释流程构建配对数据集,采用渐进式训练策略,评估显示优于现有方法,可用性达 88.55%,即将上线字节跳动相关 App。

相关链接

  • 主页:https://dreamposter.github.io

  • 体验:https://jimeng.jianying.com/ai-tool/home

  • 论文:https://arxiv.org/pdf/2507.04218

论文介绍

DreamPoster 是一个文本到图像生成框架,它可以从用户提供的图像和文本提示中智能地合成高质量的海报,同时保持内容保真度并支持灵活的分辨率和布局输出。具体来说,DreamPoster 建立在 T2I 模型 Seedream3.0 之上,以统一处理不同的海报生成类型。对于数据集构建提出了一个系统的数据注释流程,可以精确注释海报图像中的文本内容和排版层次信息,同时采用综合的方法构建由源材料(例如,原始图形/文本)及其对应的最终海报输出组成的配对数据集。此外还实现了一种渐进式训练策略,使模型能够分层地获得多任务生成能力,同时保持高质量的生成。在测试基准上的评估表明 DreamPoster 优于现有方法,与 GPT4o(47.56%)和 SeedEdit3.0(25.96%)相比,其可用性高达 88.55%。 DreamPoster 即将上线即梦等字节跳动 App。

数据集pipeline

收集了一个庞大且多样化的高质量海报数据集,并由提出的数据管理流程进行了标注。首先通过OCR和美学评分对收集到的数据进行筛选,以获得一个包含可识别文本和高质量图像的干净海报数据集。具体来说,我们训练了一个专门处理文本密集型海报的海报标注器,实现了对字体大小、字体、配色方案和布局信息等文本属性的准确识别和描述。海报标注器会为每张海报重新添加以字形和布局为中心的标注,这使得DreamPoster能够学习细粒度的字形和排版层次结构。为了建立包含源图像和目标海报的配对数据集,我们实施了一个系统框架,该框架利用一系列先进的图像处理方法(包括上下文感知修复、语义分割、传统渲染等)来提取和提炼源自高质量海报图像的源视觉内容。该管道确保结构对应性,同时通过受控图像转换保持源-目标对之间的语义保真度。

架构和训练流程

DreamPoster 采用多模态架构,无缝融合文本和图像信息。将文本 token、条件图像 token 和噪声 token 沿序列维度与相应的位置嵌入连接起来。训练时,我们对 DiT 中的某些层进行微调,并采用渐进式三阶段训练策略,逐步提升模型在多个层面的设计能力:第一阶段:单任务预训练- 在此阶段,模型仅针对向图像添加文本的任务进行训练。目标是学习图像和文本信息的基本融合。这有助于模型掌握图像和文本之间的基本联系。第二阶段:多任务混合训练- 该模型进一步针对文本修改、删除和海报风格化等混合任务进行训练,以扩展其处理更复杂和多样化场景的能力。第三阶段:细粒度美学对齐- 在最后阶段,使用一小批高质量数据对模型进行微调。这使得它能够处理更复杂的设计元素,优化布局关系和空间利用,实现对设计细节的精细控制。通过三个阶段的渐进式训练,模型在每个阶段都得到不同程度的优化,最终实现高质量、专业的海报生成。

定量结果

我们对 DreamPoster 进行了全面的人工评估,并将其与最先进的基线模型在三个关键维度上进行了比较:快速关注、主题保留和设计感。DreamPoster 的表现明显优于现有模型。我们还进行了一项由 60 名人工评估员参与的可用性评估,定量分析显示,DreamPoster 的可用性率 (88.55%) 统计上优于最先进的基线模型。

定性结果

GPT-4o 和 Gemini2.5 在图像合成过程中表现出纵横比保持的不稳定性,而 Step1X-Edit 和 SeedEdit1.6 通过固定纵横比约束强制执行严格的输入输出维度对齐。

结论

DreamPoster 是一个基于图像条件的生成式海报设计的统一框架,它大幅提升了 AI 驱动海报设计的前沿水平。通过一种新颖的流程构建了一个高质量的数据集,用于收集和优化图像-海报对,从而确保该任务拥有丰富多样的训练数据。在此基础上开发了一个统一的多模态融合生成模型,无缝集成了视觉和文本输入。通过逐步提高任务复杂度,对模型进行微调实现了稳定的学习效果,并提升了生成的海报的创意保真度。大量的实验和评估证实了 DreamPoster 的有效性。该模型在所有关键指标上均取得了显著提升,远超 GPT-4o 和 SeedEdit3.0 等强大的基准模型。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐