【CVPR2025】基于离散扩散时间步令牌的生成式多模态预训练

近期在多模态大型语言模型（MLLMs）领域的研究致力于通过结合大型语言模型（LLM）与扩散模型（分别在各自任务中处于最先进水平），实现视觉理解与生成的统一。然而，我们指出，空间令牌缺乏语言中固有的递归结构，因此形成了一种大型语言模型难以掌握的“不可学习语言”。在本文中，我们通过利用扩散时间步来学习离散的、递归的视觉令牌，从而构建了一种合适的视觉语言。这一方法使我们能够有效整合大型语言模型在自回归推

数据派THU

317人浏览 · 2025-05-06 17:01:59

数据派THU · 2025-05-06 17:01:59 发布

来源：专知
本文约1000字，建议阅读5分钟
我们通过利用扩散时间步来学习离散的、递归的视觉令牌，从而构建了一种合适的视觉语言。

近期在多模态大型语言模型（MLLMs）领域的研究致力于通过结合大型语言模型（LLM）与扩散模型（分别在各自任务中处于最先进水平），实现视觉理解与生成的统一。现有方法通常依赖于空间视觉令牌，即将图像块编码后按照空间顺序（例如光栅扫描顺序）排列。然而，我们指出，空间令牌缺乏语言中固有的递归结构，因此形成了一种大型语言模型难以掌握的“不可学习语言”。

在本文中，我们通过利用扩散时间步来学习离散的、递归的视觉令牌，从而构建了一种合适的视觉语言。我们提出的视觉令牌能够递归地补偿在噪声图像中随时间步增加而逐步丧失的属性，使扩散模型能够在任意时间步重建原始图像。这一方法使我们能够有效整合大型语言模型在自回归推理方面的优势与扩散模型在精确图像生成方面的优势，在统一框架内实现无缝的多模态理解与生成。

大量实验表明，我们在多模态理解与生成任务上同时达到了优于其他MLLMs的方法性能。项目页面：https://DDTLLaMA.github.io/

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla