概述

美团也加入大模型赛道,足以说明AI+LLM未来可期。发布LongCat系列模型,中文龙猫,由同名团队研发并开源。

聊天端
在这里插入图片描述
类似地,开启深度思考或联网搜索后,不再支持添加附件。

亮点在于打电话,用语音聊天的方式和AI对话。

LongCat-Flash系列包括:

  • LongCat-Flash-Chat
  • LongCat-Flash-Thinking:推理模型

LongCat-Flash-Chat

GitHubHF,非思考型基础模型,基于MoE架构,总参数560B,激活参数18.6B~31.3B(平均27B)。

引入零计算专家(Zero-Computation Experts),每个Token依据上下文需求仅激活18.6B~31.3 B参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用PID控制器实时微调专家偏置,将单Token平均激活量稳定在约27B。
在这里插入图片描述
在层间铺设跨层通道,使MoE的通信和计算能很大程度上并行,极大提高训练和推理效率。配合定制化的底层优化,在30天内完成高效训练,在H800上实现单用户100+ tokens/s的推理速度。对常用LLM组件和训练方式进行改进,使用超参迁移和模型层叠加的方式进行训练,并结合多项策略保证训练稳定性,使得训练全程高效且顺利。

针对智能体能力,自建Agentic评测集指导数据策略,并在训练全流程进行全面优化,包括使用多智能体方法生成多样化高质量的轨迹数据等,实现了优异的智能体能力。

通过算法和工程层面的联合设计,在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型;通过系统优化,输出成本低至5元/百万Token。

SGLang单机部署示例:

python3 -m sglang.launch_server --model meituan-longcat/LongCat-Flash-Chat-FP8 \
--trust-remote-code --attention-backend flashinfer --enable-ep-moe --tp 8

LongCat-Flash-Thinking

GitHubHF

为解决强化学习领域混合训练的稳定性问题,设计一种领域并行强化学习训练方案,将STEM、代码和智能体任务的优化过程解耦。采用多领域并行训练再融合的先进策略,实现模型能力的均衡提升,综合性能达到帕累托最优(Pareto-Optimal)。
在这里插入图片描述
异步弹性共卡系统(Dynamic ORchestration for Asynchronous rollout,DORA)是整个训练的基石。通过弹性共卡调度(Elastic Colocation)与多版本异步流水线(Multi-Version Asynchronous Pipeline)设计,在实现相较于同步RL训练框架三倍提速的同时,确保每条样本的策略一致性。进一步实现高效的KV缓存复用,能够支撑万卡规模集群的稳定运行。

为进一步提升模型的智能体推理能力,提出创新性的双路径推理框架。能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API等),从而高效解决复杂任务。基于AIME25实测数据,在该框架下展现出更高效的智能体工具调用(Agentic Tool Use)能力,在确保90%准确率的前提下,相较于不使用工具调用节省64.5%的Tokens(从19653到6965),显著优化推理过程的资源利用率。

形式化推理框架(Formal Reasoning Framework)

为克服当前开源通用LLM在形式化证明任务中的不足,针对形式化推理设计一套全新的基于专家迭代框架的数据合成方法,利用集成Lean4服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。系统性地增强模型的形式化推理能力,提高其在学术和工程应用中的可靠性。

LongCat-Video

GitHubHF主页,136亿参数视频生成模型。

技术亮点

统一模型架构:多任务一体化视频基座

作为基于Diffusion Transformer(DiT)架构的多功能统一视频生成基座,创新地通过条件帧数量实现任务区分,文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容,原生支持三大核心任务且无需额外模型适配,形成完整任务闭环:

  • 文生视频:可生成720p、30fps高清视频,能精准解析文本中物体、人物、场景、风格等细节指令,语义理解与视觉呈现能力达开源SOTA级别;
  • 图生视频:严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,支持详细指令、简洁描述、空指令等多类型输入,内容一致性与动态自然度表现优异。
  • 视频续写:可基于多帧条件帧续接视频内容,为长视频生成提供原生技术支撑。

长视频生成:原生支持5分钟级连贯输出

依托视频续写任务预训练、Block-Causual Attention机制和GRPO后训练,可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。

结合块稀疏注意力(BSA)与条件Token缓存机制,大幅降低长视频推理冗余,即便处理93帧及以上长序列,仍能兼顾效率与生成质量稳定,打破长视频生成时长与质量不可兼得的瓶颈。

高效推理:二阶段生成+稀疏注意力+模型蒸馏优化

针对高分辨率、高帧率视频生成的计算瓶颈,通过二阶段粗到精生成(C2F)+BSA+模型蒸馏三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡:

  • 二阶段粗到精生成(C2F):先生成480p、15fps低分辨率视频,再经LoRA精调模块超分至720p、30fps,在降本提效的同时优化画面细节;
  • BSA:将3D视觉token分块后,仅选取top-r关键块计算注意力,使计算量降至标准密集注意力的10%以下;支持稀疏注意力适配并行训练,进一步提升训练与推理效率;
  • 模型蒸馏优化:结合Classifier-Free Guidance(CFG)与一致性模型(CM)蒸馏,将采样步骤从50步减至16步。

LongCat-Flash-Omni

GitHubHF,Omni表示全模态。

技术

一款拥有极致性能的开源全模态模型,在一体化框架中整合离线多模态理解与实时音视频交互能力。采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由LLM直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,实现低延迟的实时交互。所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量均约为6亿,延续LongCat-Flash系列的创新型高效架构设计,实现性能与推理效率间的最优平衡。
在这里插入图片描述
突破大参数规模与低延迟交互难以兼顾的瓶颈,在大规模架构基础上实现高效实时音视频交互。总参数达560B(激活参数27B),依托ScMoE架构(Shortcut-Connected MoE,含零计算专家)作为LLM骨干,结合高效多模态编解码器和分块式音视频特征交织机制,最终实现低延迟、高质量的音视频处理与流式语音生成。支持128K上下文窗口及超8分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

全模态模型训练的核心挑战之一是不同模态的数据分布存在显著异质性,采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。
在这里插入图片描述
多阶段:

  • 0:大规模文本预训练,利用成熟稳定的LLM为后续多模态学习奠定坚实基础;
  • 1:引入与文本结构更接近的语音数据,实现声学表征与语言模型特征空间的对齐,有效整合副语言信息;
  • 2:在文本-语音对齐基础上,融入大规模图像-描述对与视觉-语言交织语料,实现视觉-语言对齐,丰富模型视觉知识;
  • 3:引入最复杂的视频数据,实现时空推理,同时整合更高质量、更多样化的图像数据集以增强视觉理解;
  • 4:将模型上下文窗口从8K扩展至128K,进一步支持长上下文推理与多轮交互;
  • 5:为缓解离散语音tokens的信息丢失,进行音频编码器对齐训练,使模型能直接处理连续音频特征,提升下游语音任务的保真度与稳健性。

VitaBench

论文GitHubHF项目主页。LongCat团队推出的大模型智能体评测基准,Versatile Interactive Tasks Benchmark的缩写。以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为载体,构建包含66个工具的交互式评测环境,并进行跨场景的综合任务设计。

背景

现有的智能体评测基准与真实生活场景的应用需求之间依然存在显著差距,主要体现在几个方面:

  • 工具生态简单化:早期的工具调用基准主要评估单次API调用的准确率(如:函数选择、参数填充),忽视真实工具间的复杂依赖关系与组合调用需求;
  • 信息密度不足:大多数相关基准仅关注单一类型信息,未能反映真实应用场景中多源信息(时空信息、常识信息、多场景服务数据、用户画像、用户历史交易数据等)的综合处理需求;
  • 模型探索性受限:现有基准为模拟真实生活场景,通常会将领域知识组装成冗长的Policy文档要求模型遵循,但这种做法会限制模型在复杂环境中探索解空间的自主性。除进行深度思考、有效环境交互的能力外,模型的长文本指令遵循能力也对执行结果有很大影响;
  • 交互动态性缺失:用户作为环境的重要组成部分,大多数交互式Agent基准当前没有充分考虑到用户交互行为的多样性、用户需求的模糊性、多轮对话中的意图转移等真实复杂度;

通过对生活服务场景的深入分析,真实世界的任务复杂性,体现在三大维度:

  • 推理复杂性:需整合多源信息、自主推理规划任务完成路径;
  • 工具复杂性:需在高度互联的工具图中理解领域特征,精确调用目标工具;
  • 交互复杂性:需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现,团队构建VitaBench,一个依托生活服务场景、高度仿真的综合性Agent评测基准。

理论基础

通过将Agent在环境中与User、Tool交互建模为部分可观测马尔可夫决策过程(POMDP),VitaBench进一步将智能体任务复杂度拆解到三个维度进行量化并提升: C t a s k = ⟨ C r e a s o n , C t o o l , C i n t e r a c t ⟩ \mathcal{C}_{\mathrm{task}}=\langle\mathcal{C}_{\mathrm{reason}},\mathcal{C}_{\mathrm{tool}},\mathcal{C}_{\mathrm{interact}}\rangle Ctask=Creason,Ctool,Cinteract

C r e a s o n \mathcal{C}_{\mathrm{reason}} Creason,表示推理复杂度;量化智能体需要在部分可观测环境中整合信息量,具体通过以下指标衡量:

  • 观测空间大小:环境整体信息量,信息越多,任务越难;
  • 部分可观测度:智能体需要通过交互才能观测到的信息占整体信息的比例,比例越大,任务越难;
  • 推理点数量:任务中需要处理的显性与隐性推理点数量,推理点越多,任务越难。

基于此,VitaBench构建大规模真实环境数据库,其中单个任务可涉及5-20个服务提供商、最多超过100个候选产品,每个任务聚合多个真实用户需求,形成复杂的搜索与推理空间。

C t o o l \mathcal{C}_{\mathrm{tool}} Ctool,表示工具复杂度;如果将现实中的工具集建模为图,图中顶点代表工具,边代表工具间的依赖关系,则工具复杂度可通过以下指标衡量:

  • 图大小与密度:反映解决领域问题需要涉及的工具数量与工具间依赖紧密程度,数值越高,模型掌握工具集的难度越大;
  • 工具调用链路长度与子图覆盖率:解决任务需要完成的工具调用链路越长,所形成的子图占整张图的比例越大,任务的需求覆盖面就越广,任务就越难。

基于此,将领域规则编码到图结构中,通过Python函数实现,确保工具调用结果的稳定性和一致性。

C i n t e r a c t \mathcal{C}_{\mathrm{interact}} Cinteract,表示交互复杂度;反映智能体在用户的动态多轮对话中的掌控能力,通过以下机制实现:

  • 用户画像系统:基于真实平台数据脱敏构建的多样化用户画像,包含人口属性、饮食偏好、消费历史等信息;
  • 行为属性建模:涵盖情绪表达(急躁、焦虑、冷漠等)、交互模式(细节导向、依赖型、逻辑型等)维度;
  • 动态状态演化:用户状态、意图可能在交互过程中持续变化,要求智能体实时调整对话策略。

基于此,VitaBench为每个任务都配备独特的用户角色,并通过UserSimulator扮演,逐步向Agent提出需求。

构建

在这里插入图片描述
两阶段流程构建:

阶段一:框架设计

  • 工具定义:从三个领域中抽象核心功能,定义66个简化但功能完整的API工具;
  • 依赖构建:基于工具间的依赖关系构建有向图,将领域规则编码到图结构中;
  • 用户模拟:实现基于语言模型的用户模拟器,支持模糊化需求生成与个性化响应。

阶段二:任务创建

  • 用户画像:基于真实平台数据合成差异化用户特征;
  • 任务指令:融合多个真实用户请求,改写得到复合目标任务;
  • 环境数据:结合真实数据合成扩展,再由人工核验以确保任务可完成;
  • 评估标准:为每个任务制定独立且细粒度的评测标准。

将各领域的规则统一编码到工具图结构中,避免冗余的领域策略文档(Domain Policy Document)。智能体无需依赖预设规则,而是通过工具描述自行推理领域逻辑。使VitaBench能够灵活支持各种场景与工具集的自由组合。基于三个领域构建400项评测任务:

  • 单场景任务:300项,聚焦于单一领域的复杂需求;
  • 跨场景任务:100项,考察智能体在多场景间的切换执行与信息整合能力。

参考

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐