【无标题】
通过本轮评测,可以明确看到可灵系列在国产模型中持续领跑,稳居文生视频第一梯队前列。从早期版本到最新推出的可灵2.5 Turbo,它不仅保持了一贯优秀的视频清晰度,还针对用户需求不断完善情境理解和动态渲染功能。在实际使用中,无论是广告营销还是教育培训,展现出较大的商业化潜力。另一方面,作为海外阵营代表之一,Sora2 尽管综合表现稍逊于头部国产模型,却也展现出了自身独特竞争优势。例如它对于语义指令执
全球文生视频AI模型排名洗牌!可灵2.5 Turbo vs Sora2 谁更懂你的想象?
AGI-Eval大模型评测 2025年11月4日 20:12 上海


近年来,文生视频技术持续进化,从“文字变电影”的创意实现到动态影像的真实还原,多模态大模型正以前所未有的速度重塑内容创作边界。在上一轮评测中,我们见证了全球文生视频AI模型大比拼!Seedance1.0、可灵2.0领跑,Pika2.2垫底。本次AGI-Eval社区再度发起权威测试,将焦点聚集于两款备受瞩目的新晋选手——可灵2.5 Turbo与Sora2。
作为各自阵营的新一代代表,可灵2.5 Turbo和Sora2分别在文本一致性、画质优化及运动质量上进行了显著升级。那么,它们究竟谁能更好地理解用户需求?谁能生成更加流畅且视觉震撼的视频?本次评测为大家揭晓答案。
评测结果显示,国产AI模型可灵2.5 Turbo与海外AI模型Veo3领跑, Seedance 1.0 、可灵 2.0 被反超。

△各模型整体得分和 Ranking 图
下面就一起查看文生视频模型的评测维度与规则以及这些模型的详细评测表现吧!
01. 评测结果明细
1.1 评测结论
本次评测的核心,不仅在于呈现各模型的得分排名,更在于深入剖析其背后的能力差异。综合所有维度的评测结果,我们得出以下核心结论:
-
行业格局重塑,新王登基:以 Veo3 和 可灵2.5 Turbo 为代表的新一代模型,在综合能力上已实现对上一代领先者(如Seedance 1.0、可灵2.0)的超越,展现出惊人的迭代速度和技术实力。
-
两大技术路径分化显著:作为本次评测的焦点,Sora2 与可灵2.5 Turbo 展现出两种截然不同但同样强大的技术演进路径:
可灵2.5 Turbo:追求极致的“视觉质量”。其核心优势在于生成画面的超高清晰度和细节真实感,在视觉呈现上更接近数字艺术和顶级CG的制作水准。Sora2:追求高度的“情境真实性”。它更擅长通过模拟真实世界的物理规律、运镜手法和环境氛围,来营造一种沉浸式的“电影感”语义理解的深度和广度上表现突出。 -
行业共同挑战依然存在:尽管头部模型能力强大,但在处理复杂的物理交互、长时程的逻辑一致性以及精确的语义还原上,所有模型仍有广阔的提升空间。
这些结论为我们理解当前文生视频模型的技术现状和未来发展方向提供了关键视角。接下来,我们将通过详细的数据榜单,对这些结论进行量化支撑。
1.2 评测综合榜单
为了得到符合用户主观感受的评估结果,评测社区对各模型在人工评测黑盒数据上进行了 5 档 MOS (Mean Opinion Score) 分的人工评测(打分范围 1-5 分),各模型得分结果如下:
-
在视频-文本一致性维度:Veo3得分最高,表现突出。Sora2与海螺02得分相近,共同处于领先水平。可灵2.5 Turbo、Dreamina3.0、Seedance 1.0以及可灵2.0等模型得分差距较小,形成了竞争激烈的第二梯队。
-
在视频质量维度:各模型间的表现呈现出显著差异。可灵2.0在该维度得分排名第一,可灵2.5 Turbo与Wan 2.2得分持平,紧随其后。Veo3、可灵2.1与Seedance 1.0处于同一水平。Sora2的表现略低于上述模型,而Pika 2.2在该维度得分与其他模型差距悬殊,明显落后。
-
在运动质量维度:头部模型的表现尤为集中且优势明显。Veo3再次位列第一,得分显著领先。此外,可灵2.1、可灵2.5 Turbo、Sora2、海螺02、可灵2.0等模型的表现均在3.8分以上,共同构成了运动质量的头部阵营。Wan 2.2和Pixverse V5的表现也十分接近。

1.3 评测能力项榜单
文生视频人工评测对动作生成、物理世界真实模拟等能力项进行了详细评测,评测结果显示:
-
Veo3 在多个能力项子维度上展现出显著优势,尤其在动作生成、人像生成、常识知识、物理世界的真实模拟以及风格生成方面得分全面领先,综合能力突出。
-
海螺 02 在常识知识与文字和符号生成维度上表现优异,其中文字和符号生成能力得分位列第一,但在风格生成方面与其他头部模型存在一定差距。
-
Sora2 与可灵 2.5 Turbo 在多个能力项上表现出相似的竞争力。Sora2 在动作生成、人像生成和风格生成方面略有优势;而可灵 2.5 Turbo 在物理世界的真实模拟上表现更好。两者在文字和符号生成能力上得分持平。
- 可灵 2.0 在物理世界的真实模拟维度表现出色,但其风格生成能力相较于其他头部模型稍显不足。

02. 评测框架与方法论
为了对各文生视频模型的性能进行量化与质化评估,AGI-Eval 采用人工评测的形式,构建了覆盖 40+ 细分能力项、共 500 条专业prompt的数据集。评估内容主要考察模型在视频文本一致性、视频质量、运动质量三大核心维度的表现,其中重点包含了对运动属性、镜头运动、场景转换以及物理世界的真实模拟等关键视频生成能力的评测。
03. 评测案例
决定文生视频成败有五大核心维度:生成内容与提示的“一致性”(是否精准还原想象)、“视频质量”(画面清晰度、细节、美观度)、“运动质量”(动作是否自然流畅、符合物理规律)、“音频效果”、“人像生成”。让我们通过具体 Prompt 实测,直观感受各模型在想象还原、画面细节与动作流畅性上的真实表现差异。本节将聚焦于可灵2.5 Turbo与Sora2这两款备受瞩目的模型。
Prompt1:美人鱼坐在海边的岩石上,梳理着她那长长的、飘逸的头发,看着海浪拍打着岸边。
Sora2:

可灵2.5Turbo:

对比评估
-
一致性:可灵2.5Turbo=Sora2。两个模型都没有明确体现出“看着海浪拍打着岸边”,除此之外的其他要求体现较完整。
-
视觉质量:可灵2.5Turbo>Sora2。画质和真实性上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊、人物质感“磨皮感”严重,真实性较差;Sora2美人鱼手部、以及手持的梳子,在梳头过程中出现了畸变,头发也在梳理过程中出现了穿模现象;可灵2.5则没有出现明显形变问题。
Prompt2:情感丰富的新郎与极其理性的新娘面对面,交换誓言。视频需要捕捉新郎和新娘的面部表情和状态。
Sora2:

可灵2.5Turbo:

对比评估
-
一致性:可灵2.5Turbo>Sora2。Sora2未明确捕捉到新娘的面部表情,可灵2.5Turbo则完整地捕捉了新郎和新娘的的面部表情,并且符合prompt要求的人物特征和情绪。
Prompt3:随着黎明临近,城市逐渐苏醒。晨光中,高楼轮廓清晰可见,街道上的流量开始涌动。
Sora2:

可灵2.5Turbo:

对比评估
-
视觉质量:可灵2.5Turbo>Sora2。画质上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊、看不清视频内容细节;建筑群和车流排列密集且混乱,不符合客观现实,车流动态过程呈现出非常扭曲、粘黏的状态。相比之下可灵2.5Turbo视频清晰度高、细节展现明确,建筑和车流都能看出较为规则的形态,但也存在远景的汽车排列密集、粘黏、道路线条不规则的问题。
-
运动质量:可灵2.5Turbo>Sora2。Sora2道路上车辆整体运动出现波浪形扭动,运动过程中没有清晰的衔接;可灵2.5Turbo车辆运动流畅、连贯。
Prompt4:商贩在热闹的农贸市场摆摊,展示新鲜的水果和蔬菜,人们漫步其中,挑选农产品并享受这充满活力的氛围。
Sora2:

可灵2.5Turbo:

对比评估
-
视觉质量:可灵2.5Turbo=Sora2。画质上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊、看不清视频内容细节,且内容有马赛克的闪烁感(文字部分明显);前景的主体人物轮廓、面部正常,但手与挎包出现穿模、手部粘黏、文字错误,背景的人物几乎模糊不可见。可灵2.5Turbo近景的人物无明显异常,随着镜头推进,视觉中心多个人物的面部扭曲畸形明显,五官轮廓都不可见,背景人物畸形更明显。两个模型都有比较明显的视觉质量问题。
Prompt5:一位穿着紫色背带裤和牛仔靴的老人,在南非约翰内斯堡美丽的日落时分悠闲地散步
Sora2:

可灵2.5Turbo:

对比评估
-
一致性:可灵2.5Turbo>Sora2。Sora2未明确体现出“牛仔靴”的要求,可灵2.5Turbo人物特征体现比较明确。另外两个模型都没有明确体现出“南非约翰内斯堡”的典型城市特征。
-
视觉质量:可灵2.5Turbo>Sora2。画质上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊,主体人物轮廓、面部、手部粘黏等细节几乎模糊不可见。可灵2.5Turbo清晰度高,人物细节清晰可见,侧边和远景的植物略密集,文字错误。
Prompt6:一辆拖车将抛锚的汽车拖上平台,准备将其运往修理厂。
Sora2:

可灵2.5Turbo:

对比评估
- 一致性:可灵2.5Turbo>Sora2。Sora2没有完成“将抛锚的汽车拖上平台”的要求;可灵2.5Turbo展现出了已经拖上拖车的场景。
- 视觉质量:可灵2.5Turbo>Sora2。Sora2汽车和拖车的位置明显不符合逻辑,拖车的左轮廓、汽车车牌、中间女士的面部都明显畸变,人物五官扭曲严重;可灵2.5Turbo存在字符乱码,汽车在拖车上还产生了一定移动,不符合逻辑。
Prompt7:身着优雅舞服的舞者们在大舞厅抛光地板上轻盈滑行,他们的动作与音乐同步,在闪烁枝形吊灯下旋转摇摆。
Sora2:

可灵2.5Turbo:

对比评估
- 视觉质量:可灵2.5Turbo>Sora2。画质上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊,人物太多且连续旋转运动的情况下,人物之间、人物与侧边的凳子都存在穿模的情况;整体内容细节都不可见。可灵2.5Turbo清晰度高,细节展现清晰,运动过程中也没有出现实体交融和变形的情况。
Prompt8:一块冰块被放入温热的饮料中,缓慢融化,在液体中泛起轻柔的涟漪,逐渐改变着它的形态。
Sora2:

可灵2.5Turbo:

对比评估
- 运动质量:可灵2.5Turbo>Sora2。Sora2的动态幅度非常小,虽然在展现“轻柔的涟漪”,但整体运动态是几乎不可见的。可灵2.5Turbo整体动态度适中,在“轻柔”和运动幅度上有比较好的平衡。
Prompt9:阳光穿过水晶棱镜,在白色墙壁上形成绚丽的彩虹色光斑。
Sora2:

可灵2.5Turbo:

对比评估
- 视觉质量:可灵2.5Turbo>Sora2。两个视频在反射光斑的成像效果上都比较符合预期,Sora2整个视频在最后2秒的时间的留白展现无太大必要性。
- 运动质量:Sora2>可灵2.5Turbo。Sora2除了镜头推移,还有比较细节的灰尘飘动、光线变化等动态效果,丰富度较好;可灵2.5Turbo仅镜头推移,无其他运动效果。
Prompt10:一位厨师翻动煎饼,在上面放上奶油。
Sora2:

可灵2.5Turbo:

对比评估
- 视频质量:可灵2.5Turbo=Sora2。Sora2和可灵2.5Turbo的2个视频都逻辑欠佳,Sora2煎饼掉到外面,可灵2.5Turbo凭空抹上奶油。
- 运动质量:可灵2.5Turbo>Sora2。Sora2两个镜头之前没有任何的过渡衔接,生硬的直接从煎饼掉落切换到了下一个挤奶油的画面;可灵2.5Turbo在运动连贯性、流畅度上没有明显问题。
Prompt11:奥黛丽赫本在罗马的特雷维喷泉旁许愿。
Sora2:

可灵2.5Turbo:

- 音频效果:可灵2.5Turbo<Sora2。Sora2针对prompt要求的场景自发进行配音,包含符合场景的BGM和人物台词,台词对于“许愿”这个关键词来说十分贴切,且声线自然,与真人几乎无差异。
可灵2.5Turbo则仅有少量音效,但无法确定 具体是什么发出的,与人物动作节奏或者场景也不贴合,可以说是“视音无关”。 - 人像生成:可灵2.5Turbo<Sora2。prompt明确指定要求生成奥黛丽赫本,Sora2展示的人物形象十分经典,符合大众认知,而可灵2.5Turbo难以辨别出视频中的人物究竟是谁。
Prompt12:保护动物的公益广告,丛林里,一位年轻的女性动物保护员蹲下身喂养身边的一只瘦弱的小鹿,小鹿伸出细嫩的舌头舔食。保护员微笑着轻抚小鹿柔软的毛发,阳光洒在草地上,投下斑驳光影,画面充满关爱和温暖。
Sora2:

可灵2.5Turbo:

音频效果:可灵2.5Turbo<Sora2。Sora2对该prompt自发配音为长台词:“每一次脆弱的心跳,都蕴藏着一个值得拯救的世界;每一次温柔的触碰,都包含着守护的承诺;当我们关爱野生动物,就是在关爱我们自己”。文本合情合理,真正理解了这个prompt想要传达的想法,人物声线温柔,节奏自然,同时也有符合自然景观的BGM,非常贴合公益广告的需求。
可灵2.5Turbo自发搭配的音效为鸟鸣,虽然也符合视频中的环境,但对于“公益广告”这个主题,表现仍要逊色几分。
Prompt13:翻译软件广告,一个商务风打扮的男士对着手机讲话,同时一个实时的音频频谱图出现在手机上空,随后这个频谱图变成中文文字“很高兴与你合作”。
Sora2:

可灵2.5Turbo:

- 音频效果:可灵2.5Turbo<Sora2。除了英文台词外,Sora2在中文台词上的表现也令人惊喜。该视频中Sora2自发配音为人物与智能手机的对话,上下文句意连贯,“很高兴与你合作”中文发音标准。同时我们也可以看到,人物在说出“prefect,message send”时,口型是符合台词节奏的,在人像生成上能够与音频协调,Sora2在这方面的确独占鳌头。
- 人像生成:可灵2.5Turbo<Sora2。可灵2.5Turbo虽然也尝试对人物进行配音,但听起来似乎是粤语与英语的结合,并无实际意义。同时,人物说话的口型与声音节奏契合度仍有欠缺。
04. 总结和展望
通过本轮评测,可以明确看到可灵系列在国产模型中持续领跑,稳居文生视频第一梯队前列。从早期版本到最新推出的可灵2.5 Turbo,它不仅保持了一贯优秀的视频清晰度,还针对用户需求不断完善情境理解和动态渲染功能。在实际使用中,无论是广告营销还是教育培训,展现出较大的商业化潜力。
另一方面,作为海外阵营代表之一,Sora2 尽管综合表现稍逊于头部国产模型,却也展现出了自身独特竞争优势。例如它对于语义指令执行过程中的创造性解读,以及富有艺术张力的视频输出,都让人眼前一亮。如果能够解决当前技术瓶颈,如提升视频解析精确度以及优化跨帧衔接,其未来发展同样值得期待!
随着文生视频技术持续迭代升级,我们正迈向一个全新的AI驱动影视创意时代。从简单文字输入,到自动生产媲美专业水准的视频作品,这种变革不仅降低了内容制作门槛,更赋予每个人讲述故事的新可能。在这条赛道上,无论是国产品牌还是国际巨头,都将在创新竞速中共同推动行业走向辉煌新篇章!
以上就是本次评测的全部内容,AGI-Eval 评测社区将持续追踪这场通往更强AI的演进之旅,关注我们,后续将带来更多模型的深度剖析,敬请期待!
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)