作者公众号 大数据与AI杂谈 (TalkCheap),转载请标明出处

本文涉及的视频部分,无法插入,看视频Demo的可以去我的公众号看。

前几天刚写完一篇 AIGC视频生成产品能力现状观察总结(截止2025年7月),文中回顾了十款国产AI视频生成产品在过去半年的发展情况。在文章最末尾,我吐槽了智谱清影在半年前就是三流产品,加上半年没实质性的更新,糟糕的表现,让我断定它几乎和Haiper一样,就要完蛋了。

然而,没想到,打脸来得这么快。仅仅在我文章发完以后才两天,清影居然更新了。。。而且,这次更新,不夸张的说,几乎让它脱胎换骨了,或许综合素质还赶不上可灵,但单纯论画面质量和人物运动稳定性能力来说,智谱清影大概已经摆脱三流产品的水平,几乎达到和接近当前国产AI生视频产品第一梯队的水准了(乃至我甚至怀疑,他们这是换了团队吗?还是重头训练了整个模型?)

图片

正如清影的版本更新公告所说的,这次更新主要体现在三个方面,下面我就简单记录一下这两天使用下来的初步感受并讨论一下它当前的优缺点。

首先说画面稳定性吧,因为我个人认为这是之前清影最大的问题。无论你上传的画面内容有多清晰,生成的视频,多数只能实现微动的效果,但凡涉及到幅度稍微大一点的运动画面,很大概率都会出现各种扭曲和变形,就像金属溶化流动的那种感觉。这也就导致在多数的情况下,根本无法实现提示词所描述的内容,生成的视频也完全不可用。

而这次版本更新以后,最显著的变化,就是这个问题得到了解决。不论是物体本身的大幅度运动,还是镜头快速移动的场景,基本都能够比较好的处理,除非提示词非常不合理或者是高难度的动作,否则出现画面畸形的概率很低。

先看个文生视频,两美女逛街喝啤酒。

然后看个真实照片生成快速奔跑画面(未做后处理加速),选这个画面是因为真实照片画面比较杂乱,然后花草树木的各种细节。比AI生成的简单干净的画面难度要大

可以看到,快速运动的情况下,画面保持得还是不错的。如果要说不足的话,那就是如果有些画面,人物的脸部在画面中比较小的话,还是会有明显的扭曲模糊,相比其它优秀产品,有些能做到较小的脸部画面依然保持五官可辨认,不会出现明显扭曲模糊。

其次是运动的物理规律的提升,比如人体肢体的动作,头发,衣服,合理的光线照明和阴影效果,各种物体的运动规律之类。显然,只有在画面内容不变形的基础上,这些物理运动规律的正确性才能进一步展现出来。这在之前画面本身就扭曲的情况下,自然也是无从谈起的。而这次更新后,能明显看到清影的人物运动合理性已经达到了非常高的水准,可能还比不上海螺AI,但也能完成很多其它产品做不到的动作画面了。

画个吃播视频,米饭仙女。。。(文生视频)

吃个面(文生视频,面汤抖动好真实),不过,多吃几口就不行了

弹吉他唱摇滚(图生视频)

难度大一点,下面这个徒手倒立的动作(图生视频),我试过很多产品,都做不出来。而清影完成的视频,虽然从物理规律的角度来说还有进一步改进的空间(比如用力时,手臂应该更加弯曲一些),但画面本身已经很逼真了。

总之,我试过很多不同的运动场景,应该说和最优秀的几个产品比起来,在不同的运动场景上各有输赢,并非绝对的孰优孰劣,大致是和不同模型训练时特定动作的素材多少有关。

比如,扔酒瓶的杂技是不行的 ;)

最后是画面分辨率和画质本身,清影在半年前就提供了如图所示的基础参数设置,包括“质量更佳”的生成模式,60帧的帧率,和高达4K的分辨率,编码的码率也很高,相比其它产品16到24帧的帧率,多数最高到720乃至1080p分辨率的产品来说,清影的这个参数不可谓不高。

图片

但在这次更新之前,这些参数几乎毫无意义,因为生成的画面内容本身质量极端糟糕,所以观感清晰度甚至不如其它产品480p的效果。这种情况下,更高的分辨率和帧率只是个笑话。而这次更新之后,这些参数开始有了真正的意义。运动质量和画面稳定性的大幅改进,让画面分辨率有了用武之处。

(照片图生视频,三星堆文物)

不过我个人感觉,对画面质量影响最大的还是速度更快和质量更佳这个生成模式变量。分辨率在多数情况下1080P也差不多够用了,因为你的原图,如果也是AI生成的,除非经过精细的后处理,否则多半分辨率也不会太高(很多快速提高分辨率的方式,即使把图片分辨率提高了,图片细节本身也并没有增加,反而会有过度锐化的现象,不如不提高)。至于帧率30和60的区别,在快速运动画面中也许可以看出些许区别的,但不多。

所以我个人体感,如果追求生成的速度,可能1080p+帧率30+质量更佳模式,是一个比较合适的搭配,效果已经完全能够接受。但毕竟现在清影的会员只有VIP和免费两档,各种不同参数的设置也没有积分消耗多少的区别(因为压根就没有积分,只有可否使用两档),所以如果你不怕生成速度慢,也可以尽可能选最高参数配置,哪怕结果差别不大,但心理上,总会觉得保不齐有点作用呢?

(照片图生视频,甘南草原)

不过,最高参数配置下生成的视频的体积确实不小,4K10秒60帧的视频(实际图生视频1:1的画面,分辨率貌似最高是2K*2K,而其他比例,好像有些可以达到更高一些,文生视频甚至真的可以达到4K*3K左右的分辨率),如果是比较复杂的画面配合快速运动的镜头,这样生成的视频甚至可能可以达到200多MB的惊人体积。(但一般多数情况在15-40MB之间)

然后再说10s这个时长参数,其他产品目前大体生成视频的时长是4-6秒之间(但有不少产品提供视频延续的功能),清影的这个参数怎么说呢,有一定的作用,但是可能得看合适的画面和提示词,我试验下来,很多10s的视频会重复动作,或者放慢动作,导致实际作用不明显。

我总体感觉,是因为清影生成的视频,对一个视频中场景或镜头切换的实现能力不足,所以很大程度上局限在初始画面的内容框架中,导致延长时长以后,画面内容的变化不足以支撑时长。从而出现循环重复或者放慢动作的现象来填满10s的时间。

说完改进的部分,再说一下当前还有待提高的部分。首先是功能方面,首尾帧和参考生视频能力也还缺失,但之前显然最基础的单图生视频能力的改进是最重要的,这一部分可以等。另外,视频音效配音这一块,基本是不能用的,大体生成的都是噪音,和优秀的竞品相比有不小的差距。

最后,简单总结一下整体感受

总体看起来,我猜智谱大概是因为拿到了进一步的融资,成为AI 六小龙中为数不多还算运气比较好的厂商,因此得以把之前表现糟糕的清影AI视频继续迭代了下来,并实现了显著改进。(有钱可烧确实好)

在版本更新之后,清影的画面综合质量,物理运动规律,提示词遵循能力都有了大幅提升,几乎达到第一梯队水平,功能完备度虽然还有很多缺失,有待改进,但架不住价格便宜。VIP会员对智谱的所有产品通用,不到40元一个月,哪怕仅仅使用AI视频这部分模块,能够无限量生成4K视频,4个并发队列,等待时间基本在几分钟左右,还能要求什么呢?只是不知道质量提升之后,要是将来能够进一步继续完善功能,这样的价格还能维持多长时间,毕竟据说去年一年亏了20亿,留给它烧钱的时间也不多了。

图片

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐