腾讯混元Custom视频生成模型,主体一致性效果达到开源SOTA?(附代码运行流程)
混元Custom模型在视频生成领域展现了卓越的能力,特别是在保持身份特征一致性和连贯性方面。该模型支持多种模态输入,包括文本、图像、音频和视频,为创作者提供了丰富的控制条件,以实现多样化的创意表达。目前,模型已开源单主体视频生成功能,用户只需上传一张主体图片并输入视频描述,模型便能识别图片中的身份信息,并生成在不同动作、服饰和场景中连贯自然的视频内容。这一功能为视频创作提供了极大的灵活性和创新空间

根据官方资料,混元Custom模型在单人、非人物体、多主体交互等多种场景中,都能保持身份特征在视频全程的一致性与连贯性,避免“主体漂移”、“人物变脸” 等问题。
该模型融合了文本、图像、音频、视频等多种模态输入,为视频生成提供丰富控制条件,创作者可依据需求灵活组合,实现多样化创意表达,呼应模型名称中的Custom一词。
🔗官网https://hunyuancustom.github.io/:
目前已开源单主体视频生成能力,即上传一张主体图片(比如一个人的照片),然后给出视频描述的提示词,模型就能识别图片中的身份信息,在不同动作、服饰与场景中生成连贯自然的视频内容。
目前已开源单主体视频生成能力,即上传一张主体图片(比如一个人的照片),然后给出视频描述的提示词,模型就能识别图片中的身份信息,在不同动作、服饰与场景中生成连贯自然的视频内容。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)