一、接口概述​
123 数字人 API 接口是用于实现数字人视频合成的核心接口,支持通过输入音频与视频模板生成数字人播报内容的功能。该接口遵循标准化设计,可高效对接各类应用场景,为用户提供便捷的数字人内容生产能力,适用于智能客服、虚拟主播、教育培训等多领域场景。​
二、核心功能流程​
接口通过type参数区分任务提交与查询操作:当type=start时,用户需提交接口密钥key、音频 URLinputAudioUrl,可选择提供视频模板 URLtemplateVideoId或已有数字人角色 IDtemplateId,系统接收参数后生成任务 IDtaskId并返回;当type=query时,凭借taskId可查询任务状态,状态包含提交、排队、合成中、成功、失败等阶段,合成成功后将返回最终视频地址videoUrl。​
三、参数规范与技术要求​
(一)请求参数​
必选参数:key(接口密钥)、inputAudioUrl(音频 URL,需满足≤90 分钟、≤2G,支持 wav/mp3 等格式)、type(操作类型标识)。​
可选参数:templateVideoId(视频模板 URL,首次使用时提交以获取templateId)、templateId(数字人角色 ID)、taskId(查询任务时使用)。​
(二)媒体资源标准​
视频需满足≤3GB、10 秒 - 4 分钟时长、mp4/mov 格式、≤4K 分辨率、≥24fps 帧率,遵循 SDR-Rec.709 色彩标准;音频需符合≤90 分钟时长、≤2G 大小,支持 wav/mp3 等格式。​
四、返回结果结构​
接口返回包含code(状态码)、msg(状态信息)、data(结果数据集),成功时data包含taskId、status、videoUrl等字段,失败时通过debug字段提供调试信息,整体响应结构满足工程化对接需求。​

来源:酷虎云123数字人api接口开放平台

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐