项目介绍

本项目名为“VideoTalk”,主要实现了对应视频文字的逐秒识别,能基于视频内容与用户进行聊天。其中的“视晓”智能体,能对用户的要求和对话进行思考响应,尽可能地回答用户对于视频的问题,并支持扮演视频/动漫里的相关角色。

使用示例

运行后端

cd bg
pip3 -r .\requirements.txt
python3 .\paddle_service.py
运行后会在8001开启端口,主要支持了paddleocr接口、文心4.5 VL思考模型的转发接口

打开chrome浏览器

打开拓展程序 > 加载未打包的拓展程序 > 选择plugin文件夹
这时插件会多一个A的图标,打开bilibili或YouTube等有视频的网站集可以开始对话,原理主要为逐秒用paddleocr识别文字,在调用ernie4.5进行视频内容的对话

具体使用已发布小红书

用VideoTalk可以和视频对话啦 1、视频学习不理解的随… http://xhslink.com/o/6hZSlkIB3QE
复制后打开【小红书】查看笔记!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐