项目概述

PaddleVideo是飞桨官方出品的视频模型开发套件,旨在为视频领域的学术研究和产业实践提供丰富的工具和模型支持。该项目基于模块化设计,提供了多种视频理解任务的解决方案,包括动作识别、视频分类、动作定位、动作检测等。PaddleVideo支持多种前沿算法,并打造了产业级特色模型PP-TSM和PP-TSMv2,同时打通了数据生产、模型训练、压缩、预测部署的全流程。
在这里插入图片描述

核心特性

1. 丰富的模型库

PaddleVideo提供了多种先进的视频理解模型,包括:

  • PP-TSM:基于TSM(Temporal Shift Module)的高效动作识别模型
  • PP-TSMv2:轻量化行为识别模型,Kinetics-400精度75.16%,25fps的10s视频CPU推理时间仅需456ms
  • TokenShift:基于Transformer的行为识别模型
  • 2s-ACGN、CTR-GCN:基于骨骼点的行为识别模型
  • YOWO:单阶段时空动作检测模型

2. 全流程支持

PaddleVideo支持从数据准备到模型部署的完整流程:

  • 数据处理:提供视频抽帧、数据增强等工具
  • 模型训练:支持多种训练策略,如知识蒸馏、模型压缩等
  • 模型部署:支持Python预测引擎、C++预测引擎、服务端部署等多种方式

3. 产业级应用

PaddleVideo的应用场景覆盖多个行业:

  • 体育:动作识别、赛事分析
  • 互联网:视频内容推荐、智能封面生成
  • 工业:异常行为检测、设备监控
  • 医疗:医学影像分析、手术动作识别

安装指南

环境要求

  • Python 3.6+
  • PaddlePaddle 2.0+
  • 其他依赖库:请参考requirements.txt

安装步骤

  1. 安装PaddlePaddle
# CPU版本
pip install paddlepaddle
# GPU版本
pip install paddlepaddle-gpu
  1. 克隆PaddleVideo仓库
git clone https://gitee.com/paddlepaddle/PaddleVideo.git
cd PaddleVideo
  1. 安装依赖
pip install -r requirements.txt

快速开始

模型训练

# 单卡训练
python main.py --config_file configs/recognition/pptsm/pptsm_k400_8frames.yaml

# 多卡训练
python -m paddle.distributed.launch --gpus="0,1,2,3" main.py --config_file configs/recognition/pptsm/pptsm_k400_8frames.yaml

模型推理

python tools/predict.py --input_file example.mp4 --model_name PP-TSMv2 --device cpu

模型部署

  1. 导出模型
python tools/export_model.py --config_file configs/recognition/pptsm/pptsm_k400_8frames.yaml --save_dir inference_model
  1. 启动服务
python deploy/python_serving/main.py --model_dir inference_model --device cpu

性能指标

PP-TSMv2模型性能

数据集 精度 模型大小 推理时间(CPU)
Kinetics-400 75.16% 22M 456ms/10s视频

与其他模型对比

模型 精度 推理速度
PP-TSM 74.38% 520ms/10s视频
PP-TSMv2 75.16% 456ms/10s视频
SlowFast 74.5% 2052ms/10s视频

最新动态

2025年更新内容

  • 发布轻量化行为识别模型PP-TSMv2
  • 新增知识蒸馏功能
  • 新增基于Transformer的行为识别模型TokenShift
  • 新增单阶段时空动作检测模型YOWO
  • 开源视频标注工具BILS

总结

PaddleVideo作为飞桨生态中的重要组成部分,为视频理解任务提供了全面的解决方案。其丰富的模型库、高效的推理性能和便捷的部署方式,使其在学术研究和产业应用中都具有广泛的应用前景。随着持续的更新和优化,PaddleVideo将继续为开发者提供更加先进、易用的视频理解工具。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐