【音视频】FFmpeg编程入门
av_register_all():注册所有组件,4.0已经弃用avdevice_register_all()对设备进行注册,比如V4L2等。初始化网络库以及网络加密协议相关的库(比如openssl)负责申请一个AVFormatContext结构的内存,并进行简单初始化释放该结构里的所有东西以及该结构本身关闭解复用器。关闭后就不再需要使用avformat_free_context 进行释放。打开输
播放器框架
常用音视频术语
- 容器/文件(Conainer/File):即特定格式的多媒体文件,比如mp4、flv、mkv等。
- 媒体流(Stream):表示时间轴上的一段连续数据,如一段声音数据、一段视频数据或一段字幕数据,可以是压缩的,也可以是非压缩的,压缩的数据需要关联特定的编解码器(有些码流音频他是纯PCM)。
- 数据帧/数据包(Frame/Packet):通常,一个媒体流是由大量的数据帧组成的,对于压缩数据,帧对应着编解码器的最小处理单元,分属于不同媒体流的数据帧交错存储于容器之中。
- 编解码器:编解码器是以帧为单位实现压缩数据和原始数据之间的相互转换的。
常用概念-复用器
- 复用器

- 解复用器

常用概念-编解码器
- 视频编码器

- 音频编码器

FFmpeg的整体结构

FFMPEG有8个常用库:
- AVUtil:核心工具库,下面的许多其他模块都会依赖该库做一些基本的音视频处理操作。
- AVFormat:文件格式和协议库,该模块是最重要的模块之一,封装了Protocol层和Demuxer、Muxer层,使得协议和格式对于开发者来说是透明的。
- AVCodec:编解码库,封装了Codec层,但是有一些Codec是具备自己的License的,FFmpeg是不会默认添加像libx264、FDK-AAC等库的,但是FFmpeg就像一个平台一样,可以将其他的第三方的Codec以插件的方式添加进来,然后为开发者提供统一的接口。
- AVFilter:音视频滤镜库,该模块提供了包括音频特效和视频特效的处理,在使用FFmpeg的API进行编解码的过程中,直接使用该模块为音视频数据做特效处理是非常方便同时也非常高效的一种方式。
- AVDevice:输入输出设备库,比如,需要编译出播放声音或者视频的工具ffplay,就需要确保该模块是打开的,同时也需要SDL的预先编译,因为该设备模块播放声音与播放视频使用的都是SDL库。
- SwrRessample:该模块可用于音频重采样,可以对数字音频进行声道数、数据格式、采样率等多种基本信息的转换。
- SWScale:该模块是将图像进行格式转换的模块,比如,可以将YUV的数据转换为RGB的数据,缩放尺寸由1280*720变为800*480。
- PostProc:该模块可用于进行后期处理,当我们使用AVFilter的时候需要打开该模块的开关,因为Filter中会使用到该模块的一些基
础函数。
FFmpeg函数简介
av_register_all():注册所有组件,4.0已经弃用- avdevice_register_all()对设备进行注册,比如V4L2等。
- avformat_network_init();初始化网络库以及网络加密协议相关的库(比如openssl)
FFmpeg函数简介-封装格式相关
- avformat_alloc_context();负责申请一个AVFormatContext结构的内存,并进行简单初始化
- avformat_free_context();释放该结构里的所有东西以及该结构本身
- avformat_close_input();关闭解复用器。关闭后就不再需要使用avformat_free_context 进行释放。
- avformat_open_input();打开输入视频文件
- avformat_find_stream_info():获取音视频文件信息
- av_read_frame(); 读取音视频包
- avformat_seek_file(); 定位文件
- av_seek_frame():定位文件
FFmpeg函数简介-封装格式相关

FFmpeg解码函数简介-解码器相关
- avcodec_alloc_context3(): 分配解码器上下文
- avcodec_find_decoder():根据ID查找解码器
- avcodec_find_decoder_by_name():根据解码器名字
- avcodec_open2(): 打开编解码器
avcodec_decode_video2():解码一帧视频数据avcodec_decode_audio4():解码一帧音频数据- avcodec_send_packet(): 发送编码数据包
- avcodec_receive_frame(): 接收解码后数据
- avcodec_free_context():释放解码器上下文,包含了avcodec_close()
- avcodec_close():关闭解码器
![[Pasted image 20250327224111.png|500]]
FFmpeg 3.x 组件注册方式
我们使用ffmpeg,首先要执行av_register_all,把全局的解码器、编码器等结构体注册到各自全局的对象链表里,以便后面查找调用。

FFmpeg 4.x 组件注册方式
FFmpeg内部去做,不需要用户调用API去注册。
以codec编解码器为例:
- 在configure的时候生成要注册的组件./configure:7203:print_enabled_components libavcodec/codec_list.c AVCodec codec_list $CODEC_LIST
这里会生成一个codec_list.c 文件,里面只有static const AVCodec * const codec_list[]数组。 - 在libavcodec/allcodecs.c将static const AVCodec * const codec_list[]的编解码器用链表的方式组织起来
FFmpeg 4.0.2 组件注册方式
FFmepg内部去做,不需要用户调用API去注册。
对于demuxer/muxer(解复用器,也称容器)则对应
- libavformat/muxer_list.c libavformat/demuxer_list.c 这两个文件也是在configure的时候生成,也就是说直接下载源码是没有这两个文件的。
- 在libavformat/allformats.c将demuxer_list[]和muexr_list[]以链表的方式组织。其他组件也是类似的方式。
FFmpeg数据结构简介
AVFormatContext
封装格式上下文结构体,也是统领全局的结构体,保存了视频文件封装格式相关信息。
AVInputFormat demuxer
每种封装格式(例如FLV, MKV, MP4, AVI)对应一个该结构体
AVOutputFormat muxer
每种封装格式(例如FLV, MKV, MP4, AVI)对应一个该结构体
AVStream
视频文件中每个视频(音频)流对应一个该结构体。
AVCodecContext
编解码器上下文结构体,保存了视频(音频)编解码相关信息。
AVCodec
每种视频(音频)编解码器(例如H.264解码器)对应一个该结构体。
AVPacket
存储一帧压缩编码数据。
AVFrame
存储一帧解码后像素(采样)数据。
FFmpeg数据结构之间的关系
AVFormatContext和AVInputFormat之间的关系:
- AVFormatContext API调用
- AVInputFormat 主要是FFMPEG内部调用
AVFormatContext 封装格式上下文结构体
数据
struct AVInputFormat *iformat;
AVInputFormat 每种封装格式(例如FLV, MKV, MP4)
方法
int (*read_header)(struct AVFormatContext * );
int (*read_packet)(struct AVFormatContext *, AVPacket *pkt);
在FFmpeg中,AVFormatContext 与 AVInputFormat(或 AVOutputFormat)的关系可以理解为 “上下文实例” 与 “格式处理方法集合” 的关系,具体如下:
1. 核心结构体定义
AVFormatContext
- 作用:存储音视频格式上下文的核心结构体,包含文件格式、编解码器、流信息、缓冲区等状态。
- 分类:
- 输入时为 输入上下文(对应
AVInputFormat), - 输出时为 输出上下文(对应
AVOutputFormat)。
- 输入时为 输入上下文(对应
- 关键成员:
iformat(输入时):指向关联的AVInputFormat结构体。oformat(输出时):指向关联的AVOutputFormat结构体。
AVInputFormat / AVOutputFormat
- 作用:
AVInputFormat:定义输入格式(如MP4、FLV)的解析方法(如读取头部、数据包)。AVOutputFormat:定义输出格式(如MP4、MKV)的封装方法(如写入头部、数据包)。
- 关键成员:
- 一系列函数指针(如
read_header、read_packet、write_header等),用于实现具体格式的读写逻辑。
- 一系列函数指针(如
2. 两者的关系
2.1 绑定关系
-
AVFormatContext依赖AVInputFormat/AVOutputFormat:- 当创建输入上下文时(如通过
avformat_open_input),FFmpeg会根据文件头或扩展名匹配对应的AVInputFormat,并将其赋值给AVFormatContext->iformat。 - 同理,输出上下文(如通过
avformat_alloc_output_context2)会关联AVOutputFormat到oformat。
- 当创建输入上下文时(如通过
-
示例:
AVFormatContext *fmt_ctx = NULL; AVInputFormat *input_fmt = av_find_input_format("mp4"); // 查找MP4格式的解析器 avformat_open_input(&fmt_ctx, "input.mp4", input_fmt, NULL); // 关联fmt_ctx和input_fmt
2.2 生命周期
-
注册阶段:
- FFmpeg在初始化时(如
avformat_network_init())会注册所有支持的AVInputFormat和AVOutputFormat(类似编解码器的注册)。
- FFmpeg在初始化时(如
-
匹配阶段:
- 打开文件时,FFmpeg通过
av_probe_input_format或指定格式名找到对应的AVInputFormat。
- 打开文件时,FFmpeg通过
-
上下文创建:
AVFormatContext由AVInputFormat或AVOutputFormat驱动创建,并持有其方法指针。
3. 常见用法
-
输入场景:
// 1. 自动检测输入格式并打开文件 avformat_open_input(&fmt_ctx, "input.mp4", NULL, NULL); // fmt_ctx->iformat 自动关联到MP4对应的AVInputFormat // 2. 手动指定输入格式 AVInputFormat *input_fmt = av_find_input_format("avi"); avformat_open_input(&fmt_ctx, "input.avi", input_fmt, NULL); -
输出场景:
// 创建输出上下文并指定格式(如MP4) avformat_alloc_output_context2(&fmt_ctx, NULL, "mp4", "output.mp4"); // fmt_ctx->oformat 指向MP4对应的AVOutputFormat
FFmpeg数据结构之间的关系

AVFormatContext, AVStream和AVCodecContext之间的关系


区分不同的码流
- AVMEDIA_TYPE_VIDEO视频流
video_index = av_find_best_stream(ic, AVMEDIA_TYPE_VIDEO,-1,-1, NULL, 0)
- AVMEDIA_TYPE_AUDIO音频流
audio_index = av_find_best_stream(ic, AVMEDIA_TYPE_AUDIO,-1,-1, NULL, 0)
AVPacket 里面也有一个index的字段
AVPacket和AVFrame之间的关系
![[Pasted image 20250327233546.png|600]]
![[Pasted image 20250327233602.png|600]]
Fmpeg数据结构分析
AVFormatContext
- iformat:输入媒体的AVInputFormat,比如指向AVInputFormat ff_flv_demuxer
- nb_streams:输入媒体的AVStream 个数
- streams:输入媒体的AVStream []数组
- duration:输入媒体的时长(以微秒为单位),计算方式可以参考av_dump_format()函数。
- bit_rate:输入媒体的码率
AVInputFormat
- name:封装格式名称
- extensions:封装格式的扩展名
- id:封装格式ID
- 一些封装格式处理的接口函数,比如read_packet()
AVStream
- index:标识该视频/音频流
- time_base:该流的时基,PTS*time_base=真正的时间(秒)
- avg_frame_rate: 该流的帧率
- duration:该视频/音频流长度
- codecpar:编解码器参数属性
AVCodecParameters
- codec_type:媒体类型,比如AVMEDIA_TYPE_VIDEO、AVMEDIA_TYPE_AUDIO等
- codec_id:编解码器类型, 比如AV_CODEC_ID_H264、AV_CODEC_ID_AAC等。
AVCodecContext
- codec:编解码器的AVCodec,比如指向AVCodec ff_aac_latm_decoder
- width, height:图像的宽高(只针对视频)
- pix_fmt:像素格式(只针对视频)
- sample_rate:采样率(只针对音频)
- channels:声道数(只针对音频)
- sample_fmt:采样格式(只针对音频)
AVCodec
- name:编解码器名称
- type:编解码器类型
- id:编解码器ID
- 一些编解码的接口函数,比如int (*decode)()
AVPacket
- pts:显示时间戳
- dts:解码时间戳
- data:压缩编码数据
- size:压缩编码数据大小
- pos:数据的偏移地址
- stream_index:所属的AVStream
AVFrame
- data:解码后的图像像素数据(音频采样数据)
- linesize:对视频来说是图像中一行像素的大小;对音频来说是整个音频帧的大小
- width, height:图像的宽高(只针对视频)
- key_frame:是否为关键帧(只针对视频) 。
- pict_type:帧类型(只针对视频) 。例如I, P, B
- sample_rate:音频采样率(只针对音频)
- nb_samples:音频每通道采样数(只针对音频)
- pts:显示时间戳
更多资料
更多资料参考:https://github.com/0voice
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)