理解音频PCM
PCM(Pulse Code Modulation)也被称为脉冲编码调制,是数字通信的编码方式之一。PCM中的声音数据没有被压缩,它将输入的模拟信号进行采样、量化和编码,用二进制进行编码的数来代表模拟信号的幅度,即标准的数字音频数据。
在音频开发过程中,pcm是一个绕不开的音频格式,那么它是如何产生的呢?它的参数代表啥意思呢?
定义:
PCM(Pulse Code Modulation)也被称为脉冲编码调制,是数字通信的编码方式之一。PCM中的声音数据没有被压缩,它将输入的模拟信号进行采样、量化和编码,用二进制进行编码的数来代表模拟信号的幅度,即标准的数字音频数据。
来源:

1、麦克风的核心部件(如振膜或MEMS传感器)首先将声波(机械振动)转换为连续的模拟电信号。例如,声波压力变化使振膜振动,导致电容或线圈产生变化的电压/电流,形成模拟信号。
2、模拟信号处理,通过运算放大器提升信号强度,使用低通滤波器滤除信号中高于采样频率一半的高频成分,避免后续采样时的混叠失真。
3、模数转换(ADC):ADC模块将连续的模拟信号进行抽样和量化,最终传换成数字信号。
构成参数
采样率
采样率表示音频信号每秒的数字快照数。该速率决定了音频文件的频率范围。采样率越高,数字波形的形状越接近原始模拟波形。低采样率会限制可录制的频率范围,这可导致录音表现原始声音的效果不佳。一般数字音频常用的采样率电话频率8kHz、CD频率44.1kHz、DVD频率48kHz

根据奈奎斯特采样定理,采样率需至少是信号最高频率的2倍。例如,人耳上限约20kHz,因此CD的44.1kHz足够覆盖。
位深度(Bit Depth)
表示每个采样点的精度(如16位、24位、32位)。位深度越高,动态范围和信噪比越好(例如,16位的理论动态范围约96dB)。
通道
音源个数。例如两个麦克风采集声音就是两个声道。常见的音频有立体声(stereo)和单声道(mono)两种类型,立体声包含左声道和右声道。另外还有环绕立体声等其它不太常用的类型。
PCM音频数据存储方式
如果是单声道的音频文件,采样数据按时间的先后顺序依次存入(有的时候也会采用LRLRLR方式存储,只是另一个声道的数据为0),如果是双声道的话就按照LRLRLR的方式存储,存储的时候与字节序有关。
下图展示的是8bit和16bit,单声道和多声道的存储方式示意图:

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)