在音频开发过程中,pcm是一个绕不开的音频格式,那么它是如何产生的呢?它的参数代表啥意思呢?

定义:

PCM(Pulse Code Modulation)也被称为脉冲编码调制,是数字通信的编码方式之一。PCM中的声音数据没有被压缩,它将输入的模拟信号进行采样、量化和编码,用二进制进行编码的数来代表模拟信号的幅度,即标准的数字音频数据。

来源:

1、麦克风的核心部件(如振膜或MEMS传感器)首先将声波(机械振动)转换为连续的‌模拟电信号‌。例如,声波压力变化使振膜振动,导致电容或线圈产生变化的电压/电流,形成模拟信号。

2、‌模拟信号处理,通过运算放大器提升信号强度,使用低通滤波器滤除信号中高于采样频率一半的高频成分,避免后续采样时的混叠失真。

3、模数转换(ADC):ADC模块将连续的模拟信号进行抽样和量化,最终传换成数字信号。

构成参数

采样率

采样率表示音频信号每秒的数字快照数。该速率决定了音频文件的频率范围。采样率越高,数字波形的形状越接近原始模拟波形。低采样率会限制可录制的频率范围,这可导致录音表现原始声音的效果不佳。一般数字音频常用的采样率电话频率8kHz、CD频率44.1kHz、DVD频率48kHz

根据‌奈奎斯特采样定理‌,采样率需至少是信号最高频率的2倍。例如,人耳上限约20kHz,因此CD的44.1kHz足够覆盖。

位深度(Bit Depth)

表示每个采样点的精度(如16位、24位、32位)。位深度越高,动态范围和信噪比越好(例如,16位的理论动态范围约96dB)。

通道

音源个数。例如两个麦克风采集声音就是两个声道。常见的音频有立体声(stereo)和单声道(mono)两种类型,立体声包含左声道和右声道。另外还有环绕立体声等其它不太常用的类型。

PCM音频数据存储方式

如果是单声道的音频文件,采样数据按时间的先后顺序依次存入(有的时候也会采用LRLRLR方式存储,只是另一个声道的数据为0),如果是双声道的话就按照LRLRLR的方式存储,存储的时候与字节序有关。

下图展示的是8bit和16bit,单声道和多声道的存储方式示意图:

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐