🎤 第一步:采集模拟信号

声音在物理上是一种连续波,通过空气等介质的振动传播。采集声音的第一步,是用麦克风(学名“传声器”)将这种物理振动转换成连续的模拟电信号。麦克风内部的振膜会随着声波振动,从而产生与声波波形变化一致的电流或电压信号。这就完成了从声波到模拟信号的转换。

🔄 第二步:模数转换(ADC)

模拟信号是连续的,而计算机只能处理离散的数字信号(0和1)。模数转换(Analog-to-Digital Conversion, ADC)就是这个“翻译”过程,它通常包含三个核心环节:采样、量化和编码。

1. 采样

采样就是在时间轴上,每隔一段时间对模拟信号“抓取”一个瞬间的样本值。这就像用相机进行高速连拍,将连续的动作分解为一连串的静态照片。

  • 采样率:指每秒采样的次数,单位是赫兹(Hz)。采样率越高,对原始声音的记录就越密集,还原出的声音也越真实。
  • 关键定理奈奎斯特-香农采样定理指出,采样率必须高于原始信号中最高频率的两倍,才能无失真地还原出原始信号。人耳的听觉范围大约在20Hz到20kHz,因此CD品质的音频采用44.1kHz的采样率(略高于40kHz),这能保证完美还原人耳可闻的所有频率。
2. 量化

采样得到的样本点在幅度(振幅)上仍然是连续值。量化就是将这些连续的幅度值“四舍五入”到有限个离散的等级上,使其能够用数字表示。

  • 位深度:也叫采样精度,指用多少个二进制位来表示一个采样点的幅度值。常见的位深度有16bit(CD标准)或24bit(DVD标准)。
  • 量化等级:一个16bit的精度,可以将幅度划分为 (2^{16} = 65536) 个不同的等级。位深度越高,划分的等级越精细,表示声音的强弱(振幅)就越精确,量化过程中引入的失真(量化噪声)也就越小。
3. 编码

编码是将量化后的一系列离散的整数值,按照一定的格式转换为二进制码流(由0和1组成)的过程。最常用、最基础的编码方式是PCM(脉冲编码调制)。经过PCM编码后得到的数据,就是最原始的数字化音频数据,常被称为PCM音频数据。

📊 关键参数与数据量

了解以下几个概念,有助于你把握音频质量与文件大小之间的平衡:

  • 声道数:指采集或播放声音时使用的独立音频通道数量。单声道(Mono)使用一个通道,立体声(Stereo)使用两个通道,能营造空间感。
  • 比特率:也称为码率,指每秒音频数据所占的比特数,单位是bps。对于未压缩的PCM音频,其计算公式为:比特率 = 采样率 × 位深度 × 声道数。例如,CD音质(44.1kHz, 16bit, 立体声)的比特率约为1411.2 Kbps。
  • 文件大小:一段音频的原始数据量(字节)可以通过 采样率 × (位深度/8) × 声道数 × 时长(秒) 来计算。

下面的流程图总结了从模拟声音到数字文件的完整转换过程:

声波
连续模拟信号
麦克风采集
模拟电信号
模数转换 ADC
采样
时间上离散化
量化
幅度上离散化
编码
转换为二进制
PCM数字音频数据
存储为文件
如WAV格式

💡 实际应用与格式

  • PCM与“无损”:PCM编码本身可以认为是一种“无损”格式,因为它直接保留了采样和量化后的原始数据,是高质量音频处理和存储的理想选择。常见的WAV文件格式,就是在PCM数据前加上一个包含采样率、位深度等参数的文件头而形成的。
  • 从数字回模拟:当播放数字音频时,计算机会通过数模转换(DAC) 过程,将数字信号重新转换为模拟电信号,这个信号再驱动扬声器振动,还原成我们听到的声音。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐