数字音频压缩史:从比特、心理声学到沉浸式与智能音频
数字音频压缩技术经历了从模拟到数字的变革,核心是脉冲编码调制(PCM)将声音转化为二进制数据。CD标准确立了高保真音频基准,但也暴露出数据量庞大的问题。音频压缩分为无损和有损两种:无损通过消除冗余完全保留信息,而有损则利用心理声学模型(如绝对听阈、频率掩蔽和时间掩蔽)去除人耳难以察觉的信息。数学工具如改进离散余弦变换(MDCT)和量化技术进一步优化压缩效率。MP3、AAC等有损格式实现了高压缩比,
数字音频压缩史:从比特、心理声学到沉浸式与智能音频
引言:从模拟到数字的转变与压缩需求的诞生
在数字时代之前,声音的记录和传播完全依赖于模拟技术——从爱迪生发明的留声机到黑胶唱片和磁带,声音以连续物理波形的形式被刻录和复制。然而,20世纪中叶信息论和数字计算的兴起,为一种全新的、更精确、更持久的声音记录方式奠定了基础。这场变革的核心是数字音频的诞生,它将声音从脆弱的物理媒介中解放出来,转化为可被计算机处理和传输的二进制数据流。但这种解放并非没有代价,数字音频的原始保真度带来了巨大的数据量,从而催生了对高效压缩技术的迫切需求。
数字音频的诞生:脉冲编码调制 (PCM)
所有现代数字音频技术的基础都可以追溯到一个名为脉冲编码调制(Pulse-Code Modulation, PCM)的核心概念。PCM由英国工程师亚历克·里夫斯(Alec Reeves)于1937年构想,是一种将连续的模拟信号转换为离散的数字信号的标准方法 1。这个过程包含三个关键步骤:采样、量化和编码 2。
- 采样 (Sampling):以固定的时间间隔(即采样率)测量模拟信号的振幅。根据奈奎斯特-香农采样定理,采样率必须至少是信号最高频率的两倍,才能无失真地重建原始信号 1。
- 量化 (Quantization):将每次采样的振幅值映射到一个预定义的离散数字级别范围内。这个范围的大小由位深度(bit depth)决定 1。
- 编码 (Encoding):将每个量化后的级别值转换为二进制代码 2。
PCM流的保真度由其两个基本属性——采样率和位深度——共同决定 1。更高的采样率和更大的位深度意味着更接近原始模拟信号的数字表示,但同时也意味着更大的数据量。线性脉冲编码调制(Linear PCM, LPCM)是PCM的一种特定形式,其中量化级别是线性均匀的,它成为了计算机、数字电话和其他数字音频应用的标准格式 1。WAV和AIFF等常见的无压缩音频文件格式,本质上就是存储原始LPCM数据的容器 1。
压缩光盘“红皮书”标准:高保真度的高昂代价
1980年代,索尼(Sony)和飞利浦(Philips)联合制定了音频压缩光盘(Compact Disc Digital Audio, CD-DA)的标准,即“红皮书”(Red Book)标准,它定义了消费级数字音频质量的基准 6。该标准规定,音频应以双声道(立体声)、16位位深度、44,100赫兹(44.1 kHz)采样率的LPCM格式进行编码 6。
这个标准带来了前所未有的音频保真度,能够再现高达22.05 kHz的频率,覆盖了人类听觉的全部范围 6。然而,这种高质量的代价是巨大的数据速率。其比特率计算如下:
KaTeX parse error: Expected group as argument to '\=' at position 150: …ext{sample}} \= ̲1,411,200 \\fra…
这意味着每分钟的CD质量音频需要超过10MB的存储空间 6。这个“黄金标准”虽然在音质上取得了巨大成功,但也为数字音频的普及制造了一个核心难题。
根本问题:存储与带宽的限制
在20世纪80年代末和90年代初,个人电脑的硬盘容量以兆字节(MB)为单位计算,而互联网的连接主要依赖于速度缓慢的拨号调制解调器 10。在这样的技术背景下,CD标准定义的庞大文件体积使得数字音频的存储、便携和网络传输变得极不现实。一首三分钟的歌曲需要大约30MB的空间,这在当时是难以接受的。
正是这种技术与需求之间的巨大鸿沟,催生了对音频压缩的强烈需求。工程师和科学家的目标变得清晰而紧迫:在尽可能不牺牲可感知音质的前提下,将文件大小缩减一个数量级甚至更多。CD标准本身既是成就也是挑战;它提供了一个公认的高质量基准,任何压缩技术都可以以此为参照进行评估。这种在“高质量、高成本”的基准与“质量尚可、低成本”的替代方案之间的张力,成为了贯穿整个音频压缩技术发展史的核心驱动力,推动了从MP3的诞生到现代无损流媒体服务的每一次技术革新。
表1:音频压缩关键发展年表
| 年份 | 事件/技术 | 关键意义 |
|---|---|---|
| 1982 | CD“红皮书”标准发布 | 确立了44.1 kHz/16位 LPCM作为消费级数字音频的质量基准,同时也暴露了其巨大的数据量问题。 |
| 1987 | 改进离散余弦变换 (MDCT) 提出 | 为现代有损压缩算法(如MP3, AAC)提供了核心的数学工具,解决了块变换中的伪影问题。 |
| 1993 | MPEG-1 Audio Layer III (MP3) 标准发布 | 首个实现约10:1压缩比且音质被广泛接受的音频格式,为数字音乐革命奠定了技术基础。 |
| 1997 | 高级音频编码 (AAC) 标准化 | 作为MP3的技术继承者,在同等比特率下提供更好的音质,后来被苹果公司广泛采用。 |
| 1999 | Napster上线 | 首个大规模P2P文件共享平台,利用MP3的小文件体积特性,颠覆了传统音乐产业的发行模式。 |
| 2000 | Ogg Vorbis 1.0发布 | 由Xiph.Org基金会推出的开源、免版税的MP3/AAC竞争者,后被Spotify等流媒体服务采用。 |
| 2001 | FLAC 1.0发布 | 开源无损音频编解码器发布,成为数字音乐归档和高保真分发的黄金标准。 |
| 2003 | iTunes音乐商店上线 | 苹果公司创建了首个成功的合法数字音乐下载生态系统,以AAC格式为主导。 |
| 2011 | Apple Lossless (ALAC) 开源 | 苹果公司将其专有的无损编解码器开源,增强了其在非苹果设备上的兼容性。 |
| 2012 | Opus编解码器标准化 | IETF推出的集语音和音乐编码于一体的低延迟、高效率编解码器,成为WebRTC的强制标准。 |
| 2021 | Apple Music全面提供无损和空间音频 | 标志着主流流媒体服务开始将高保真音频作为标准配置,推动行业向更高音质竞争。 |
| 2025 | Spotify推出无损音频服务 | 全球最大的流媒体平台最终加入无损音频竞争,标志着高保真流媒体成为行业主流。 |
第一部分:音频压缩的科学基础
音频压缩技术并非简单的“缩小文件”,而是一门融合了信息论、数学和人类生理学(特别是听觉科学)的精密学科。为了理解各种编解码器(codec)的演进,首先必须掌握其背后的两大基本原理:有损与无损的根本区别,以及利用人类听觉系统局限性的心理声学模型。
第一章:有损与无损压缩:一个根本性的二分法
数据压缩从根本上分为两大类:无损压缩和有损压缩,它们在目标和结果上截然不同。
无损压缩 (Lossless Compression) 的核心原则是“完全可逆”。它通过识别并消除数据中的统计冗余来实现压缩,而不丢弃任何原始信息 12。这与常见的ZIP或GZIP文件压缩工具的原理相似 12。当解压一个无损压缩的音频文件时,得到的数据与压缩前的原始数据是逐比特完全相同的 14。这种方法适用于那些对数据完整性要求极高的场景,例如专业音频制作、母带处理和长期数字归档,因为任何信息的丢失都是不可接受的 15。
有损压缩 (Lossy Compression) 则采取了一种截然不同的策略。它以牺牲部分数据为代价,换取远高于无损压缩的压缩率 15。其关键在于,它并非随机丢弃数据,而是根据特定的模型,永久性地移除那些被认为是“不重要”或“人耳难以察觉”的信息 16。这种数据移除是不可逆的,一旦压缩完成,丢失的信息就无法恢复 10。MP3、AAC和Ogg Vorbis等流行格式都属于有损压缩。它们的核心价值在于在文件大小和可感知音质之间取得平衡,使得在存储空间和网络带宽受限的条件下,数字音频的存储和传输成为可能 10。
第二章:人类听觉系统:感知编码的关键
有损压缩之所以能够成功,其“魔法”并非源于纯粹的数学技巧,而是对人类听觉系统(Human Auditory System, HAS)固有局限性的巧妙利用。研究这一领域的科学被称为心理声学(Psychoacoustics),它为音频编码器提供了丢弃哪些信息的“指导手册” 18。
绝对听阈 (Absolute Threshold of Hearing)
人类的耳朵只能听到特定频率范围内(通常是20赫兹到20,000赫兹)和特定音量以上的声音 20。绝对听阈描述了在完全安静的环境中,人耳能够感知的最轻微声音的音量,这个阈值随频率变化而变化 20。任何低于相应频率绝对听阈的声音信号,对于人耳来说都是不可闻的,因此可以在编码过程中被安全地丢弃,而不会对听感造成任何影响。
频率掩蔽:将噪声隐藏于众目睽睽之下
频率掩蔽,也称同时掩蔽(Simultaneous Masking),是心理声学中最重要的现象之一。当一个强信号(掩蔽音,masker)和一个频率相近的弱信号(被掩蔽音,maskee)同时出现时,强信号会提高其附近频率的听阈,导致弱信号变得不可闻 18。一个常见的例子是,在繁忙的街道上,汽车的轰鸣声会完全掩盖住旁边微弱的鸟鸣声 22。
有损编码器利用这一原理,构建心理声学模型来计算给定音频信号的掩蔽曲线。这条曲线定义了在每个频率点上,多大的噪声可以被主信号所掩蔽而不被察觉。编码器在量化过程中产生的噪声(量化噪声)如果被控制在掩蔽曲线以下,人耳就无法分辨出它与原始信号的区别 17。这使得编码器可以为被掩蔽的频率分量分配更少的比特,甚至不分配比特,从而将量化噪声巧妙地“隐藏”在更强的声音之下。
时间掩蔽:感知的回响
除了频率上的掩蔽,时间上同样存在掩蔽效应。当一个响亮的声音出现时,人耳的听觉感受器会变得饱和,需要一小段时间来恢复 18。这导致在这个响亮声音出现之前(前掩蔽,Backward Masking)和之后(后掩蔽,Forward Masking)的极短时间内,一些较弱的声音也会变得不可闻 18。后掩蔽效应比前掩蔽更为显著,可以持续几十到几百毫秒。编码器可以利用时间掩蔽,在响亮声音(如鼓点)的周围降低编码精度,进一步节省比特。
第三章:数学工具箱:从变换到量化
心理声学模型提供了“丢弃什么”的理论依据,而一系列数学工具则提供了“如何丢弃”的技术手段。
改进离散余弦变换 (MDCT)
为了应用心理声学模型,编码器需要首先分析音频信号的频率构成。MP3、AAC、Vorbis和Opus等现代有损编解码器普遍采用一种名为改进离散余弦变换(Modified Discrete Cosine Transform, MDCT)的数学工具 24。MDCT是一种傅里叶相关的变换,它能将一小段时域的音频采样块(称为“帧”)转换为频域的频谱系数 24。
与传统的离散余弦变换(DCT)相比,MDCT具有一个至关重要的特性:时间域混叠消除(Time-Domain Aliasing Cancellation, TDAC)。这意味着相邻的音频帧在变换时会有50%的重叠,这种“交叠相加”的特性可以完美地消除因将连续信号分割成块而可能产生的边界噪声(块效应伪影),确保在解码重建时音频信号的平滑过渡 24。
量化与比特分配
一旦通过MDCT获得了音频的频谱表示,编码过程就进入了最核心的“有损”环节:量化(Quantization)。量化是将精确的频谱系数值近似为一组有限的离散值的过程,这个过程会引入误差,即量化噪声 17。
这里的关键是比特分配(Bit Allocation)。编码器根据心理声学模型计算出的掩蔽曲线,为不同的频率分量分配不同数量的比特 28。对于人耳敏感且未被掩蔽的频率分量,编码器会分配较多的比特,进行精细量化,以保证高保真度。而对于那些低于听阈或被强烈掩蔽的频率分量,编码器则分配极少的比特,甚至不分配比特,进行粗略量化 17。这种根据感知重要性动态调整量化精度的过程,被称为自适应量化或感知量化,它是实现高效压缩同时保持高质量听感的根本机制 17。
从本质上看,有损压缩的过程可以被理解为一种复杂的“信息分诊”。首先,通过MDCT将音频信号从时域转换到频域,使其可被分析。接着,心理声学模型扮演“诊断医生”的角色,通过分析掩蔽效应,判断哪些频谱信息是“听不见的”,从而创建一个“感知预算”。最后,编码器作为“资源分配者”,将有限的“比特预算”优先投入到最重要的、可听见的频率信息上,同时对那些将被掩蔽的信息进行大刀阔斧的精度削减。这标志着从纯粹依赖数学冗余(如无损压缩)到一种受生物学启发的工程解决方案的深刻转变。它揭示了一个核心事实:音频信号中的“信息”价值并非均等,而是相对于人类观察者而言的。正是这一根本性的转变,解释了为何有损编解码器能够在数字时代取得如此巨大的成功。
第二部分:革命——MPEG-1 Audio Layer III (MP3)
在音频压缩的历史长河中,没有任何一个技术名词能像“MP3”一样,拥有如此深远的文化和商业影响力。它不仅是一种文件格式,更是一场技术革命的代名词。MP3的出现,将数字音乐从实验室和专业领域带入千家万户,并最终引发了对全球音乐产业的颠覆性重构。
第四章:MP3的起源:弗劳恩霍夫研究所与卡尔海因茨·勃兰登堡
MP3的故事始于20世纪80年代末的德国。当时,埃尔朗根-纽伦堡大学的迪特·塞策(Dieter Seitzer)教授有一个设想,即通过ISDN电话线创建一个“数字自动点唱机”,让人们可以按需收听音乐 29。然而,这个想法在当时被认为是“不可能实现的” 30。
为了证明其可行性,塞策教授将这个挑战交给了他的博士生——卡尔海因茨·勃兰登堡(Karlheinz Brandenburg) 29。勃兰登堡在弗劳恩霍夫集成电路研究所(Fraunhofer Institute for Integrated Circuits, IIS)领导一个研究团队,致力于数字音频广播(Digital Audio Broadcasting, DAB)技术的研究,这是欧盟赞助的EUREKA 147项目的一部分 11。
团队最初开发了LC-ATC(低复杂度自适应变换编码)和OCF(频域优化编码)等前身算法 11。OCF在1988年取得了重要突破,首次能够以每秒64千比特(kbit/s)的速率高质量编码单声道音乐,初步实现了通过电话线传输音乐的设想 11。1989年,这个算法被提交给了国际标准化组织ISO/IEC下的动态图像专家组(Moving Picture Experts Group, MPEG),参与其首个音视频编码标准(MPEG-1)的制定 11。
第五章:解构MP3:世界上最著名的编解码器如何工作
MPEG-1标准包含三个音频编码层次(Layer I, II, III),其中Layer III最为复杂,但压缩效率也最高 25。经过激烈的竞争和合作,勃兰登堡团队的算法最终演变成了MPEG-1 Audio Layer III。该标准于1992年最终确定,并于1993年作为ISO/IEC 11172-3正式发布 25。
MP3的核心技术正是第一部分所阐述的心理声学模型和数学工具的综合应用。其关键技术特征包括:
- 混合滤波器组 (Hybrid Filter Bank):与后来的AAC不同,MP3采用了一种独特的混合结构。它首先使用一个32子带的多相正交镜像滤波器(PQMF)对信号进行初步的频率划分,然后再对每个子带的输出应用MDCT。这种设计在当时是计算效率和频率分辨率之间的一种权衡 28。
- 心理声学模型:MP3编码器内置了复杂的心理声学模型,用于计算实时变化的掩蔽阈值,指导比特分配过程,从而实现对量化噪声的感知整形 20。
- 高效压缩:通过这些技术,MP3能够将CD音质的PCM音频数据压缩到原来的十分之一到十二分之一,同时对于大多数听众而言,其音质与原始CD相比没有明显的损失 20。
- 文件格式:1995年,在弗劳恩霍夫研究所的一次内部投票中,“.mp3”被选为MPEG-1 Audio Layer III文件的标准扩展名,这个简单易记的名字也为其日后的流行奠定了基础 11。
第六章:Napster效应:MP3如何颠覆全球音乐产业
MP3技术在诞生后的数年里,主要还停留在技术圈和专业领域。然而,两个因素的交汇将其推向了世界舞台的中央:一是其“足够好”的音质与前所未有的小文件体积的完美结合,二是在20世纪90年代末迅速普及的互联网 11。
1999年,由肖恩·范宁(Shawn Fanning)和肖恩·帕克(Sean Parker)创建的Napster上线了。它是一个用户友好的点对点(Peer-to-Peer, P2P)文件共享平台,专门用于交换MP3格式的音乐文件 35。Napster的出现引爆了一场文化现象,其用户数量在巅峰时期达到了惊人的8000万 35。数以亿计的MP3文件在未经授权的情况下被自由交换,导致了大规模的版权侵犯 36。
这场数字风暴迅速引起了音乐产业的恐慌。美国唱片业协会(RIAA)联合金属乐队(Metallica)等知名艺人,对Napster提起了诉讼,指控其助长了盗版行为 35。最终,在2001年,Napster被迫关闭 38。
然而,潘多拉的魔盒一经打开便无法关上。Napster的倒下催生了Gnutella、Kazaa等无数去中心化的P2P网络,文件共享的趋势已不可逆转 38。这场冲击对音乐产业造成了毁灭性的打击,据统计,从1999年到2009年,美国唱片业的收入暴跌了近50% 38。这场由MP3技术引发的危机,最终迫使顽固的传统音乐产业不得不正视现实,开始探索数字发行的合法途径,并直接催生了以苹果iTunes音乐商店为代表的全新商业模式。
MP3的革命性影响源于其技术特性与时代背景的完美契合。MP3本身或P2P网络本身,都不足以引发如此剧变。关键在于MP3的压缩比,它将一首典型的CD歌曲(约30-40MB)压缩到了3-4MB左右。这个文件大小,恰好是当时主流的拨号和早期宽带网络所能实际传输的。无损文件对于当时的普通用户来说太大,传输不切实际。而Napster则提供了一个极其简单的界面,将这种技术上可行的行为,变成了数百万普通人都能轻松完成的操作。因此,可以说,MP3编解码器在尺寸与质量权衡曲线上所处的特定位置,是其成为点燃数字音乐革命催化剂的直接物理原因。它不仅仅是一项技术,更是那个时代消费级互联网上音乐共享成为可能的关键赋能者。
第三部分:继承者与竞争者
MP3的巨大成功和随之而来的法律争议,为音频压缩技术的下一个十年定下了基调。一方面,技术标准组织和商业公司致力于开发比MP3更高效、功能更强大的“继承者”;另一方面,对MP3专利授权模式的不满,催生了一股强大的开源、免版税的“挑战者”力量。这两种力量的博弈,塑造了21世纪初多样化的音频编解码器格局。
第七章:高级音频编码 (AAC):名正言顺的继承者
技术优势
高级音频编码(Advanced Audio Coding, AAC)是在MPEG框架内作为MP3的官方继承者而开发的,其标准由弗劳恩霍夫研究所、杜比实验室、AT&T和索尼等巨头共同制定,最初是MPEG-2标准的一部分(Part 7),后来在MPEG-4标准(Part 3)中得到增强 26。
与MP3相比,AAC在技术上实现了多项关键改进,使其在相同的比特率下能提供更优越的音质,尤其是在低于128 kbit/s的低比特率下,这种优势尤为明显 40。其核心技术优势包括:
- 纯MDCT滤波器组:AAC摒弃了MP3复杂的混合滤波器组,采用了纯粹的MDCT,这不仅简化了设计,也提高了编码效率 33。
- 更大的变换块尺寸:AAC支持1024个采样点的长变换块(相比MP3的576个),并能在音频信号出现瞬态变化时切换到128个采样点的短变换块,从而在平稳信号部分获得更高的频率分辨率,在瞬态部分获得更高的时间分辨率 33。
- 更宽的频率和声道支持:AAC支持从8 kHz到96 kHz的更宽采样率范围,并原生支持多达48个音频通道,为环绕声和高解析度音频奠定了基础 42。
- 高级编码工具:AAC引入了如感知噪声替代(Perceptual Noise Substitution, PNS)等高级工具。PNS技术能够识别信号中的类噪声部分(如沙锤声),并用参数来描述它,而不是直接对其进行量化编码,从而在解码端重新合成噪声,极大地节省了比特率 44。
通过苹果生态系统主导市场
尽管AAC在技术上领先,但它真正走向市场主导地位的关键推手是苹果公司。2003年,苹果公司推出了iPod音乐播放器和iTunes音乐商店,并选择AAC作为其生态系统的核心音频格式 47。这一战略决策意义深远:
- 创建了封闭但无缝的生态系统:通过“iPod + iTunes + AAC”的垂直整合,苹果为用户提供了前所未有的便捷体验——从购买、管理到同步和播放,一气呵成。这迅速吸引并锁定了数以亿计的用户。
- 推动了合法数字音乐:iTunes商店的成功,证明了消费者愿意为受保护但易于使用的数字内容付费,这为被Napster重创的音乐产业提供了新的商业模式。
- 树立了质量标杆:苹果公司为其AAC编码器投入了大量研发,其生成的256 kbit/s AAC文件被广泛认为在听感上“几乎无法与原始录音室录音区分”,这为AAC赢得了高质量的声誉 49。
第八章:Ogg Vorbis:开源挑战者
Xiph.Org基金会与免版税理念
就在AAC凭借商业力量崛起的同时,一股源于开源社区的哲学力量也在积聚。1998年,弗劳恩霍夫研究所宣布计划对MP3格式的使用收取许可费,这一举动直接催生了Ogg Vorbis的诞生 27。由克里斯·蒙哥马利(Chris Montgomery)领导的Xiph.Org基金会,致力于开发一套完全开放、不受专利限制的多媒体格式,以“保护互联网多媒体的基础,使其免受自私企业利益的支配” 27。
Ogg Vorbis是该项目的核心音频部分,其中“Ogg”是容器格式,“Vorbis”是编解码器本身 27。它的核心竞争力不在于绝对的技术领先,而在于其完全开源和免版税的特性 51。这使其成为开发者和企业的理想选择,尤其是那些希望避免与MPEG专利池进行复杂且昂贵的授权谈判的公司。
驱动流媒体巨头:Spotify的选择
Ogg Vorbis最成功的商业应用案例是全球最大的音乐流媒体服务商Spotify。Spotify选择Ogg Vorbis作为其主要的流媒体音频格式,为免付费用户提供最高160 kbit/s的码率,为付费高级用户提供最高320 kbit/s的码率 53。对于一个需要处理数十亿次音乐播放的平台而言,避免为每一次播放支付专利费,是其商业模式得以成立的关键因素之一 56。这一选择充分证明了在“编解码器战争”中,商业模式和开源理念有时比纯粹的技术指标更具决定性。
第九章:微软的竞争者:Windows Media Audio (WMA)
微软公司也加入了这场竞争,推出了其专有的Windows Media Audio (WMA)格式 57。WMA被设计为MP3的直接竞争对手,声称在较低比特率下能提供更好的音质 58。它并非单一的编解码器,而是一个包含多个版本的家族,包括标准的有损WMA、高解析度的WMA Pro、无损的WMA Lossless以及针对语音优化的WMA Voice 58。
WMA与Windows Media Player和先进系统格式(Advanced Systems Format, ASF)容器深度集成,形成了一个完整的媒体生态系统 58。其一个显著特点是原生支持强大的数字版权管理(Digital Rights Management, DRM)技术,即WMDRM,这在当时吸引了许多希望控制其内容分发的版权方 57。然而,WMA的专有性质和在Windows生态系统之外较差的跨平台兼容性,最终限制了其普及程度,未能撼动MP3的普遍性地位和AAC在苹果生态中的主导地位 60。
第十章:索尼的生态系统:ATRAC与MiniDisc
早在MP3普及之前,索尼就于1992年推出了其专有的MiniDisc(MD)格式,其核心压缩技术是自适应变换声学编码(Adaptive TRansform Acoustic Coding, ATRAC) 62。ATRAC和MiniDisc是一个高度集成的硬件生态系统,旨在作为传统磁带的数字替代品。
MiniDisc在日本市场取得了巨大成功,但在全球范围内未能普及 63。其失败的原因是多方面的:预录MD专辑数量有限、初期设备和空白光盘价格高昂,以及来自更廉价的可刻录CD(CD-R)的竞争。然而,最终给予其致命一击的,是基于软件和闪存的MP3播放器(尤其是iPod)所带来的无与伦比的便利性和灵活性 63。索尼的硬件中心化模式,在以软件和互联网为核心的数字音乐新时代显得过于僵化和封闭。
21世纪初的“编解码器战争”并非一场单纯的技术竞赛。虽然AAC在技术上优于MP3,而Vorbis在许多方面与之相当,但最终决定市场格局的,是技术、商业模式和核心理念这三个维度的综合力量。苹果通过其垂直整合的商业模式(硬件+软件+内容商店)将技术优势(AAC)转化为市场主导地位。微软试图复制这一模式,但未能超越其操作系统的边界。索尼则固守于过时的硬件中心化思维。与此同时,Xiph.Org基金会凭借其开放、免版税的理念,为对成本敏感的互联网服务(如Spotify)提供了另一条截然不同的发展路径。这场战争的结局清晰地表明:在技术产品的大规模普及过程中,商业生态和价值主张往往比算法的微小差异更具决定性。
表2:主流有损编解码器对比分析
| 特性 | MP3 (MPEG-1 Layer III) | AAC (Advanced Audio Coding) | Ogg Vorbis | WMA (Windows Media Audio) | Opus |
|---|---|---|---|---|---|
| 标准化组织 | MPEG | MPEG | Xiph.Org Foundation | Microsoft | IETF |
| 授权模式 | 专利池(现已过期) | 专利池 (Via Licensing) | 开源、免版税 | 专有 | 开源、免版税 |
| 核心算法 | 混合滤波器组 + MDCT | 纯MDCT | MDCT | MDCT | 混合 (LPC/CELP + MDCT) |
| 最大声道数 | 5.1 (MPEG-2) | 48 | 255 | 8 (WMA Pro) | 255 |
| 采样率范围 | 16 - 48 kHz | 8 - 96 kHz | 最高 192 kHz | 最高 96 kHz (WMA Pro) | 8 - 48 kHz |
| 关键优势 | 普遍兼容性 | 高效率、苹果生态集成 | 开源、免版税 | Windows集成、DRM | 极低延迟、高通用性 |
| 主要采用者 | 早期互联网、便携设备 | 苹果iTunes、YouTube | Spotify、开源项目 | Windows Media | WebRTC、VoIP、实时通信 |
第四部分:追求纯粹——无损格式的兴起
尽管有损压缩技术在效率和便利性上取得了巨大成功,但其“有损”的本质始终是音频发烧友和专业人士心中的一根刺。对于他们而言,任何对原始录音的永久性信息丢弃都是一种妥协。随着硬盘存储成本的急剧下降和网络带宽的增加,追求100%忠实于原始音源的无损压缩格式应运而生,并逐渐形成了一个与主流有损格式并行的重要市场。
第十一章:自由无损音频编解码器 (FLAC):归档标准
自由无损音频编解码器(Free Lossless Audio Codec, FLAC)由Xiph.Org基金会开发,是目前最流行和最受广泛支持的无损音频格式 13。其核心承诺是:在压缩文件大小的同时,不丢失任何音频信息。解压后的文件与原始的PCM数据在比特层面完全一致 64。
FLAC的压缩原理与有损格式截然不同。它不依赖心理声学模型,而是通过纯粹的数学方法来减少数据冗余:
- 分块与声道去相关:将音频信号分成块,对于立体声信号,它会计算中间声道(左右声道之和)和边声道(左右声道之差),通常边声道的数据量更小,更易于压缩 64。
- 预测编码:编码器使用线性预测模型来“猜测”下一个采样点的值。它不是存储每个采样点的绝对值,而是存储实际值与预测值之间的微小差异,即“残差”(residual) 64。由于音频信号具有很强的相关性,残差值通常远小于原始采样值。
- 残差编码:最后,使用一种名为莱斯编码(Rice coding)的高效熵编码算法对残差进行无损压缩 64。
通过这种方式,FLAC通常能将CD音质的音频文件大小减少到原始WAV文件的50%至70% 64。虽然压缩率远不及MP3,但其“无损”的特性使其成为理想的数字音乐归档格式。用户可以将自己的CD收藏转换为FLAC文件进行备份,确保即使原始光盘损坏,也能随时恢复出与原版完全相同的数字副本 64。其开源、免版税的性质,以及对元数据(如专辑封面、曲目信息)的良好支持,使其成为高保真音乐爱好者和在线音乐交易社区的首选格式 68。
第十二章:Apple无损音频编解码器 (ALAC):从封闭花园到开源
Apple无损音频编解码器(Apple Lossless Audio Codec, ALAC)是苹果公司于2004年为其生态系统开发的专有无损格式 70。与FLAC类似,ALAC也采用线性预测技术来实现无损压缩,压缩率也相当,通常能将文件大小减少到原始文件的40%至60% 71。ALAC文件通常存储在MP4容器中,并使用
.m4a作为文件扩展名,这与苹果的AAC文件相同,但两者是完全不同的编解码器 70。
多年来,ALAC一直是苹果生态系统内高保真音频的唯一选择,与iTunes和iPod等设备无缝集成。然而,在2011年底,苹果公司出人意料地将ALAC的源代码以Apache许可证的形式开源 71。这一举动极大地提升了ALAC在非苹果设备和软件上的兼容性,使其成为FLAC的一个重要替代品 73。
在技术上,ALAC和FLAC虽然目标一致,但在实现上有所不同。普遍的测试表明,ALAC的压缩效率略低于FLAC(即文件稍大),并且在解码时需要消耗更多的CPU资源 71。因此,除了在苹果生态系统内的原生支持这一巨大优势外,FLAC在技术性能和跨平台通用性上仍然略胜一筹 75。
第十三章:专业格式:WavPack和Monkey’s Audio简介
除了FLAC和ALAC这两个主流选择外,无损压缩领域还有一些更具特色的竞争者。
WavPack (.wv):这是一个独特的开源无损编解码器,其最大特点是支持“混合模式”(hybrid mode) 77。在这种模式下,编码器会同时生成两个文件:一个体积较小、高质量的有损
.wv文件,以及一个“修正”文件.wvc 77。用户可以单独播放这个有损文件,以节省空间;或者,当需要最高保真度时,将两个文件放在一起,播放器就能利用修正文件中的信息,完美地重建出原始的无损音频 79。这种设计为用户在便携性和保真度之间提供了一种灵活的折中方案。
Monkey’s Audio (.ape):这是一个以其极高的压缩率而闻名的无损编解码器。在某些情况下,它能比FLAC或其他格式压缩得更小 80。然而,这种高压缩率是以显著增加的计算复杂度为代价的,其编码和解码速度都相对较慢 80。这种高CPU消耗限制了它在便携式设备和硬件播放器上的应用,使其更多地成为PC端音频爱好者的一个小众选择 80。
无损格式的出现和普及,并没有取代有损格式,而是导致了数字音频市场的二元化。一方面,大众市场继续将便利性和小文件体积作为首要考虑,从MP3/AAC下载过渡到AAC/Vorbis/Opus流媒体。另一方面,一个由音频发烧友、音乐收藏家和专业人士组成的细分市场逐渐形成,他们愿意为了追求绝对的保真度而接受更大的文件体积和存储成本 15。这种市场的二元结构如今直接体现在流媒体服务的商业模式中:几乎所有主流平台都提供标准的有损音质套餐,并额外提供付费的“HiFi”或“无损”套餐,以满足不同层次用户的需求 84。FLAC和ALAC的并存,也再次印证了开放标准与生态系统整合这两种发展路径,即使在高保真领域也同样适用。
表3:主流无损编解码器对比分析
| 特性 | FLAC | ALAC (Apple Lossless) | WavPack | Monkey’s Audio (APE) |
|---|---|---|---|---|
| 开发/所有者 | Xiph.Org Foundation | Apple Inc. (已开源) | David Bryant | Matthew T. Ashland |
| 授权模式 | 开源、免版税 (BSD) | 开源、免版税 (Apache) | 开源、免版税 (BSD) | 开源、免版税 (BSD) |
| 平均压缩率 | 约 50-70% (of WAV) | 约 40-60% (of WAV) | 约 30-70% (of WAV) | 略高于FLAC |
| 编码/解码速度 | 非常快 | 较慢,CPU消耗高于FLAC | 快 | 慢,CPU消耗高 |
| 硬件支持 | 广泛(非苹果设备) | 广泛(苹果设备原生支持) | 有限 | 非常有限 |
| 元数据支持 | 优秀 (Vorbis Comments) | 良好 (MP4/iTunes) | 良好 (APEv2) | 良好 (APEv2) |
| 独特功能 | 行业标准,高兼容性 | 苹果生态系统无缝集成 | 混合模式(有损+修正文件) | 极高的压缩比 |
第五部分:互联网时代——为互联世界而生的编解码器
随着互联网从拨号时代迈向宽带时代,再进入移动互联网时代,音频应用场景发生了根本性的变化。实时通信(如网络电话VoIP)、视频会议和在线直播成为主流,这对音频编解码器提出了全新的要求:极低的延迟、对网络波动的强大适应性以及在不同带宽下的灵活伸缩能力。为此,一系列专为互联世界设计的编解码器应运而生。
第十四章:语音时代:从LPC、CELP到AMR
在探讨现代互联网编解码器之前,有必要回顾一下专门用于处理人类语音的编解码器(声码器,vocoder)的平行发展史。与旨在忠实再现全频带音乐的编解码器不同,声码器的目标是在极低的比特率下保持语音的清晰度和可懂度。
- 线性预测编码 (LPC):20世纪60年代末出现的一项关键技术,它基于声源-滤波器模型,通过预测声道参数来合成语音,极大地降低了数据量 87。
- 码激励线性预测 (CELP):由曼弗雷德·施罗德(Manfred R. Schroeder)和比什努·阿塔尔(Bishnu S. Atal)于1985年提出的革命性算法 88。CELP通过一个包含预定波形(激励码)的码本来激励LPC滤波器,并通过“分析-合成”(Analysis-by-Synthesis)的闭环搜索方法,找到能产生最接近原始语音的码,从而在极低比特率下实现了前所未有的语音质量 88。
- 代数码激励线性预测 (ACELP):作为CELP的变种,ACELP使用具有特定代数结构的码本,大大降低了搜索复杂度,使其能够在当时的硬件上实现。ACELP成为了许多重要语音编码标准的基础,例如广泛用于VoIP系统的G.729标准 89。
- 自适应多速率 (AMR):随着移动通信的兴起,AMR编解码器成为GSM和3G网络的标准。它的核心特性是“自适应”:能够根据无线网络信号的强弱,在八个不同的比特率(从4.75 kbit/s到12.2 kbit/s)之间动态切换。在信号差时,它会降低语音编码的比特率,将更多的比特用于信道纠错,以保证通话的稳定性和鲁棒性 92。其后继者
AMR-WB(宽带)则将编码带宽从传统的电话频段(300-3400 Hz)扩展到了50-7000 Hz,显著提升了语音的自然度和清晰度,带来了“高清语音”体验 94。
第十五章:Opus:通用性与低延迟的巅峰之作
Opus编解码器是互联网时代音频技术的集大成者。它由互联网工程任务组(IETF)于2012年标准化(RFC 6716),是一个完全开放、免版税的编解码器,旨在成为适用于所有实时交互式音频应用的终极解决方案 95。
Opus的革命性在于其独特的混合架构。它巧妙地融合了两种不同技术的优点 95:
- SILK层:源自Skype开发的SILK编解码器,这是一个基于LPC的语音编码算法,在低比特率下对语音有出色的编码效率 95。
- CELT层:源自Xiph.Org基金会开发的CELT编解码器,这是一个基于MDCT的通用音频编码算法,专为极低延迟而设计 95。
Opus可以根据音频内容和目标比特率,在SILK模式(纯语音)、CELT模式(纯音乐)或一种创新的混合模式之间无缝切换。在混合模式下,它使用SILK编码低频语音部分,同时使用CELT编码高频部分,从而在极低的比特率下也能实现高质量的混合内容(如带背景音乐的播客)编码 95。
Opus最突出的优势是极低的算法延迟。其默认延迟仅为26.5毫秒,并且可以进一步降低至5毫秒,这对于需要自然对话的VoIP、视频会议和要求精准同步的在线游戏语音聊天至关重要 95。凭借其卓越的性能和开放性,Opus已被指定为WebRTC(网页实时通信)技术的强制性音频编解码器,成为现代浏览器和通信应用的基石 105。在音质方面,多项听音测试表明,Opus在各种比特率下均优于MP3、AAC和Vorbis等传统编解码器 95。
第十六章:交付机制:自适应比特率流 (HLS & MPEG-DASH)
现代音乐和视频的消费模式已从下载转向流媒体,这不仅对编解码器本身提出了要求,更对内容的交付方式进行了革新。自适应比特率流(Adaptive Bitrate Streaming, ABR)是支撑起整个流媒体生态系统的核心技术 109。
ABR的工作原理如下:
- 编码与分片:内容提供商会将原始的音视频文件预先编码成多个不同比特率和分辨率的版本,形成一个“ABR阶梯”(ABR ladder)。然后,每个版本都被切割成时长为2到10秒的短小片段(chunks) 109。
- 清单文件 (Manifest):服务器会生成一个清单文件,它本质上是一个播放列表,描述了所有可用的码流版本及其对应的片段URL地址 109。
- 客户端动态选择:当用户开始播放时,客户端(如手机App或浏览器播放器)首先下载清单文件。它会根据当前的网络速度、设备性能和缓冲区状态,动态地决定下一个要请求的片段来自哪个码流版本。如果网络状况良好,它会请求更高比特率的片段以获得更佳质量;如果网络变差,它会无缝切换到更低比特率的片段,以避免播放卡顿和缓冲 110。
目前,主导ABR市场的两大协议是:
- HTTP Live Streaming (HLS):由苹果公司开发,最初为其设备设计,现已成为事实上的行业标准之一,尤其在移动设备上应用广泛 114。
- MPEG-DASH (Dynamic Adaptive Streaming over HTTP):由MPEG组织制定的开放国际标准,具有更好的编解码器无关性,被广泛认为是HLS的主要竞争对手 114。
ABR技术的发展标志着一个根本性的转变:内容交付与编解码器本身开始解耦。在下载时代,用户得到的是一个固定码率的单一文件,质量是恒定的。而在ABR时代,“文件”的概念变得模糊,用户的体验是由一系列不同质量等级的片段动态拼接而成的。这使得底层的音频编解码器(无论是AAC还是Opus)更像是一个实现细节,被封装在一个更宏大、更智能的交付框架之内。工程的焦点从创造一个“完美码率”的编码器,转向设计一个高效的“码率阶梯”和聪明的客户端算法来驾驭它。编解码器不再是一个静态的选择,而是动态实时交付系统中的一个可变组件。
第六部分:无形的架构:专利、版权与收入
音频压缩技术的发展并非仅仅是实验室里的算法竞赛,它始终被商业利益、法律框架和市场策略所深刻影响。专利、数字版权管理(DRM)和不断变化的商业模式,共同构成了驱动或阻碍技术采纳的“无形架构”。
第十七章:专利池:MPEG LA、Via Licensing与创新的成本
像MP3和AAC这样复杂的编解码器,其技术往往源于多家公司和研究机构的贡献。根据MPEG等标准制定组织的要求,纳入标准的技术专利必须遵循“合理且非歧视”(Reasonable and Non-Discriminatory, RAND)的原则进行授权 115。
为了简化这一复杂的授权过程,**专利池(Patent Pools)**应运而生。专利池是由一个独立的管理机构,将多个专利持有者的与某一技术标准相关的“必要专利”捆绑在一起,提供一站式的打包许可 116。这极大地降低了产品制造商获取授权的交易成本和法律风险。
- MPEG LA 和 Via Licensing Alliance 是该领域最重要的两个参与者 116。例如,Via Licensing负责管理包含AAC在内的多个MPEG音频标准的专利池 118。
- 然而,这种模式也意味着使用这些标准需要支付专利许可费。这些费用通常按设备或按服务规模收取,对于某些商业模式(尤其是大规模、低利润的流媒体服务)来说可能是一笔不小的开销。正是对这种授权成本的规避,直接激励了像Xiph.Org基金会这样的组织去开发Ogg Vorbis和Opus等完全免版税的开源替代方案 116。
第十八章:数字版权管理 (DRM):控制权之战
数字版权管理(Digital Rights Management, DRM)是一系列用于在数字内容分发后,控制其访问和使用的技术 121。在数字音乐的早期,唱片公司对失控的P2P共享感到恐慌,因此将DRM视为保护其商业利益的救命稻草。
- 苹果的FairPlay:这是与iTunes生态系统深度绑定的DRM技术。从iTunes商店购买的AAC音乐文件,其音频层经过加密。只有通过Apple ID授权的设备(如电脑或iPod)才拥有解密所需的“用户密钥”,从而才能播放 121。FairPlay有效地将用户锁定在苹果的生态系统内,但也因限制了消费者的设备选择权和文件使用权而备受批评,并不断面临被逆向工程破解的挑战 123。
- 微软的WMDRM:作为WMA格式的关键特性,WMDRM被设计为一种“可再生”的DRM系统,即微软可以不断更新其安全组件以应对破解 59。在iTunes崛起之前,许多早期的在线音乐服务都采用了WMDRM 59。
- 影响与消亡:尽管DRM的初衷是防止盗版,但在音乐下载领域,它被广大消费者视为一种麻烦和限制。它不仅带来了糟糕的用户体验,还引发了关于数字所有权的激烈辩论 125。最终,消费者的抵制和合法替代品的出现(如DRM-free的亚马逊MP3商店),迫使各大唱片公司在2000年代末期放弃了对音乐下载的DRM保护。控制的重心从“保护文件”转向了“控制访问”,即今天流媒体服务的订阅模式。
第十九章:从下载到流媒体:RIAA数据与新音乐经济
美国唱片业协会(RIAA)的年度收入报告清晰地描绘了音频压缩技术如何重塑音乐产业的经济版图。
- 三个时代:数据显示了三个截然不同的时代。首先是CD时代的顶峰,1999年,经通胀调整后的行业总收入达到了历史最高点 127。其次是
P2P冲击下的衰退期,从2000年到2014年,行业收入持续下滑,跌至谷底 127。最后是
流媒体驱动的复苏期,从2015年至今,行业收入连续增长 127。 - 流媒体的主导地位:到2024年,流媒体(包括付费订阅、广告支持、数字广播等)的收入已占到美国音乐产业总收入的84%,其中付费订阅是绝对的主力 128。
- 下载的消亡:曾经在2012年占据43%收入份额的数字下载,到2024年已萎缩至仅占2% 129。这标志着消费者音乐消费习惯的根本性转变。
- 新的竞争维度:随着市场的成熟,竞争焦点从曲库大小转向了服务质量。苹果音乐(2021年)、亚马逊音乐以及姗姗来迟的Spotify(2025年)相继推出无损音频套餐,标志着高保真音质成为主流平台新的竞争维度 84。截至2024年,苹果音乐的订阅用户数已超过9300万 130。
从技术、DRM到商业模式的演变,揭示了消费者与音乐关系的一次“大反转”。在CD时代,消费者拥有的是物理实体。在MP3下载时代,消费者拥有的是数字文件,行业试图用DRM来控制这些文件。而在流媒体时代,消费者几乎不拥有任何东西,他们购买的是在特定服务内“租用”海量曲库的访问权。控制机制不再是施加于文件上的DRM,而是用户登录服务的账户凭证。音频压缩技术是这场宏大变革的基石,它先是让文件变得足够小,从而可以被“拥有”和交换,最终又让它们变得足够小,可以被即时、高效地“流动”和访问。
第七部分:音频压缩的新前沿
经过四十多年的发展,音频压缩技术并未停滞不前。随着计算能力的飞跃、消费电子设备的多样化以及人工智能的兴起,音频体验正在向着更沉浸、更智能、更个性化的方向演进。两个主要趋势正在引领这场变革:从立体声到空间音频的维度提升,以及从人工设计到AI驱动的范式转变。
第二十章:超越立体声:向沉浸式与空间音频的转变
传统的音频体验,无论是单声道还是立体声,甚至是环绕声,本质上都是**基于声道(Channel-Based)**的。在这种模式下,声音在制作阶段就被混合到一组固定的声道中(如5.1系统中的左、中、右、左环绕、右环绕和低音声道),播放时,每个声道被直接映射到一个特定的扬声器 131。这种方式的局限性在于,听觉体验完全依赖于听众是否拥有与混音环境相匹配的扬声器布局。
从基于声道到基于对象
新一代的沉浸式音频技术,如杜比全景声(Dolby Atmos)和MPEG-H 3D音频,引入了**基于对象(Object-Based)**的革命性概念 131。在这种范式下,声音不再被预先混合到固定的声道中,而是将每一个独立的声音元素(如一个人的对话、一辆飞驰的汽车、一把吉他)作为一个“音频对象”来处理。每个对象都附带有描述其在三维空间中精确位置、大小和运动轨迹的元数据 133。
在播放时,渲染器(如AV接收器或智能手机)会实时读取这些元数据,并根据当前可用的扬声器配置(无论是复杂的家庭影院系统还是耳机)动态地计算出每个对象应该如何发声,从而在听众周围重构出一个三维声场 133。这种方式的优势在于:
- 可扩展性和适应性:同一份音频母版可以在任何支持的设备上,从拥有数十个扬声器的影院到一副耳机,都能呈现出最佳的沉浸式效果。
- 创作自由度:声音设计师和音乐人可以摆脱声道的束缚,将声音精确地放置和移动到三维空间中的任何位置,创造出前所未有的空间感和真实感 135。
主流标准:Dolby Atmos与MPEG-H
- 杜比全景声 (Dolby Atmos):作为目前市场领先的专有标准,杜比全景声支持多达128个音轨,其中包括118个动态音频对象和一个基础的7.1.2声道“床”(bed) 137。它已广泛应用于电影、家庭影院,并被苹果音乐、Tidal等主流音乐流媒体服务采纳,成为“空间音频”的主要技术载体 135。
- MPEG-H 3D音频:由MPEG和弗劳恩霍夫研究所主导开发的开放国际标准,同样支持声道、对象和高阶环绕声(HOA)等多种格式 140。MPEG-H的一个独特优势是其
交互性,允许用户在播放时进行个性化调整,例如提高对话音量、切换不同语言的评论音轨,或选择自己主队的现场声效 142。该标准已被ATSC 3.0(新一代数字电视标准)和巴西的ISDB-Tb等广播系统采用 144。
空间音频与头部追踪
“空间音频”是这些技术在消费电子产品(尤其是耳机)上的最终体现。以苹果公司的空间音频为例,它利用杜比全景声等基于对象的音源,结合耳机内置的传感器(如陀螺仪和加速度计),为用户创造出剧院般的环绕声体验 145。
其核心是动态头部追踪技术 148。当用户佩戴支持的耳机(如AirPods Pro)在iPad上观看电影时,声音会被“锚定”在设备屏幕上。即使用户转动头部,电影中角色的对话声听起来仍然像是从屏幕方向传来,而不是随着头部转动而在耳机中移动。这种效果通过实时比较设备和耳机的传感器数据,并动态调整双耳渲染算法来实现,极大地增强了沉浸感和真实感 149。
第二十一章:AI革命:神经音频编解码器
音频压缩的最新前沿,是人工智能,特别是深度学习的应用。这一新兴领域正试图用端到端训练的神经网络,来取代过去数十年精心设计的人工心理声学模型 151。
用于音频的生成式模型
神经音频编解码器通常采用**自编码器(Autoencoder)**架构 152。
- 编码器 (Encoder):一个神经网络将原始音频波形压缩成一个紧凑的、低维度的“潜在表示”(latent representation)。
- 量化器 (Quantizer):将这个连续的潜在表示转换为离散的、可传输的码元。
- 解码器 (Decoder):另一个神经网络,通常是一个生成式模型(如WaveNet或WaveRNN的变体),接收这些码元并重建出原始的音频波形 153。
整个系统是端到端训练的,通常会使用**生成对抗网络(Generative Adversarial Networks, GANs)**来优化音质。在GAN框架中,一个“判别器”(discriminator)网络被训练来区分真实音频和解码器生成的音频。解码器(生成器)则努力生成足以“欺骗”判别器的音频。这种对抗性训练迫使解码器生成的音频在感知上越来越接近真实音频,而不仅仅是数学上的相似 153。
前沿研究:Google的Lyra/SoundStream与Meta的EnCodec
- Google Lyra/SoundStream:Lyra是谷歌开发的一款针对语音的极低比特率神经编解码器。它能在3 kbit/s的速率下,提供优于传统编解码器在更高比特率下的语音质量 156。其后继者SoundStream则将这一能力扩展到了音乐和通用音频,是首个能在智能手机CPU上实时运行的通用神经音频编解码器 159。
- Meta EnCodec:由Meta AI(前Facebook AI)开发,EnCodec同样是一个基于神经网络的编解码器。Meta声称,在64 kbit/s的比特率下,EnCodec的压缩效率是MP3的10倍,且没有可感知的质量损失 153。它支持从1.5 kbit/s到24 kbit/s的多种比特率,并已在Hugging Face等平台开源 164。
这些新兴技术预示着,未来高质量的音频通信和流媒体服务,可能只需要当前所需带宽的一小部分,这将极大地改善在网络条件不佳环境下的用户体验,并为元宇宙等未来应用提供丰富的音频支持 153。
传统心理声学模型(如MP3和AAC中使用的)是基于数十年听觉研究总结出的一套明确的、由人类工程师编写的规则和算法,它们是一种“专家系统” 18。而神经编解码器代表了一种根本性的范式转变。神经网络在训练过程中,通过接触海量的音频数据,自主地学习出一个关于“感知重要性”的内在模型 152。它没有被明确告知掩蔽效应的规则,而是通过优化感知损失函数,自行发现了能实现透明压缩的统计规律和数据表示方式。这标志着从“显式工程”到“隐式学习”的跨越。这一转变暗示,我们可能正在接近由人类设计的感知模型的性能极限,而音频压缩效率的下一次飞跃,将来自于人工智能系统,它们有能力构建出比我们自己设计的更复杂、更有效的感知模型。
结论:对效率与保真度的不懈追求
从模拟声音到数字比特的转变开始,音频压缩技术在过去四十多年里走过了一条波澜壮阔的演进之路。这段历史不仅是算法和算力的进步史,更是一部技术、商业、法律和文化相互交织、共同塑造我们听觉体验的宏大叙事。
这场旅程始于对完美的数字复制——PCM——的追求,以及随之而来的巨大数据负担。这一根本矛盾催生了第一次革命:基于心理声学的有损压缩。以MP3为代表的技术,通过巧妙地利用人类听觉的局限性,实现了数据量与可感知质量的革命性平衡,并借助互联网的力量,彻底颠覆了音乐产业的百年根基。
紧随其后的是一个多元化的竞争时代。技术更先进的AAC在苹果强大生态系统的推动下成为主流,而开源、免版税的Ogg Vorbis则为新兴的流媒体巨头Spotify提供了商业上的可行性。与此同时,对绝对保真度的执着催生了FLAC等无损格式的兴起,满足了音频发烧友和数字档案工作者的需求,并开辟了一个与主流市场并行的高保真领域。
进入真正的互联网时代,需求再次演变。实时通信的普及呼唤着低延迟和高适应性,最终由集大成者Opus给出了完美的答案,它成为了现代网络通信的音频基石。而流媒体的普及则推动了**自适应比特率流(ABR)**技术的发展,将编解码器从一个静态的文件格式,转变为动态、智能交付系统中的一个环节。
在这一切的背后,专利池和DRM等无形的法律和商业架构,始终在引导和限制着技术的走向,它们是理解这场技术战争胜负的关键。
如今,我们正站在新的变革前沿。一方面,基于对象的沉浸式音频(如杜比全景声和MPEG-H)正在将我们的听觉体验从二维平面提升到三维空间,带来前所未有的真实感和互动性。另一方面,人工智能驱动的神经编解码器(如Lyra和EnCodec)正以一种全新的、基于学习而非设计的方式,挑战着压缩效率的极限,预示着一个即使在最差的网络环境下也能享受高质量音频的未来。
回顾这段历史,我们可以看到一条清晰的主线:在对**效率(更小的体积、更低的延迟)和保真度(更高的质量、更丰富的体验)**这对永恒矛盾的不懈追求中,音频技术不断前行。从最初为了在有限的存储和带宽中“塞下”音乐,到如今为了在无限的虚拟空间中“重现”声场,技术的终极目标始终是服务于人类的感知。未来的声音世界,将无疑更加沉浸、更加智能,也更加无缝地融入我们的数字生活。
引用的著作
- Pulse-code modulation - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Pulse-code_modulation
- Pulse Code Modulation (PCM): Definition, Operation | DEXON Systems, 访问时间为 九月 28, 2025, https://dexonsystems.com/blog/pulse-code-modulation-pcm
- en.wikipedia.org, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Pulse-code_modulation#:~:text=Pulse%2Dcode%20modulation%20(PCM),and%20other%20digital%20audio%20applications.
- What is Pulse Code Modulation (PCM)? - Fosco Connect, 访问时间为 九月 28, 2025, https://www.fiberoptics4sale.com/blogs/archive-posts/95045126-what-is-pulse-code-modulation-pcm
- Pulse Code Modulation (PCM) | Mathematics of the DFT - DSPRelated.com, 访问时间为 九月 28, 2025, https://www.dsprelated.com/freebooks/mdft/Pulse_Code_Modulation_PCM.html
- Red Book CD Format Explained - TravSonic Studios, 访问时间为 九月 28, 2025, https://www.travsonic.com/red-book-cd-format/
- How To Solve “Exception: Audio format is not Red Book PCM” - Michael Smith, 访问时间为 九月 28, 2025, https://mikesmith.us/how-to-solve-exception-audio-format-is-not-red-book-pcm/
- Compact Disc Digital Audio - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Compact_Disc_Digital_Audio
- Red Book (audio CD standard) - Wikipedia, the free encyclopedia - cs.wisc.edu, 访问时间为 九月 28, 2025, https://pages.cs.wisc.edu/~sohi/cs252/Fall2012/lectures/ScannedSpring2007/cd-std.pdf
- What are some good reasons to use lossy compression instead of lossless compression for music/audio files? - Quora, 访问时间为 九月 28, 2025, https://www.quora.com/What-are-some-good-reasons-to-use-lossy-compression-instead-of-lossless-compression-for-music-audio-files
- Development - The mp3 History, 访问时间为 九月 28, 2025, https://www.mp3-history.com/en/development.html
- Lossless compression - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Lossless_compression
- FLAC - What is FLAC? - Xiph.org, 访问时间为 九月 28, 2025, https://xiph.org/flac/
- ELI5: What makes an audio compression “Lossless” or “Lossy” (I want it down to the science) : r/explainlikeimfive - Reddit, 访问时间为 九月 28, 2025, https://www.reddit.com/r/explainlikeimfive/comments/1ibcm39/eli5_what_makes_an_audio_compression_lossless_or/
- What is Lossless Audio vs. Lossy Audio? - PremiumBeat, 访问时间为 九月 28, 2025, https://www.premiumbeat.com/blog/lossless-audio-vs-lossy-audio/
- Lossy vs Lossless Compression: Differences & Advantages - Adobe, 访问时间为 九月 28, 2025, https://www.adobe.com/uk/creativecloud/photography/discover/lossy-vs-lossless.html
- Lossy audio compression: principles, methods, misconceptions - Tonestack.net, 访问时间为 九月 28, 2025, https://www.tonestack.net/articles/digital-audio-compression/lossy-audio-compression-primer.html
- Chapter 14 MPEG Audio Compression - IT342 Fundamentals of Multimedia, 访问时间为 九月 28, 2025, https://ksuit342.wordpress.com/wp-content/uploads/2014/08/it342_ch9_audio-compression-standard-new.pdf
- A Comprehensive Review of Psychoacoustic Model for Audio Compression in Signal Processing, 访问时间为 九月 28, 2025, https://www.ijarsct.co.in/Paper19021.pdf
- Psychoacoustics - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Psychoacoustics
- Psychoacoustics - HKU, 访问时间为 九月 28, 2025, https://i.cs.hku.hk/~icom6018/notes/MIDIandStandards/OnScreen/050-Psychoacoustics.pdf
- Psychoacoustic Models for Perceptual Audio Coding—A Tutorial Review - MDPI, 访问时间为 九月 28, 2025, https://www.mdpi.com/2076-3417/9/14/2854
- Psychoacoustics - Masking Part 1 - YouTube, 访问时间为 九月 28, 2025, https://www.youtube.com/watch?v=R9UZnMsm9o8
- The Use of FFT and MDCT in MP3 Audio Compression, 访问时间为 九月 28, 2025, https://www.math.utah.edu/~gustafso/s2012/2270/web-projects/Guckert-audio-compression-svd-mdct-MP3.pdf
- MP3 - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/MP3
- Advanced Audio Coding - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Advanced_Audio_Coding
- Vorbis - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Vorbis
- The Theory Behind Mp3, 访问时间为 九月 28, 2025, https://reynal.etis-lab.fr/docs/audio-sia/tp/tp_mp3/mp3_theory.pdf
- Karlheinz Brandenburg - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Karlheinz_Brandenburg
- Karlheinz Brandenburg | epo.org - European Patent Office, 访问时间为 九月 28, 2025, https://www.epo.org/en/news-events/european-inventor-award/meet-the-finalists/karlheinz-brandenburg
- Frame header - MP3-Tech.org, 访问时间为 九月 28, 2025, http://www.mp3-tech.org/programmer/frame_header.html
- MP3 (MPEG Layer III Audio Encoding) - The Library of Congress, 访问时间为 九月 28, 2025, https://www.loc.gov/preservation/digital/formats/fdd/fdd000012.shtml
- Conversion of MP3 to AAC in the Compressed Domain, 访问时间为 九月 28, 2025, http://www.mp3-tech.org/programmer/docs/CameraReady_117.pdf
- The MP3 turns 25 today – how the file format opened the door to mass piracy, the iPod and streaming - The Ivors Academy, 访问时间为 九月 28, 2025, https://ivorsacademy.com/news/the-mp3-turns-25-today-how-the-file-format-opened-the-door-to-mass-piracy-the-ipod-and-streaming/
- Napster - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Napster
- Napster: The Black Market that Publicly Dominated the Music Industry - Pressbooks, 访问时间为 九月 28, 2025, https://iu.pressbooks.pub/perspectives3/chapter/napster-the-black-market-that-publicly-dominated-the-music-industry/
- Oversharing: how Napster nearly killed the music industry - The Guardian, 访问时间为 九月 28, 2025, https://www.theguardian.com/music/2019/may/31/napster-twenty-years-music-revolution
- From Napster to the Cloud: The Evolution of Music File Sharing in the Music Industry | Sound Credit Blog, 访问时间为 九月 28, 2025, https://www.soundcredit.com/blog/the-music-industrys-file-sharing-journey-from-piracy-to-collaboration
- MP3 and AAC Explained, 访问时间为 九月 28, 2025, https://www.iis.fraunhofer.de/content/dam/iis/de/doc/ame/conference/AES-17-Conference_mp3-and-AAC-explained_AES17.pdf
- MP3 vs. AAC: Which Audio Format is Better? - FastPix, 访问时间为 九月 28, 2025, https://www.fastpix.io/blog/mp3-vs-aac-which-audio-format-works-for-you
- AAC vs MP3 - The Future of Audio Files - Cloudinary, 访问时间为 九月 28, 2025, https://cloudinary.com/guides/front-end-development/aac-vs-mp3-the-future-of-audio-files
- AAC vs. MP3: Which audio format is the best for your music? - Movavi, 访问时间为 九月 28, 2025, https://www.movavi.com/learning-portal/aac-vs-mp3.html
- AAC vs. MP3 - Which Music Format Sounds Better? - WinXDVD, 访问时间为 九月 28, 2025, https://www.winxdvd.com/video-transcoder/aac-vs-mp3.htm
- Perceptual Noise Substitution - AES Audio, 访问时间为 九月 28, 2025, https://www.audiolabs-erlangen.de/content/resources/aesCodingTutorial/pns.html
- Perceptual Noise Substitution and AAC - Sound Design Stack Exchange, 访问时间为 九月 28, 2025, https://sound.stackexchange.com/questions/45719/perceptual-noise-substitution-and-aac
- Advanced Audio Coding | MPEG, 访问时间为 九月 28, 2025, https://mpeg.chiariglione.org/standards/mpeg-2/advanced-audio-coding.html
- Choose import settings in iTunes on PC - Apple Support, 访问时间为 九月 28, 2025, https://support.apple.com/guide/itunes/choose-import-settings-itns2965/windows
- AAC vs OGG: You Know Which One Is Better? - Wondershare UniConverter, 访问时间为 九月 28, 2025, https://videoconverter.wondershare.com/ogg/aac-vs-ogg.html
- About lossless audio in Apple Music, 访问时间为 九月 28, 2025, https://support.apple.com/en-us/118295
- Xiph.Org Foundation - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Xiph.Org_Foundation
- Audio/Video Documentation - GNU Project - Free-Software Foundation, 访问时间为 九月 28, 2025, https://www.gnu.org/audio-video/audio-video-docs.html
- Download Ogg Vorbis Codec 1.4.3 - Free High-Quality Audio Compression, 访问时间为 九月 28, 2025, https://www.free-codecs.com/download/ogg_vorbis.htm
- How Spotify Streams OGG Vorbis: Better Sound, Smaller Files - Free-Codecs.com, 访问时间为 九月 28, 2025, https://www.free-codecs.com/guides/how-spotify-streams-ogg-vorbis-better-sound-smaller-files.htm
- How Is Spotify Audio Quality in 2025? Is It Very High - NoteBurner, 访问时间为 九月 28, 2025, https://www.noteburner.com/spotify-music-tips/how-is-spotify-audio-quality.html
- Audio quality - Spotify Support, 访问时间为 九月 28, 2025, https://support.spotify.com/us/article/audio-quality/
- AAC vs OGG. Are they comparable at different bit rates? If so, which is the better format? : r/audioengineering - Reddit, 访问时间为 九月 28, 2025, https://www.reddit.com/r/audioengineering/comments/6q86ge/aac_vs_ogg_are_they_comparable_at_different_bit/
- Revitalize Your Wealth: WMA Insights Unveiled | Lenovo US, 访问时间为 九月 28, 2025, https://www.lenovo.com/us/en/glossary/wma/
- Windows Media Audio - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Windows_Media_Audio
- Windows Media DRM - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Windows_Media_DRM
- The MP3 and WMA Audio Formats Comparison | Free Essay Example - StudyCorgi, 访问时间为 九月 28, 2025, https://studycorgi.com/the-mp3-and-wma-audio-formats-comparison/
- WMA VS MP3: What Are the Differences & How to Convert - MiniTool Video Converter, 访问时间为 九月 28, 2025, https://videoconvert.minitool.com/video-converter/wma-vs-mp3.html
- Definition of ATRAC3 - PCMag, 访问时间为 九月 28, 2025, https://www.pcmag.com/encyclopedia/term/atrac3
- MiniDisc - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/MiniDisc
- FLAC - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/FLAC
- FLAC Explained: Compress with No Quality Loss - Lenovo, 访问时间为 九月 28, 2025, https://www.lenovo.com/us/en/glossary/what-is-flac/
- How does MP3 and FLAC’s encoding work - Sound Design Stack Exchange, 访问时间为 九月 28, 2025, https://sound.stackexchange.com/questions/37531/how-does-mp3-and-flacs-encoding-work
- MP3, AAC, WAV, FLAC: all the audio file formats explained - What Hi-Fi?, 访问时间为 九月 28, 2025, https://www.whathifi.com/advice/mp3-aac-wav-flac-all-the-audio-file-formats-explained
- FLAC - XiphWiki, 访问时间为 九月 28, 2025, https://wiki.xiph.org/FLAC
- Top 10 Best FLAC Lossless Music Downloader - Work in 2025 - NoteBurner, 访问时间为 九月 28, 2025, https://www.noteburner.com/topic-tips/best-flac-music-downloader.html
- About Apple Lossless Audio Codec - Hi-Res Edition, 访问时间为 九月 28, 2025, https://www.hiresedition.com/formats/alac.html
- Apple Lossless Audio Codec - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Apple_Lossless_Audio_Codec
- Apple’s Lossless Audio Codec (ALAC) Now Open Source - Slashdot, 访问时间为 九月 28, 2025, https://apple.slashdot.org/story/11/10/28/0115247/apples-lossless-audio-codec-alac-now-open-source
- ALAC - Hydrogenaudio Knowledgebase, 访问时间为 九月 28, 2025, https://wiki.hydrogenaudio.org/index.php?title=ALAC
- ALAC or FLAC? - Audio Science Review (ASR) Forum, 访问时间为 九月 28, 2025, https://www.audiosciencereview.com/forum/index.php?threads/alac-or-flac.51540/
- FLAC vs ALAC Comparing Lossless Audio Formats - ProShot Media, 访问时间为 九月 28, 2025, https://proshotmediagroup.com/blog/flac-vs-alac-comparing-lossless-audio-formats/
- ALAC vs. FLAC – What’s the Difference? – Movavi Converter, 访问时间为 九月 28, 2025, https://www.movavi.com/learning-portal/alac-vs-flac.html
- WavPack - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/WavPack
- WavPack User Documentation, 访问时间为 九月 28, 2025, https://www.wavpack.com/397/wavpack_doc.htm
- WavPack Audio Compression, 访问时间为 九月 28, 2025, https://www.wavpack.com/
- Monkey’s Audio - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Monkey%27s_Audio
- Monkey’s Audio - Hydrogenaudio Knowledgebase, 访问时间为 九月 28, 2025, https://wiki.hydrogenaudio.org/index.php?title=Monkey%27s_Audio
- dBpoweramp Monkeys Audio Help, 访问时间为 九月 28, 2025, http://dbpoweramp.com/Help/dMC/monkeysaudio.html
- FLAC vs. MP3: Choosing the best file format for your music - Elmedia Player, 访问时间为 九月 28, 2025, https://www.elmedia-video-player.com/blog/flac-vs-mp3/
- Lossless Music Streaming Services Market Report, [2025-2033], 访问时间为 九月 28, 2025, https://www.businessresearchinsights.com/market-reports/lossless-music-streaming-services-market-117151
- Lossless Listening Arrives on Spotify Premium With a Richer, More Detailed Listening Experience - Spotify Newsroom, 访问时间为 九月 28, 2025, https://newsroom.spotify.com/2025-09-10/lossless-listening-arrives-on-spotify-premium-with-a-richer-more-detailed-listening-experience/
- Spotify launches lossless music streaming for premium users in 2025 | The Express Tribune, 访问时间为 九月 28, 2025, https://tribune.com.pk/story/2566045/spotify-launches-lossless-music-streaming-for-premium-users-in-2025
- The History of Linear Prediction, 访问时间为 九月 28, 2025, https://www.csd.uoc.gr/~hy474/bibliography/LinearPredictionHistory.pdf
- Code-excited linear prediction - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Code-excited_linear_prediction
- G.729 - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/G.729
- g729 codec - Ozeki VoIP SIP SDK, 访问时间为 九月 28, 2025, https://voip-sip-sdk.com/p_7216-g729-codec.html
- Definition of G.729 | CallFire, 访问时间为 九月 28, 2025, https://www.callfire.com/help/glossary/communications/g729
- AMR (Adaptive Multi-Rate) standard - VoiceAge, 访问时间为 九月 28, 2025, https://voiceage.com/AMR-NB.AMR.html
- Adaptive Multi-Rate audio codec - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Adaptive_Multi-Rate_audio_codec
- Adaptive Multi-Rate Wideband - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Adaptive_Multi-Rate_Wideband
- Opus (audio format) - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Opus_(audio_format)
- RFC 6716 - Definition of the Opus Audio Codec - IETF Datatracker, 访问时间为 九月 28, 2025, https://datatracker.ietf.org/doc/html/rfc6716
- Opus Codec, 访问时间为 九月 28, 2025, https://opus-codec.org/
- Opus: One Codec to Rule Them All? - OnSIP, 访问时间为 九月 28, 2025, https://www.onsip.com/voip-resources/voip-fundamentals/opus-one-codec-to-rule-them-all
- Xiph.Org / Opus website · GitLab, 访问时间为 九月 28, 2025, https://gitlab.xiph.org/xiph/opus-website
- Lync / Skype for Business - Network Planning for the SILK codec - Risual, 访问时间为 九月 28, 2025, https://www.risual.com/2015/03/lync-skype-for-business-network-planning-for-the-silk-codec/
- Opus - Hydrogenaudio Knowledgebase, 访问时间为 九月 28, 2025, https://wiki.hydrogenaudio.org/index.php?title=Opus
- OpusFAQ - XiphWiki, 访问时间为 九月 28, 2025, https://wiki.xiph.org/OpusFAQ
- What is Opus Audio Codec? - Castr’s Blog, 访问时间为 九月 28, 2025, https://castr.com/blog/opus-audio-codec/
- What is Opus Audio Codec? Features, Benefits & Use Cases - Vodlix.com, 访问时间为 九月 28, 2025, https://vodlix.com/blog/opus-audio-codec
- WebRTC Codecs - What’s supported? - Stream, 访问时间为 九月 28, 2025, https://getstream.io/resources/projects/webrtc/advanced/codecs/
- Opus: The Best VoIP Codec to Use with 4G LTE - RabbitRun, 访问时间为 九月 28, 2025, https://www.rabbit.run/opus-the-best-voip-codec-to-use-with-4g-lte/
- Codecs used by WebRTC - Media | MDN - Mozilla, 访问时间为 九月 28, 2025, https://developer.mozilla.org/en-US/docs/Web/Media/Guides/Formats/WebRTC_codecs
- OPUS is still better than AAC and MP3. - Hacker News, 访问时间为 九月 28, 2025, https://news.ycombinator.com/item?id=37729791
- Adaptive bitrate streaming - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Adaptive_bitrate_streaming
- What is adaptive bitrate streaming? - Cloudflare, 访问时间为 九月 28, 2025, https://www.cloudflare.com/learning/video/what-is-adaptive-bitrate-streaming/
- Adaptive Bitrate Video Streaming Best Practice | AT&T Developer, 访问时间为 九月 28, 2025, https://developer.att.com/video-optimizer/docs/best-practices/adaptive-bitrate-video-streaming
- Video Manifest | Cloudinary, 访问时间为 九月 28, 2025, https://cloudinary.com/glossary/video-manifest
- How do adaptive bitrates work? - Momento Docs, 访问时间为 九月 28, 2025, https://docs.momentohq.com/media-storage/performance/adaptive-bitrates/how-it-works
- HLS vs MPEG-DASH - Comparison Between Video Streaming Protocols - Gumlet, 访问时间为 九月 28, 2025, https://www.gumlet.com/learn/hls-vs-dash/
- MPEG - The Standards and History - Les Simmonds, 访问时间为 九月 28, 2025, http://www.lessimmonds.com.au/pdf/0412-MPEG-01.pdf
- The Role of Patent Pools in Commercialization - PatentPC, 访问时间为 九月 28, 2025, https://patentpc.com/blog/the-role-of-patent-pools-in-commercialization
- Via LA Licensing, 访问时间为 九月 28, 2025, https://www.via-la.com/
- AAC-LC - Fraunhofer-Institut für Integrierte Schaltungen IIS, 访问时间为 九月 28, 2025, https://www.iis.fraunhofer.de/en/ff/amm/broadcast-streaming/aaclc.html
- Understanding the Audio Codec Landscape | LexisNexis Intellectual Property Solutions, 访问时间为 九月 28, 2025, https://www.lexisnexisip.com/understanding-the-audio-codec-landscape/
- Audio-video patents - software patents wiki (ESP Wiki), 访问时间为 九月 28, 2025, https://wiki.endsoftwarepatents.org/wiki/Audio-video_patents
- ANALYSIS AND ENHANCEMENT OF APPLE’S FAIRPLAY DIGITAL RIGHTS MANAGEMENT - Department of Computer Science, 访问时间为 九月 28, 2025, https://www.cs.sjsu.edu/faculty/stamp/students/RamyaVenkataramu_CS298Report.pdf
- Digital Rights Management Features - Win32 apps | Microsoft Learn, 访问时间为 九月 28, 2025, https://learn.microsoft.com/en-us/windows/win32/wmformat/digital-rights-management-features
- FairPlay - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/FairPlay
- FairPlay DRM – 5 Things to Know About DRM Technology - DoveRunner, 访问时间为 九月 28, 2025, https://doverunner.com/blogs/what-is-fairplay-drm-how-does-it-work/
- What is DRM? Understanding Digital Rights Management in Streaming | Dolby OptiView, 访问时间为 九月 28, 2025, https://optiview.dolby.com/resources/blog/streaming/what-is-drm-understanding-digital-rights-management/
- What is DRM Protection Technology, its Working & Types for Media - VdoCipher Blog, 访问时间为 九月 28, 2025, https://www.vdocipher.com/blog/drm-technology/
- Chart: From Tape to Tidal: 4 Decades of U.S. Music Sales | Statista, 访问时间为 九月 28, 2025, https://www.statista.com/chart/17244/us-music-revenue-by-format/
- RIAA MID-YEAR 2024 RECORDED MUSIC REVENUE REPORT, 访问时间为 九月 28, 2025, https://www.riaa.com/wp-content/uploads/2024/08/RIAA-Mid-Year-2024-Revenue-Report.pdf
- RIAA 2024 Year-End Revenue Report, 访问时间为 九月 28, 2025, https://www.riaa.com/wp-content/uploads/2025/03/RIAA-2024Year-End-Revenue-Report.pdf
- Apple Music Statistics That You Just Gotta Know, 访问时间为 九月 28, 2025, https://music3point0.com/2025/01/15/apple-music-statistics-that-you-just-gotta-know/
- Channel-based vs. object-based audio format | sonofloat, 访问时间为 九月 28, 2025, https://sonofloat.com/en/channel-based-vs-object-based-audio-format/
- What’s the difference between object- and channel-based audio? - Analog IC Tips, 访问时间为 九月 28, 2025, https://www.analogictips.com/whats-the-difference-between-object-and-channel-based-audio/
- What is Object-based Audio? - Sound Particles Blog, 访问时间为 九月 28, 2025, https://blog.soundparticles.com/what-is-object-based-audio
- Objects and Beds Explained - Audient, 访问时间为 九月 28, 2025, https://audient.com/tutorial/objects-and-beds-explained/
- Learn more about Dolby Atmos - Apple Music for Artists, 访问时间为 九月 28, 2025, https://artists.apple.com/support/1126-learn-more-about-dolby-atmos
- Dolby Presents: The World Of Sound | Demo | Dolby Atmos - YouTube, 访问时间为 九月 28, 2025, https://www.youtube.com/watch?v=91BUM3WhCfo
- Dolby Atmos - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Dolby_Atmos
- How to listen to music in Dolby Atmos, 访问时间为 九月 28, 2025, https://www.dolby.com/experience/home-entertainment/articles/how-to-listen-to-music-in-dolby-atmos/
- An introduction to Dolby Atmos Music - Lyngdorf Audio, 访问时间为 九月 28, 2025, https://lyngdorf.steinwaylyngdorf.com/beginners-guide-what-is-dolby-atmos-music/
- MPEG-H 3D Audio - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/MPEG-H_3D_Audio
- MPEG-H 3D Audio - The new standard for coding of immersive spatial audio - Fraunhofer-Publica, 访问时间为 九月 28, 2025, https://publica.fraunhofer.de/entities/publication/78c16b04-0d5e-4345-8af8-ab8090b5385f
- MPEG-H Audio - Fraunhofer-Institut für Integrierte Schaltungen IIS, 访问时间为 九月 28, 2025, https://www.iis.fraunhofer.de/en/ff/amm/broadcast-streaming/mpegh.html
- MPEG-H Audio - The New Standard for Universal Spatial / 3D Audio Coding, 访问时间为 九月 28, 2025, https://picture.iczhiku.com/resource/paper/SYIWpoAyYAWjqCnV.pdf
- MPEG-H Audio – The Next Generation Audio Standard for Broadcast and Streaming - Fraunhofer IIS, 访问时间为 九月 28, 2025, https://www.iis.fraunhofer.de/en/ff/amm/broadcast-streaming/mpegh-audio-production-tools.html
- support.apple.com, 访问时间为 九月 28, 2025, https://support.apple.com/guide/macbook-air/spatial-audio-apd0d6ee8bae/mac#:~:text=Your%20Mac%20with%20Apple%20silicon,come%20from%20all%20around%20you.
- Spatial Audio - Apple Support, 访问时间为 九月 28, 2025, https://support.apple.com/guide/macbook-air/spatial-audio-apd0d6ee8bae/mac
- What Is Spatial Audio And How Does It Work? - Avantree, 访问时间为 九月 28, 2025, https://avantree.com/blogs/knowledge/what-is-spatial-audio-and-how-does-it-work
- Control Spatial Audio and head tracking - Apple Support, 访问时间为 九月 28, 2025, https://support.apple.com/guide/airpods/control-spatial-audio-and-head-tracking-dev00eb7e0a3/web
- Fixed vs Head Tracked Spatial Audio: A Comparative Guide - Soundcore, 访问时间为 九月 28, 2025, https://www.soundcore.com/blogs/earbuds/fixed-vs-head-tracked-spatial-audio
- Dynamic Head Tracking - Spatial Audio for 3D Surround Headphones - VRTONUNG, 访问时间为 九月 28, 2025, https://www.vrtonung.de/en/head-tracking-spatial-audio/
- Deep Learning for Lossless Audio Compression - Scilit, 访问时间为 九月 28, 2025, https://www.scilit.com/publications/51d9d5a5284420b0277f3b63404a5c86
- Neural Audio Codecs: The Future of Sound Compression - Abyssmedia, 访问时间为 九月 28, 2025, https://www.abyssmedia.com/audioconverter/neural-audio-codecs-overview.shtml
- Using AI to compress audio files for quick and easy sharing - AI at Meta, 访问时间为 九月 28, 2025, https://ai.meta.com/blog/ai-powered-audio-compression-technique/
- WaveNet: A generative model for raw audio - Google DeepMind, 访问时间为 九月 28, 2025, https://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/
- APCodec: A Neural Audio Codec with Parallel Amplitude and Phase Spectrum Encoding and Decoding - arXiv, 访问时间为 九月 28, 2025, https://arxiv.org/html/2402.10533v1
- google/lyra: A Very Low-Bitrate Codec for Speech Compression - GitHub, 访问时间为 九月 28, 2025, https://github.com/google/lyra
- Lyra (codec) - Wikipedia, 访问时间为 九月 28, 2025, https://en.wikipedia.org/wiki/Lyra_(codec)
- Lyra: A New Very Low-Bitrate Codec for Speech Compression - Google Research, 访问时间为 九月 28, 2025, https://research.google/blog/lyra-a-new-very-low-bitrate-codec-for-speech-compression/
- SoundStream: An End-to-End Neural Audio Codec - Google Research, 访问时间为 九月 28, 2025, https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/
- SoundStream: An End-to-End Neural Audio Codec - Hugging Face, 访问时间为 九月 28, 2025, https://huggingface.co/papers/2107.03312
- SoundStream: An End-to-End Neural Audio Codec | Request PDF - ResearchGate, 访问时间为 九月 28, 2025, https://www.researchgate.net/publication/356476366_SoundStream_An_End-to-End_Neural_Audio_Codec
- SoundStream Neural Codec: Understanding AI on Audio | by Abu Huzaifah Bin Haji Bidin, 访问时间为 九月 28, 2025, https://medium.com/@maercaestro/soundstream-neural-codec-understanding-ai-on-audio-8f1a123b097c
- Music Biz Member Meta Announces Work on New AI-Powered ‘EnCodec’ Audio Compression Method, 访问时间为 九月 28, 2025, https://musicbiz.org/news/music-biz-member-meta-announces-work-on-new-ai-powered-encodec-audio-compression-method/
- Beyond Spectrograms: Rethinking Audio Classification from EnCodec’s Latent Space, 访问时间为 九月 28, 2025, https://www.mdpi.com/1999-4893/18/2/108
- facebookresearch/encodec: State-of-the-art deep learning based audio codec supporting both mono 24 kHz audio and stereo 48 kHz audio. - GitHub, 访问时间为 九月 28, 2025, https://github.com/facebookresearch/encodec
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)