腾讯开源SongGeneration：LeVo架构重构AI音乐创作，中文生成效果超越Suno

**导语**：腾讯AI Lab 6月开源的SongGeneration大模型，通过创新LeVo架构实现人声伴奏完美融合，中文歌词对齐准确率超越商业标杆Suno，推动音乐创作进入"文本即歌曲"的新时代。## 行业现状：AI音乐生成的三大瓶颈与爆发前夜2025年全球音乐大模型市场规模预计达187亿美元，中国占比32%（约59.8亿美元），年复合增长率高达29.5%。然而当前主流工具普遍面临三大...

宣苓滢Rosa

627人浏览 · 2025-10-02 04:25:08

宣苓滢Rosa · 2025-10-02 04:25:08 发布

腾讯开源SongGeneration：LeVo架构重构AI音乐创作，中文生成效果超越Suno

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

导语：腾讯AI Lab 6月开源的SongGeneration大模型，通过创新LeVo架构实现人声伴奏完美融合，中文歌词对齐准确率超越商业标杆Suno，推动音乐创作进入"文本即歌曲"的新时代。

行业现状：AI音乐生成的三大瓶颈与爆发前夜

2025年全球音乐大模型市场规模预计达187亿美元，中国占比32%（约59.8亿美元），年复合增长率高达29.5%。然而当前主流工具普遍面临三大痛点：音质模糊导致专业可用性低、人声与伴奏脱节破坏听感、中文生成准确率不足60%。腾讯AI Lab在此时推出SongGeneration，正是瞄准了这一技术断层带。

技术突破：LeVo架构的四大革命性创新

1. 混合双轨并行建模技术

传统AI音乐生成要么采用单轨混合导致音质损失，要么双轨分离产生节奏错位。SongGeneration独创"混合优先，双轨其次"策略：先通过LeLM语言模型生成统一的混合音轨令牌，确保人声与伴奏的和谐统一；再通过扩展解码器分离生成双轨令牌，保留各声部细节。这种架构使生成歌曲的整体和谐度提升40%，同时人声清晰度达到CD级标准。

2. 超低比特率编解码系统

面对48kHz双通道音乐的数据量挑战，腾讯研发的Music Codec实现0.35kbps比特率下的高保真还原，较行业平均水平降低60%码率。这一突破使模型参数量控制在3B级别（仅为同类模型的1/3），却能生成4分钟完整歌曲，生成速度提升至行业平均水平的2.3倍。

3. 多维度人类偏好对齐

针对音乐数据质量参差不齐的问题，SongGeneration构建三大偏好数据对：

音乐性偏好：通过奖励模型区分专业评分数据
歌词对齐偏好：利用ASR模型计算音素错误率
提示一致性偏好：基于MuQ-MuLan计算文本-音频相似度通过插值DPO优化算法，模型在中文歌词准确率评测中达到92%，超越Suno v4.5的87%。

4. 三阶段训练范式

创新的预训练→模块化扩展→偏好对齐训练流程，使模型在百万歌曲数据集上实现高效学习。预训练阶段冻结AR解码器专注混合令牌学习，扩展阶段训练双轨生成能力，最终通过低成本半自动标注数据实现偏好对齐，解决了高质量音乐数据稀缺的行业难题。

性能评测：开源模型第一，商业模型前三

在中国传媒大学音乐与录音艺术学院的权威评测中，SongGeneration表现亮眼：

客观指标：内容欣赏度（CE）、内容实用性（CU）、制作质量（PQ）三项第一
主观评分：在旋律（MEL）、伴奏（HAM）、结构（SSC）、音质（AQ）维度均列开源模型首位，整体表现（OVL）与Suno v4.5并列第二
中文专项：歌词准确度（LYC）以92%超越所有参评模型

应用场景与行业影响

创作门槛降低

普通用户仅需输入"国风抒情二胡"等关键词，即可生成带人声的完整歌曲。平台提供风格跟随功能，上传10秒参考音频就能生成同风格作品，极大降低创作门槛。

B端生态重构

短视频行业：30秒广告配乐成本从千元级降至百元内
游戏开发：背景音效生成效率提升80%
虚拟偶像：实时歌声合成成为可能，演出成本降低60%

版权保护新范式

通过区块链技术为每首生成歌曲附加唯一凭证，用户可选择保留创作权或进入版权池。腾讯音乐已为AI歌曲开辟专属通道，解决了长期困扰行业的版权归属问题。

快速上手指南

环境准备：

git clone https://gitcode.com/tencent_hunyuan/SongGeneration
cd SongGeneration
pip install -r requirements.txt

基础生成示例：

from songgeneration import SongGenerator
model = SongGenerator.from_pretrained("tencent/SongGeneration-base")
result = model.generate(
    text="欢快 流行 中文",
    duration=180  # 生成3分钟歌曲
)
result.save("output.wav")

高级控制参数：

style_follow：上传参考音频路径
vocal_weight：人声占比（0.1-0.9）
emotion：情绪强度（0-10）

未来展望：从工具到生态

腾讯计划在Q4推出支持多语言的SongGeneration-full版本，并开放API接口。随着模型能力的持续进化，我们或将见证：

音乐教育：AI作曲助教普及中小学课堂
影视制作：实时配乐系统成为标配
社交娱乐：用户生成内容（UGC）音乐占比突破30%

SongGeneration的开源不仅是一次技术展示，更是腾讯构建AI音乐生态的战略布局。在这场由大模型驱动的音乐产业变革中，创作者、平台方与技术提供方的协同创新，将重新定义音乐的生产与消费方式。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大