腾讯开源SongGeneration:LeVo架构重构AI音乐创作,中文生成效果超越Suno

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案 【免费下载链接】SongGeneration 项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

导语:腾讯AI Lab 6月开源的SongGeneration大模型,通过创新LeVo架构实现人声伴奏完美融合,中文歌词对齐准确率超越商业标杆Suno,推动音乐创作进入"文本即歌曲"的新时代。

行业现状:AI音乐生成的三大瓶颈与爆发前夜

2025年全球音乐大模型市场规模预计达187亿美元,中国占比32%(约59.8亿美元),年复合增长率高达29.5%。然而当前主流工具普遍面临三大痛点:音质模糊导致专业可用性低、人声与伴奏脱节破坏听感、中文生成准确率不足60%。腾讯AI Lab在此时推出SongGeneration,正是瞄准了这一技术断层带。

技术突破:LeVo架构的四大革命性创新

1. 混合双轨并行建模技术

传统AI音乐生成要么采用单轨混合导致音质损失,要么双轨分离产生节奏错位。SongGeneration独创"混合优先,双轨其次"策略:先通过LeLM语言模型生成统一的混合音轨令牌,确保人声与伴奏的和谐统一;再通过扩展解码器分离生成双轨令牌,保留各声部细节。这种架构使生成歌曲的整体和谐度提升40%,同时人声清晰度达到CD级标准。

2. 超低比特率编解码系统

面对48kHz双通道音乐的数据量挑战,腾讯研发的Music Codec实现0.35kbps比特率下的高保真还原,较行业平均水平降低60%码率。这一突破使模型参数量控制在3B级别(仅为同类模型的1/3),却能生成4分钟完整歌曲,生成速度提升至行业平均水平的2.3倍。

3. 多维度人类偏好对齐

针对音乐数据质量参差不齐的问题,SongGeneration构建三大偏好数据对:

  • 音乐性偏好:通过奖励模型区分专业评分数据
  • 歌词对齐偏好:利用ASR模型计算音素错误率
  • 提示一致性偏好:基于MuQ-MuLan计算文本-音频相似度 通过插值DPO优化算法,模型在中文歌词准确率评测中达到92%,超越Suno v4.5的87%。

4. 三阶段训练范式

创新的预训练→模块化扩展→偏好对齐训练流程,使模型在百万歌曲数据集上实现高效学习。预训练阶段冻结AR解码器专注混合令牌学习,扩展阶段训练双轨生成能力,最终通过低成本半自动标注数据实现偏好对齐,解决了高质量音乐数据稀缺的行业难题。

性能评测:开源模型第一,商业模型前三

在中国传媒大学音乐与录音艺术学院的权威评测中,SongGeneration表现亮眼:

  • 客观指标:内容欣赏度(CE)、内容实用性(CU)、制作质量(PQ)三项第一
  • 主观评分:在旋律(MEL)、伴奏(HAM)、结构(SSC)、音质(AQ)维度均列开源模型首位,整体表现(OVL)与Suno v4.5并列第二
  • 中文专项:歌词准确度(LYC)以92%超越所有参评模型

应用场景与行业影响

创作门槛降低

普通用户仅需输入"国风 抒情 二胡"等关键词,即可生成带人声的完整歌曲。平台提供风格跟随功能,上传10秒参考音频就能生成同风格作品,极大降低创作门槛。

B端生态重构

  • 短视频行业:30秒广告配乐成本从千元级降至百元内
  • 游戏开发:背景音效生成效率提升80%
  • 虚拟偶像:实时歌声合成成为可能,演出成本降低60%

版权保护新范式

通过区块链技术为每首生成歌曲附加唯一凭证,用户可选择保留创作权或进入版权池。腾讯音乐已为AI歌曲开辟专属通道,解决了长期困扰行业的版权归属问题。

快速上手指南

  1. 环境准备:
git clone https://gitcode.com/tencent_hunyuan/SongGeneration
cd SongGeneration
pip install -r requirements.txt
  1. 基础生成示例:
from songgeneration import SongGenerator
model = SongGenerator.from_pretrained("tencent/SongGeneration-base")
result = model.generate(
    text="欢快 流行 中文",
    duration=180  # 生成3分钟歌曲
)
result.save("output.wav")
  1. 高级控制参数:
  • style_follow:上传参考音频路径
  • vocal_weight:人声占比(0.1-0.9)
  • emotion:情绪强度(0-10)

未来展望:从工具到生态

腾讯计划在Q4推出支持多语言的SongGeneration-full版本,并开放API接口。随着模型能力的持续进化,我们或将见证:

  • 音乐教育:AI作曲助教普及中小学课堂
  • 影视制作:实时配乐系统成为标配
  • 社交娱乐:用户生成内容(UGC)音乐占比突破30%

SongGeneration的开源不仅是一次技术展示,更是腾讯构建AI音乐生态的战略布局。在这场由大模型驱动的音乐产业变革中,创作者、平台方与技术提供方的协同创新,将重新定义音乐的生产与消费方式。

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案 【免费下载链接】SongGeneration 项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐