【GitHub项目推荐--产品级开源实时语音对话系统】
Step-Audio 2 是一款端到端的多模态大型语言模型,旨在实现工业级的音频理解和语音对话。先进的语音和音频理解:通过理解和推理语义信息、副语言和非语音信息,在语音识别(ASR)和音频理解方面展现出优异的性能。智能语音对话:实现自然、智能的交互,适用于各种对话场景和副语言信息。工具调用和多模态 RAG:通过利用工具调用和 RAG 访问现实世界的知识(包括文本和声学知识),Step-Audio
Step-Audio
1. 介绍
Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点:
-
1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型 Step-Audio-Chat。
-
高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖,生成高质量的合成音频数据,并同步开源首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B 。
-
精细语音控制: 支持多种情绪(如生气,高兴,悲伤)、方言(包括粤语、四川话等)和唱歌(包括 RAP、干声哼唱)的精准调控,满足用户对多样化语音生成的需求。
-
扩展工具调用: 通过 ToolCall 机制和角色扮演增强,进一步提升其在 Agents 和复杂任务中的表现。
2. 模型组成
在Step-Audio系统中,音频流采用Linguistic tokenizer(码率16.7Hz,码本大小1024)与Semantice tokenizer(码率25Hz,码本大小4096)并行的双码本编码器方案,双码本在排列上使用了2:3时序交错策略。通过音频语境化持续预训练和任务定向微调强化了130B参数量的基础模型(Step-1),最终构建了强大的跨模态语音理解能力。为了实现实时音频生成,系统采用了混合语音解码器,结合流匹配(flow matching)与神经声码技术。
2.1 Tokenizer
我们通过token级交错方法实现Linguistic token与Semantic token的有效整合。Linguistic tokenizer的码本大小是1024,码率16.7Hz;而Semantic tokenizer则使用4096的大容量码本来捕捉更精细的声学细节,码率25Hz。鉴于两者的码率差异,我们建立了2:3的时间对齐比例——每两个Linguistic token对应三个Linguistic token形成时序配对。
2.2 语言模型
为了提升Step-Audio有效处理语音信息的能力,并实现精准的语音-文本对齐,我们在Step-1(一个拥有1300亿参数的基于文本的大型语言模型LLM)的基础上进行了音频持续预训练。
2.3 语音解码器
Step-Audio语音解码器主要是将包含语义和声学信息的离散标记信息转换成连续的语音信号。该解码器架构结合了一个30亿参数的语言模型、流匹配模型(flow matching model)和梅尔频谱到波形的声码器(mel-to-wave vocoder)。为优化合成语音的清晰度(intelligibility)和自然度(naturalness),语音解码器采用双码交错训练方法(dual-code interleaving),确保生成过程中语义与声学特征的无缝融合。
2.4 实时推理管线
为了实现实时的语音交互,我们对推理管线进行了一系列优化。其中最核心的是控制模块(Controller),该模块负责管理状态转换、协调响应生成,并确保关键子系统间的无缝协同。这些子系统包括:
-
语音活动检测(VAD):实时检测用户语音起止
-
流式音频分词器(Streaming Audio Tokenizer):实时音频流处理
-
Step-Audio语言模型与语音解码器:多模态回复生成
-
上下文管理器(Context Manager):动态维护对话历史与状态 编辑
2.5 后训练细节
在后训练阶段,我们针对自动语音识别(ASR)与文本转语音(TTS)任务进行了专项监督微调(Supervised Fine-Tuning, SFT)。对于音频输入-文本输出(Audio Question Text Answer, AQTA)任务,我们采用多样化高质量数据集进行SFT,并采用了基于人类反馈的强化学习(RLHF)以提升响应质量,从而实现对情感表达、语速、方言及韵律的细粒度控制。 编辑
3. 模型下载
3.1 Huggingface
| 模型 | 链接 |
|---|---|
| Step-Audio-Tokenizer | 🤗huggingface |
| Step-Audio-Chat | 🤗huggingface |
| Step-Audio-TTS-3B | 🤗huggingface |
3.2 Modelscope
| 模型 | 链接 |
|---|---|
| Step-Audio-Tokenizer | modelscope |
| Step-Audio-Chat | modelscope |
| Step-Audio-TTS-3B | modelscope |
4. 模型使用
📜 4.1 要求
下表列出了运行Step-Audio模型(batch size=1)所需的配置要求:
| 模型 | Setting (采样率) |
GPU最低显存 |
|---|---|---|
| Step-Audio-Tokenizer | 41.6Hz | 1.5GB |
| Step-Audio-Chat | 41.6Hz | 265GB |
| Step-Audio-TTS-3B | 41.6Hz | 8GB |
- 需要支持CUDA的NVIDIA显卡.
- 模型在4块显存为80GB的A800系列NVIDIA显卡上进行测试.
- 推荐: 为确保最佳生成质量,建议使用4块显存为80GB的A800/H800系列NVIDIA显卡.
- 测试采用的操作系统: Linux
🔧 4.2 依赖项与安装
- Python >= 3.10.0 (推荐使用 Anaconda or Miniconda)
- PyTorch >= 2.3-cu121
- CUDA Toolkit
git clone https://github.com/stepfun-ai/Step-Audio.git conda create -n stepaudio python=3.10 conda activate stepaudio cd Step-Audio pip install -r requirements.txt git lfs install git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B
下载模型后,where_you_download_dir应包含以下结构:
where_you_download_dir
├── Step-Audio-Tokenizer
├── Step-Audio-Chat
├── Step-Audio-TTS-3B
Docker 运行环境
使用 docker 创建 Step-Audio 运行时所需要的环境
# 构建 docker 镜像
docker build . -t step-audio
# 运行 docker
docker run --rm -ti --gpus all \
-v /your/code/path:/app -v /your/model/path:/model \
-p 7860:7860 \
step-audio \
-- bash
# 构建 vLLM docker 镜像
docker build -f Dockerfile-vllm -t step-audio-vllm .
# 运行 vLLM docker
docker run --rm -ti --gpus all \
-v /your/code/path:/app -v /your/model/path:/model \
-p 7860:7860 \
-p 8000:8000 \
step-audio-vllm \
-- bash
🚀 4.3 推理脚本
离线推理
支持端到端音频/文本输入与音频/文本输出的推理流程。
python offline_inference.py --model-path where_you_download_dir
语音合成推理
使用默认音色进行语音合成推理或使用新音色进行克隆
python tts_inference.py --model-path where_you_download_dir --output-path where_you_save_audio_dir --synthesis-type use_tts_or_clone
克隆模式需要音色信息字典,格式如下:
{
"speaker": "speaker id",
"prompt_text": "content of prompt wav",
"wav_path": "prompt wav path"
}
启动网页演示
启动本地服务器以进行在线推理。 假设您已配备4块GPU且已完成所有模型的下载。
# Step-Audio-Chat demo python app.py --model-path where_you_download_dir # Step-Audio-TTS-3B demo python tts_app.py --model-path where_you_download_dir
使用vLLM推理对话模型(推荐)
Step-Audio-Chat是130B大语言模型,推荐使用支持张量并行的vLLM进行推理。 * 由于vLLM没有加载 Tokenizer 和 TTS,所以模型不支持输入语音进行推理
当前官方vLLM暂未支持Step 1模型架构,建议通过我们的开发分支进行本地安装。
由于对话模型中 Attention 机制是基于 ALIBI 的变种实现,所以官方 flash attention 库并不兼容。我们已在Step-Audio-Chat仓库提供定制版 flash attention 库,运行模型前请确保将定制库路径添加至环境变量。
export OPTIMUS_LIB_PATH=where_you_download_dir/Step-Audio-Chat/lib vllm serve where_you_download_dir/Step-Audio-Chat --dtype auto -tp $tp --served-model-name step-audio-chat --trust-remote-code # vLLM chat 调用示例 python call_vllm_chat.py
5. 基准
5.1 语音识别
| 隐层特征建模 | 离散标记建模 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
| Whisper Large-v3 | Qwen2-Audio | MinMo | LUCY | Moshi | GLM-4-voice Base | GLM-4-voice Chat | Step-Audio Pretrain | Step-Audio-Chat | |
| Aishell-1 | 5.14 | 1.53 | - | 2.4 | - | 2.46 | 226.47 | 0.87 | 1.95 |
| Aishell-2 ios | 4.76 | 3.06 | 2.69 | - | - | - | 211.3 | 2.91 | 3.57 |
| Wenetspeech test-net | 9.68 | 7.72 | 6.64 | 8.78 | - | - | 146.05 | 7.62 | 8.75 |
| Wenet test-meeting | 18.54 | 8.4 | 7.6 | 10.42 | - | - | 140.82 | 7.78 | 9.52 |
| Librispeech test-clean | 1.9 | 1.6 | 1.6 | 3.36 | 5.7 | 2.82 | 75.39 | 2.36 | 3.11 |
| Librispeech test-other | 3.65 | 3.6 | 3.82 | 8.05 | - | 7.66 | 80.3 | 6.32 | 8.44 |
| AVG | 7.28 | 4.32 | - | - | - | - | 146.74 | 4.64 | 5.89 |
5.2 语音合成
5.2.1 与GLM-4-Voice与MinMo在内容一致性(CER/WER)上的性能对比。
| Model | test-zh | test-en |
|---|---|---|
| CER (%) ↓ | WER (%) ↓ | |
| GLM-4-Voice | 2.19 | 2.91 |
| MinMo | 2.48 | 2.90 |
| Step-Audio | 1.53 | 2.71 |
5.2.2 语音合成模型在SEED测试集上的性能结果。
- StepAudio-TTS-3B-Single 表示采用双码本主干网络与单码本声码器的组合架构。
| Model | test-zh | test-en | ||
|---|---|---|---|---|
| CER (%) ↓ | SS ↑ | WER (%) ↓ | SS ↑ | |
| FireRedTTS | 1.51 | 0.630 | 3.82 | 0.460 |
| MaskGCT | 2.27 | 0.774 | 2.62 | 0.774 |
| CosyVoice | 3.63 | 0.775 | 4.29 | 0.699 |
| CosyVoice 2 | 1.45 | 0.806 | 2.57 | 0.736 |
| CosyVoice 2-S | 1.45 | 0.812 | 2.38 | 0.743 |
| Step-Audio-TTS-3B-Single | 1.37 | 0.802 | 2.52 | 0.704 |
| Step-Audio-TTS-3B | 1.31 | 0.733 | 2.31 | 0.660 |
| Step-Audio-TTS | 1.17 | 0.73 | 2.0 | 0.660 |
5.2.3 双码本重合成与CosyVoice性能对比。
| Token | test-zh | test-en | ||
|---|---|---|---|---|
| CER (%) ↓ | SS ↑ | WER (%) ↓ | SS ↑ | |
| Groundtruth | 0.972 | - | 2.156 | - |
| CosyVoice | 2.857 | 0.849 | 4.519 | 0.807 |
| Step-Audio-TTS-3B | 2.192 | 0.784 | 3.585 | 0.742 |
5.3 语音对话
我们发布全新基准测试StepEval-Audio-360,该数据集包含137个源自真实用户的多轮中文提示,旨在系统性评估生成式语音交互系统在以下维度的表现:语音指令遵循、语音理解、逻辑推理、角色扮演、创作能力、唱歌、语言能力、语音情绪控制、游戏。
5.3.1 StepEval-Audio-360
大语言模型评估指标(GPT-4o)
Comparison of fundamental capabilities of voice chat on the StepEval-Audio-360.
| Model | Factuality (% ↑) | Relevance (% ↑) | Chat Score ↑ |
|---|---|---|---|
| GLM4-Voice | 54.7 | 66.4 | 3.49 |
| Qwen2-Audio | 22.6 | 26.3 | 2.27 |
| Moshi* | 1.0 | 0 | 1.49 |
| Step-Audio-Chat | 66.4 | 75.2 | 4.11 |
- 注意:带有“*”标记的内容仅供参考。
雷达图(人工测评)
5.3.2 公开测试集
| Model | Llama Question | Web Questions | TriviaQA* | ComplexBench | HSK-6 |
|---|---|---|---|---|---|
| GLM4-Voice | 64.7 | 32.2 | 39.1 | 66.0 | 74.0 |
| Moshi | 62.3 | 26.6 | 22.8 | - | - |
| Freeze-Omni | 72.0 | 44.7 | 53.9 | - | - |
| LUCY | 59.7 | 29.3 | 27.0 | - | - |
| MinMo | 78.9 | 55.0 | 48.3 | - | - |
| Qwen2-Audio | 52.0 | 27.0 | 37.3 | 54.0 | - |
| Step-Audio-Chat | 81.0 | 75.1 | 58.0 | 74.0 | 86.0 |
- 注意:在 TriviaQA 数据集上,带有“*”标记的结果仅供参考。
5.3.3 语音指令遵循
| Category | Instruction Following | Audio Quality | ||
|---|---|---|---|---|
| GLM-4-Voice | Step-Audio | GLM-4-Voice | Step-Audio | |
| Languages | 1.9 | 3.8 | 2.9 | 3.3 |
| Role-playing | 3.8 | 4.2 | 3.2 | 3.6 |
| Singing / RAP | 2.1 | 2.4 | 2.4 | 4 |
| Voice Control | 3.6 | 4.4 | 3.3 | 4.1 |
6. 在线引擎
Step-Audio 的在线版本可以通过跃问 的应用程序访问,其中还可以找到一些惊喜的示例。
7. 样例
音频克隆
| role | prompt wav | clone wav |
|---|---|---|
| 于谦 | google drive audio file |
google drive audio file |
| 李雪琴 | google drive audio file |
google drive audio file |
速度控制
| prompt | response |
|---|---|
| Human: 说一个绕口令 Assistant: 吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮 Human: 哎,你能把这个绕口令说的再快一点吗? |
google drive audio file |
| Human: 说一个绕口令 Assistant: 吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮 Human: 哎,你能把这个绕口令说的再快一点吗? Assistant: 吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮 Human: 呃,你再用非常非常慢的速度说一遍的。 |
google drive audio file |
高情商(情感控制 & 语调控制)
| prompt | response |
|---|---|
| Human: 你这语气又不撒娇又不卖萌的,要不你撒个娇卖个萌吧。 | google drive audio file |
| Human: 怎么办?我感觉我的人生很失败。 | google drive audio file |
| Human: 小跃。你真的是。特别厉害。 | google drive audio file |
多语言 (e.g., 中文, 英文, 日语)
| prompt | response |
|---|---|
| Human: What did the speaker mean when they said, it's raining cats and dogs? Assistant: When they say "It's raining cats and dogs," it just means it's raining really hard. The speaker isn't literally saying cats and dogs are falling from the sky! It's just a fun way to describe heavy rain. |
google drive audio file |
| Human: こんにちは。(你好) Assistant:こんにちは!何か手伝いましょうか?(您好!我可以帮你做点什么吗?) |
google drive audio file |
Rap & Vocal
| prompt | response |
|---|---|
| Human: 唱一段rap | google drive audio file |
8. 致谢
本项目的部分代码来自:
感谢以上所有开源项目对本项目开源做出的贡献!
9. 协议
-
Step-Audio 相关模型的权重使用协议请分别需要按照Step-Audio-Chat, Step-Audio-Tokenizer 和 Step-Audio-TTS-3B 里面的协议进行遵守
-
本开源仓库的代码则遵循 Apache 2.0 协议。
github地址:stepfun-ai/Step-Audio
Step-Audio-2-mini
简介
Step-Audio 2 是一款端到端的多模态大型语言模型,旨在实现工业级的音频理解和语音对话。
-
先进的语音和音频理解:通过理解和推理语义信息、副语言和非语音信息,在语音识别(ASR)和音频理解方面展现出优异的性能。
-
智能语音对话:实现自然、智能的交互,适用于各种对话场景和副语言信息。
-
工具调用和多模态 RAG:通过利用工具调用和 RAG 访问现实世界的知识(包括文本和声学知识),Step-Audio 2 可以在多种场景下生成更少幻觉的响应,同时还能根据检索到的语音切换音色。
- 开源:Step-Audio 2 mini 和 Step-Audio 2 mini Base 已在 Apache 2.0 许可证下发布。
模型下载
Huggingface
| 模型 | 🤗 Hugging Face |
|---|---|
| Step-Audio 2 mini | stepfun-ai/Step-Audio-2-mini |
| Step-Audio 2 mini Base | stepfun-ai/Step-Audio-2-mini-Base |
模型使用
🔧 依赖项和安装
- Python >= 3.10
- PyTorch >= 2.3-cu121
- CUDA Toolkit
conda create -n stepaudio2 python=3.10
conda activate stepaudio2
pip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml
git clone https://github.com/stepfun-ai/Step-Audio2.git
cd Step-Audio2
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-2-mini
🚀 推理脚本
python examples.py
🚀 本地网页演示
pip install gradio
python web_demo.py
在线演示
StepFun 实时控制台
- Step-Audio 2 和 Step-Audio 2 mini 都可在我们的 StepFun 实时控制台中使用,并启用了网络搜索工具。
- 您需要从 StepFun 开放平台 获取一个API密钥。
StepFun AI 助手
- Step-Audio 2 同样可在我们的 StepFun AI 助手移动应用程序中使用,其中启用了网页和音频搜索工具。
- 请扫描以下二维码从您的应用商店下载,然后点击右上角的手机图标。
自动语音识别
中文、粤语和日语的CER,以及阿拉伯语和英语的WER。N/A表示该语言不受支持。
| 类别 | 测试集 | Doubao LLM ASR | GPT-4o Transcribe | Kimi-Audio | Qwen-Omni | Step-Audio 2 | Step-Audio 2 mini |
|---|---|---|---|---|---|---|---|
| 英语 | Common Voice | 9.20 | 9.30 | 7.83 | 8.33 | 5.95 | 6.76 |
| FLEURS English | 7.22 | 2.71 | 4.47 | 5.05 | 3.03 | 3.05 | |
| LibriSpeech clean | 2.92 | 1.75 | 1.49 | 2.93 | 1.17 | 1.33 | |
| LibriSpeech other | 5.32 | 4.23 | 2.91 | 5.07 | 2.42 | 2.86 | |
| 平均 | 6.17 | 4.50 | 4.18 | 5.35 | 3.14 | 3.50 | |
| 中文 | AISHELL | 0.98 | 3.52 | 0.64 | 1.17 | 0.63 | 0.78 |
| AISHELL-2 | 3.10 | 4.26 | 2.67 | 2.40 | 2.10 | 2.16 | |
| FLEURS Chinese | 2.92 | 2.62 | 2.91 | 7.01 | 2.68 | 2.53 | |
| KeSpeech phase1 | 6.48 | 26.80 | 5.11 | 6.45 | 3.63 | 3.97 | |
| WenetSpeech meeting | 4.90 | 31.40 | 5.21 | 6.61 | 4.75 | 4.87 | |
| WenetSpeech net | 4.46 | 15.71 | 5.93 | 5.24 | 4.67 | 4.82 | |
| 平均 | 3.81 | 14.05 | 3.75 | 4.81 | 3.08 | 3.19 | |
| 多语言 | FLEURS Arabian | N/A | 11.72 | N/A | 25.13 | 14.22 | 16.46 |
| Common Voice yue | 9.20 | 11.10 | 38.90 | 7.89 | 7.90 | 8.32 | |
| FLEURS Japanese | N/A | 3.27 | N/A | 10.49 | 3.18 | 4.67 | |
| 内部 | 安徽口音 | 8.83 | 50.55 | 22.17 | 18.73 | 10.61 | 11.65 |
| 广东口音 | 4.99 | 7.83 | 3.76 | 4.03 | 3.81 | 4.44 | |
| 广西口音 | 3.37 | 7.09 | 4.29 | 3.35 | 4.11 | 3.51 | |
| 陕西口音 | 20.26 | 55.03 | 34.71 | 25.95 | 12.44 | 15.60 | |
| 四川方言 | 3.01 | 32.85 | 5.26 | 5.61 | 4.35 | 4.57 | |
| 上海方言 | 47.49 | 89.58 | 82.90 | 58.74 | 17.77 | 19.30 | |
| 平均 | 14.66 | 40.49 | 25.52 | 19.40 | 8.85 | 9.85 |
语音副语言信息理解
StepEval-Audio-Paralinguistic
| 模型 | 平均分 | 性别 | 年龄 | 音色 | 场景 | 事件 | 情感 | 音调 | 节奏 | 速度 | 风格 | 音质 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-4o Audio | 43.45 | 18 | 42 | 34 | 22 | 14 | 82 | 40 | 60 | 58 | 64 | 44 |
| Kimi-Audio | 49.64 | 94 | 50 | 10 | 30 | 48 | 66 | 56 | 40 | 44 | 54 | 54 |
| Qwen-Omni | 44.18 | 40 | 50 | 16 | 28 | 42 | 76 | 32 | 54 | 50 | 50 | 48 |
| Step-Audio-AQAA | 36.91 | 70 | 66 | 18 | 14 | 14 | 40 | 38 | 48 | 54 | 44 | 0 |
| Step-Audio 2 | 83.09 | 100 | 96 | 82 | 78 | 60 | 86 | 82 | 86 | 88 | 88 | 68 |
| Step-Audio 2 mini | 80.00 | 100 | 94 | 80 | 78 | 60 | 82 | 82 | 68 | 74 | 86 | 76 |
音频理解与推理
MMAU
| 模型 | 平均 | 声音 | 语音 | 音乐 |
|---|---|---|---|---|
| Audio Flamingo 3 | 73.1 | 76.9 | 66.1 | 73.9 |
| Gemini 2.5 Pro | 71.6 | 75.1 | 71.5 | 68.3 |
| GPT-4o Audio | 58.1 | 58.0 | 64.6 | 51.8 |
| Kimi-Audio | 69.6 | 79.0 | 65.5 | 64.4 |
| Omni-R1 | 77.0 | 81.7 | 76.0 | 73.4 |
| Qwen2.5-Omni | 71.5 | 78.1 | 70.6 | 65.9 |
| Step-Audio-AQAA | 49.7 | 50.5 | 51.4 | 47.3 |
| Step-Audio 2 | 78.0 | 83.5 | 76.9 | 73.7 |
| Step-Audio 2 mini | 73.2 | 76.6 | 71.5 | 71.6 |
语音翻译
| Model | CoVoST 2 (S2TT) | ||
|---|---|---|---|
| Avg. | English-to-Chinese | Chinese-to-English | |
| GPT-4o Audio | 29.61 | 40.20 | 19.01 |
| Qwen2.5-Omni | 35.40 | 41.40 | 29.40 |
| Step-Audio-AQAA | 28.57 | 37.71 | 19.43 |
| Step-Audio 2 | 39.26 | 49.01 | 29.51 |
| Step-Audio 2 mini | 39.29 | 49.12 | 29.47 |
| Model | CVSS (S2ST) | ||
|---|---|---|---|
| Avg. | English-to-Chinese | Chinese-to-English | |
| GPT-4o Audio | 23.68 | 20.07 | 27.29 |
| Qwen-Omni | 15.35 | 8.04 | 22.66 |
| Step-Audio-AQAA | 27.36 | 30.74 | 23.98 |
| Step-Audio 2 | 30.87 | 34.83 | 26.92 |
| Step-Audio 2 mini | 29.08 | 32.81 | 25.35 |
工具调用
StepEval-Audio-Toolcall. 日期和时间工具没有参数。
| 模型 | 目标 | 指标 | 音频搜索 | 日期和时间 | 天气 | 网络搜索 |
|---|---|---|---|---|---|---|
| Qwen3-32B† | 触发 | 精确率 / 召回率 | 67.5 / 98.5 | 98.4 / 100.0 | 90.1 / 100.0 | 86.8 / 98.5 |
| 类型 | 准确率 | 100.0 | 100.0 | 98.5 | 98.5 | |
| 参数 | 准确率 | 100.0 | N/A | 100.0 | 100.0 | |
| Step-Audio 2 | 触发 | 精确率 / 召回率 | 86.8 / 99.5 | 96.9 / 98.4 | 92.2 / 100.0 | 88.4 / 95.5 |
| 类型 | 准确率 | 100.0 | 100.0 | 90.5 | 98.4 | |
| 参数 | 准确率 | 100.0 | N/A | 100.0 | 100.0 |
语音到语音对话
URO-Bench。U.R.O.分别代表理解、推理和口语对话。
| 模型 | 语言 | 基础 | 专业 | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 平均 | U | R | O | 平均 | U | R | O | ||
| GPT-4o Audio | 中文 | 78.59 | 89.40 | 65.48 | 85.24 | 67.10 | 70.60 | 57.22 | 70.20 |
| Kimi-Audio | 73.59 | 79.34 | 64.66 | 79.75 | 66.07 | 60.44 | 59.29 | 76.21 | |
| Qwen-Omni | 68.98 | 59.66 | 69.74 | 77.27 | 59.11 | 59.01 | 59.82 | 58.74 | |
| Step-Audio-AQAA | 74.71 | 87.61 | 59.63 | 81.93 | 65.61 | 74.76 | 47.29 | 68.97 | |
| Step-Audio 2 | 83.32 | 91.05 | 75.45 | 86.08 | 68.25 | 74.78 | 63.18 | 65.10 | |
| Step-Audio 2 mini | 77.81 | 89.19 | 64.53 | 84.12 | 69.57 | 76.84 | 58.90 | 69.42 | |
| GPT-4o Audio | 英语 | 84.54 | 90.18 | 75.90 | 90.41 | 67.51 | 60.65 | 64.36 | 78.46 |
| Kimi-Audio | 60.04 | 83.36 | 42.31 | 60.36 | 49.79 | 50.32 | 40.59 | 56.04 | |
| Qwen-Omni | 70.58 | 66.29 | 69.62 | 76.16 | 50.99 | 44.51 | 63.88 | 49.41 | |
| Step-Audio-AQAA | 71.11 | 90.15 | 56.12 | 72.06 | 52.01 | 44.25 | 54.54 | 59.81 | |
| Step-Audio 2 | 83.90 | 92.72 | 76.51 | 84.92 | 66.07 | 64.86 | 67.75 | 66.33 | |
| Step-Audio 2 mini | 74.36 | 90.07 | 60.12 | 77.65 | 61.25 | 58.79 | 61.94 | 63.80 | |
相关链接:
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)