FunASR说话人分离实战指南：三步搞定多人会议记录

在多人会议、访谈对话等场景中，语音识别面临的最大挑战是什么？答案很明确：**如何准确区分"谁在什么时候说了什么"**。传统语音识别系统将所有语音混为一谈，导致会议记录变成"大杂烩"。FunASR通过内置的说话人分离技术，让语音识别准确率提升30%以上。本文将带你从实际应用出发，掌握这项技术的核心使用方法。## 应用场景：为什么你需要说话人分离？想象一下这样的会议记录：- **没有分离**

gitblog_00042

1187人浏览 · 2025-12-13 08:10:09

gitblog_00042 · 2025-12-13 08:10:09 发布

FunASR说话人分离实战指南：三步搞定多人会议记录

【免费下载链接】FunASR A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc. 项目地址: https://gitcode.com/GitHub_Trending/fun/FunASR

在多人会议、访谈对话等场景中，语音识别面临的最大挑战是什么？答案很明确：如何准确区分"谁在什么时候说了什么"。传统语音识别系统将所有语音混为一谈，导致会议记录变成"大杂烩"。FunASR通过内置的说话人分离技术，让语音识别准确率提升30%以上。本文将带你从实际应用出发，掌握这项技术的核心使用方法。

应用场景：为什么你需要说话人分离？

想象一下这样的会议记录：

没有分离："项目进度需要加快技术团队已经增加人力投入下周需要看到明显进展"
分离后："[张总] 项目进度需要加快 [李工] 技术团队已经增加人力投入 [张总] 下周需要看到明显进展"

核心应用场景：

企业会议自动纪要生成
多人访谈内容整理
视频会议实时字幕
司法审讯录音归档

图：FunASR整体技术架构，集成说话人分离、语音识别、标点预测等模块

实战操作：三步完成部署与应用

第一步：环境准备与快速部署

如何快速部署FunASR说话人分离服务？Docker一键部署是最佳选择：

# 克隆项目
git clone https://gitcode.com/GitHub_Trending/fun/FunASR

# 启动中文离线转写服务（含说话人分离）
cd runtime/deploy_tools && bash funasr-runtime-deploy-offline-cpu-zh.sh

部署注意事项：

确保系统内存≥4GB
首次运行会自动下载模型文件
服务默认监听0.0.0.0:10095端口

第二步：Python API调用实战

通过AutoModel接口，你可以这样操作：

from funasr import AutoModel

# 加载带说话人分离的语音识别模型
model = AutoModel(
    model="paraformer-zh",
    spk_model="cam++",  # 启用说话人分离
    vad_model="fsmn-vad",
    punc_model="ct-punc"
)

# 处理多人对话音频
res = model.generate(
    input="meeting_recording.wav",
    batch_size_s=300,
    spk_diarization=True,  # 开启说话人分离
    max_speakers=4  # 设置最大说话人数
)

# 输出带说话人标签的文本
print(res[0]["text_with_speaker"])

关键参数说明：

spk_diarization=True：启用说话人分离
max_speakers：根据实际场景设置，建议3-6人
batch_size_s：影响处理速度，值越大处理越快

第三步：结果优化与后处理

遇到重叠语音怎么办？FunASR的EEND-OLA模型能自动处理：

图：说话人分离与语音识别联合训练架构

性能优化策略

不同配置下的性能对比：

配置方案	处理速度	内存占用	适用场景
标准配置	实时处理	中等	普通会议
轻量配置	1.5倍实时	低	移动设备
高精度配置	0.8倍实时	高	司法审讯

实用贴士：

对于普通会议，设置max_speakers=4即可平衡性能
需要实时处理时，增大chunk_size参数
内存受限时，使用量化模型减少50%内存占用

常见问题与解决方案

问题1：说话人身份混淆

症状：同一个人的语音被识别为不同说话人

解决方案：

调整spk_threshold参数
使用CAMP++模型优化说话人嵌入
增加训练数据的说话人多样性

问题2：重叠语音识别率低

症状：多人同时说话时识别错误率升高

解决方案：

启用重叠感知处理
使用功率标签优化能量分配

实际案例：企业会议记录系统

某科技公司使用FunASR说话人分离技术后：

改造前：

需要人工标注说话人
会议纪要制作耗时2小时

改造后：

自动生成带说话人标签的纪要
处理时间缩短至10分钟

图：实际会议室环境，展示说话人分离技术的部署场景

技术优势总结

FunASR说话人分离技术的核心优势：

端到端处理：从语音输入到带说话人标签的文本输出，无需中间处理
高精度识别：在AMI测试集上说话人错误率仅14.2%
实时性能：CPU单核即可实现实时处理
易于集成：提供多种部署方式和API接口

下一步行动建议

想要立即体验？你可以：

快速体验：使用提供的Docker脚本部署测试环境
深度定制：根据具体场景调整模型参数
持续优化：关注社区更新，获取最新性能提升

通过本文的实战指南，你已经掌握了FunASR说话人分离技术的核心应用方法。从环境部署到API调用，从性能优化到问题解决，这套完整的解决方案将帮助你在多人语音处理场景中取得突破性进展。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla