OpenAI 音频与语音功能全解析：语音转文本、文本转语音、实时语音交互应用开发指南

✅ 实时语音交互/字幕 → 用 Realtime API；✅ 多轮语音对话/函数调用 → 用 Chat Completions API；✅ 单一功能（转录/播报） → 用 Transcription/Speech API；✅ 想节省资源，提升国内访问速度 → 建议使用中转加速服务，推荐API 高速通道📢小贴士：国内用户访问 OpenAI 经常遇到速度慢、连接失败等问题，我们推荐使用API 加速通

二皮猴

1862人浏览 · 2025-07-28 17:46:33

二皮猴 · 2025-07-28 17:46:33 发布

在 AI 语音领域，OpenAI 提供了非常强大的 API 能力，包括语音识别、语音生成和语音代理等多种场景。本文将带你全面了解如何使用 OpenAI 的音频接口构建语音应用，并附带代码示例，助你快速上手开发智能语音功能。

一、主要应用场景

OpenAI 提供了丰富的音频处理能力，如果你已有明确的项目目标，可直接点击下方链接查看对应指南：

二、音频相关 API 功能概览

OpenAI 支持将语音作为输入、输出或两者结合，常见用途包括语音交互系统、语音助手、实时转录、播报引擎等。我们将这些功能大致划分如下：

1. 语音代理（Voice Agents）

构建语音代理有两种常见方式：

使用 语音到语音（Speech-to-Speech）模型，支持实时低延迟交互；
将 语音转文本（ASR）+ 文本处理（LLM）+ 文本转语音（TTS） 链接起来。

如果你已经在使用 OpenAI Agents SDK，也可以通过官方语音扩展指南快速集成语音能力。

2. 实时语音流（Streaming）

通过 Realtime API 可以实现音频流式传输，支持多语言识别与语音合成，适用于低延迟交互与字幕生成等场景。

3. 文本转语音（TTS）

使用 audio/speech 接口即可实现文本转语音，目前支持的模型包括：

gpt-4o-mini-tts
tts-1
tts-1-hd

其中 gpt-4o-mini-tts 还支持语气和风格控制。

4. 语音转文本（ASR）

使用 audio/transcriptions 接口进行语音转录，目前支持的模型包括：

gpt-4o-transcribe
gpt-4o-mini-transcribe
whisper-1

三、如何选择合适的 API？

API 类型	支持内容	是否支持音频流
Realtime API	文本和音频输入输出	✅ 支持
Chat Completions API	文本和音频输入输出	✅ 输出支持
Transcription API	音频输入	✅ 输出支持
Speech API	文本输入，音频输出	✅ 输出支持

✅ 推荐使用： 对实时性要求高的，使用 Realtime API；需要高级功能如函数调用，则推荐 Chat Completions API；只处理转录或播报，用 Transcription 或 Speech API 即可。

四、示例：让模型说话（文本转语音）

使用 gpt-4o-audio-preview 模型生成语音输出，调用 Chat Completions 接口即可：

JavaScript 示例

import { writeFileSync } from "node:fs";
import OpenAI from "openai";

const openai = new OpenAI({ baseURL: "https://api.aaaaapi.com" });

const response = await openai.chat.completions.create({
  model: "gpt-4o-audio-preview",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    { role: "user", content: "金毛适合当家庭犬吗？" }
  ],
  store: true,
});

writeFileSync(
  "golden_retriever.wav",
  Buffer.from(response.choices[0].message.audio.data, 'base64'),
  { encoding: "utf-8" }
);

五、示例：上传语音让模型识别内容（语音转文本）

Python 示例

import base64
import requests
from openai import OpenAI

client = OpenAI(base_url="https://api.aaaaapi.com")

url = "https://cdn.openai.com/API/docs/audio/alloy.wav"
audio_data = requests.get(url).content
base64_audio = base64.b64encode(audio_data).decode("utf-8")

completion = client.chat.completions.create(
    model="gpt-4o-audio-preview",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这段录音说了什么？"},
                {"type": "input_audio", "input_audio": {"data": base64_audio, "format": "wav"}}
            ]
        }
    ]
)

print(completion.choices[0].message)

六、进阶玩法：添加语音功能到已有应用

GPT-4o 系列模型是多模态模型，可同时处理文本、语音、图像等输入输出。如果你已有基于 Chat Completions 的文本应用，可以通过简单修改，添加语音输入输出功能。

例如，在请求中加入：

"modalities": ["text", "audio"]

即可启用音频功能。

七、总结推荐

✅ 实时语音交互/字幕 → 用 Realtime API；
✅ 多轮语音对话/函数调用 → 用 Chat Completions API；
✅ 单一功能（转录/播报） → 用 Transcription/Speech API；
✅ 想节省资源，提升国内访问速度 → 建议使用中转加速服务，推荐 API 高速通道

📢 小贴士：国内用户访问 OpenAI 经常遇到速度慢、连接失败等问题，我们推荐使用 API 加速通道（支持 gpt-4o 音频功能），稳定可靠，接入方式一致，体验原汁原味 GPT。

如果你对 ChatGPT、音频处理或 GPT-4o 的实际开发感兴趣，欢迎点赞 + 收藏 + 评论交流！

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla