音频和语音

探索 OpenAI API 中的音频和语音功能。

OpenAI API 提供了一系列音频功能。如果您知道要构建什么，请在下面找到您的用例以开始使用。如果您不确定从哪里开始，请阅读此页面作为概述。

音频用例概览

大型语言模型 (LLM) 可以通过使用声音作为输入、创建声音作为输出或两者兼而有之来处理音频。 OpenAI 有几个 API 端点，可帮助您构建音频应用程序或语音代理。

语音代理 (Voice Agents)

语音代理 (Voice Agents) 可以理解音频以处理任务并以自然语言响应。构建语音代理有两种主要方法：一种是使用语音到语音模型和 Realtime API，另一种是将语音转文本模型、文本语言模型（用于处理请求）和文本转语音模型链接在一起以进行响应。语音到语音的延迟较低且更自然，但链接语音代理是将基于文本的代理扩展到语音代理的可靠方法。如果您已经在使用 Agents SDK，则可以使用链接方法使用语音功能扩展现有代理。

流式音频 (Streaming Audio)

实时处理音频以构建语音代理和其他低延迟应用程序，包括转录用例。您可以使用 Realtime API 流式传输音频进出模型。我们先进的语音模型提供自动语音识别，以提高准确性、低延迟交互和多语言支持。

文本转语音 (Text to Speech)

要将文本转换为语音，请使用 Audio API 的 audio/speech 端点。与此端点兼容的模型是 gpt-4o-mini-tts、tts-1 和 tts-1-hd。使用 gpt-4o-mini-tts，您可以要求模型以某种方式或以某种语调说话。

语音转文本 (Speech to Text)

对于语音转文本，请使用 Audio API 的 audio/transcriptions 端点。与此端点兼容的模型是 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1。通过流式传输，您可以持续传入音频并获得持续的文本流。

选择正确的 API

有多个 API 用于转录或生成音频：

API	支持的模态 (Supported modalities)	流式传输支持 (Streaming support)
Realtime API	音频和文本输入和输出	音频流输入和输出
Chat Completions API	音频和文本输入和输出	音频流输出
Transcription API	音频输入	音频流输出
Speech API	文本输入和音频输出	音频流输出

通用 API 与专用 API

主要的区别在于通用 API 与专用 API。使用 Realtime 和 Chat Completions API，您可以使用我们最新模型的原生音频理解和生成功能，并将它们与其他功能（如函数调用 (function calling) ）结合使用。这些 API 可用于各种用例，您可以选择要使用的模型。

另一方面，Transcription、Translation 和 Speech API 专门用于处理特定模型，并且仅用于一个目的。

与模型对话与控制脚本

选择正确 API 的另一种方法是问问自己需要多少控制。要设计对话交互，其中模型思考并以语音响应，请使用 Realtime 或 Chat Completions API，具体取决于您是否需要低延迟。

您不会提前确切知道模型会说什么，因为它会直接生成音频响应，但对话会感觉很自然。

为了获得更多的控制和可预测性，您可以使用语音转文本 / LLM / 文本转语音模式，这样您就可以确切地知道模型会说什么并可以控制响应。请注意，使用此方法会增加延迟。

这就是 Audio API 的用途：将 LLM 与 audio/transcriptions 和 audio/speech 端点配对，以获取口头用户输入，处理和生成文本响应，然后将其转换为用户可以听到的语音。

建议

如果您需要实时交互或转录，请使用 Realtime API。

如果实时不是必需的，但您希望构建语音代理或需要诸如函数调用之类的功能的基于音频的应用程序，请使用 Chat Completions API。

对于具有一个特定用途的用例，请使用 Transcription、Translation 或 Speech API。

将音频添加到您现有的应用程序

诸如 GPT-4o 或 GPT-4o mini 之类的模型本身是多模态的 (multimodal)，这意味着它们可以理解和生成多种模态作为输入和输出。

如果您已经有一个带有 Chat Completions 端点的基于文本的 LLM 应用程序，您可能希望添加音频功能。例如，如果您的聊天应用程序支持文本输入，您可以添加音频输入和输出——只需在 modalities 数组中包含 audio 并使用音频模型，如 gpt-4o-audio-preview。

音频尚不支持在 Responses API 中。

模型的音频输出

模型的音频输入

音频用例概览#

语音代理 (Voice Agents)#

流式音频 (Streaming Audio)#

文本转语音 (Text to Speech)#

语音转文本 (Speech to Text)#

选择正确的 API#

通用 API 与专用 API#

与模型对话与控制脚本#

建议#

将音频添加到您现有的应用程序#