OpenAI API 提供了一系列音频功能。如果您知道要构建什么,请在下面找到您的用例以开始使用。如果您不确定从哪里开始,请阅读此页面作为概述。音频用例概览#
大型语言模型 (LLM) 可以通过使用声音作为输入、创建声音作为输出或两者兼而有之来处理音频。 OpenAI 有几个 API 端点,可帮助您构建音频应用程序或语音代理。语音代理 (Voice Agents)#
语音代理 (Voice Agents) 可以理解音频以处理任务并以自然语言响应。构建语音代理有两种主要方法:一种是使用语音到语音模型和 Realtime API,另一种是将语音转文本模型、文本语言模型(用于处理请求)和文本转语音模型链接在一起以进行响应。语音到语音的延迟较低且更自然,但链接语音代理是将基于文本的代理扩展到语音代理的可靠方法。如果您已经在使用 Agents SDK,则可以使用链接方法 使用语音功能扩展现有代理。流式音频 (Streaming Audio)#
实时处理音频以构建语音代理和其他低延迟应用程序,包括转录用例。您可以使用 Realtime API 流式传输音频进出模型。我们先进的语音模型提供自动语音识别,以提高准确性、低延迟交互和多语言支持。文本转语音 (Text to Speech)#
要将文本转换为语音,请使用 Audio API 的 audio/speech 端点。与此端点兼容的模型是 gpt-4o-mini-tts、tts-1 和 tts-1-hd。使用 gpt-4o-mini-tts,您可以要求模型以某种方式或以某种语调说话。语音转文本 (Speech to Text)#
对于语音转文本,请使用 Audio API 的 audio/transcriptions 端点。与此端点兼容的模型是 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1。通过流式传输,您可以持续传入音频并获得持续的文本流。