OpenAI(ChatGPT)
  1. 音频(Audio)
OpenAI(ChatGPT)
  • 介绍
  • 项目说明
  • 导言
  • 身份验证
  • 发出请求
  • 参数详情
  • 聊天(Chat)
    • 文本生成
    • 创建聊天补全
      POST
    • 获取聊天消息
      GET
    • 更新聊天补全
      POST
    • 删除聊天补全
      DELETE
  • 音频(Audio)
    • 音频和语音
    • 创建语音
      POST
    • 创建转录
      POST
    • 创建翻译
      POST
  • 图像(Images)
    • README
    • 图像对象
    • 创建图像
      POST
    • 创建图片编辑
      POST
    • 创建图像变体
      POST
  • 自动补全(Completions)
    • Completions 对象
    • 创建 Completions
      POST
  • 嵌入(Embeddings)
    • 嵌入对象
    • 创建嵌入
      POST
  • 微调(Fine-tuning)
    • 微调作业对象
    • 微调作业事件对象
    • 创建微调作业
    • 列出微调作业
    • 检索微调作业
    • 取消微调
    • 列出微调事件
  • 文件(Files)
    • README
    • 文件对象
    • 列出文件
    • 上传文件
    • 删除文件
    • 检索文件
    • 检索文件内容
  • 模型(Models)
    • 模型对象
    • 列出模型
    • 检索模型
    • 删除微调模型
  • 审查(Moderations)
    • 调节对象
    • 创建内容审核
  • 助手测试版(AssistantsBeta)
    • 辅助对象
    • 辅助文件对象
    • 创建助手
    • 检索助手
    • 修改助手
    • 删除助手
    • 列出助手
    • 创建辅助文件
    • 检索助手文件
    • 删除辅助文件
    • 列出助手文件
  • 线程(Threads)
    • 线程对象
    • 创建线程
    • 检索线程
    • 修改线程
    • 删除话题
  • 留言(Messages)
    • 消息对象
    • 消息文件对象
    • 创建消息
    • 检索消息
    • 修改留言
    • 列出消息
    • 检索消息文件
    • 列出消息文件
  • 运行(Runs)
    • 运行对象
    • 运行步骤对象
    • 创建运行
    • 检索运行
    • 修改运行
    • 列表运行
    • 提交工具输出以运行
    • 取消运行
    • 创建线程并运行
    • 检索运行步骤
    • 列出运行步骤
  • 已弃用-音频(Audio)
    • 创建转录
    • 创建翻译
  1. 音频(Audio)

音频和语音

探索 OpenAI API 中的音频和语音功能。
OpenAI API 提供了一系列音频功能。如果您知道要构建什么,请在下面找到您的用例以开始使用。如果您不确定从哪里开始,请阅读此页面作为概述。

音频用例概览#

大型语言模型 (LLM) 可以通过使用声音作为输入、创建声音作为输出或两者兼而有之来处理音频。 OpenAI 有几个 API 端点,可帮助您构建音频应用程序或语音代理。

语音代理 (Voice Agents)#

语音代理 (Voice Agents) 可以理解音频以处理任务并以自然语言响应。构建语音代理有两种主要方法:一种是使用语音到语音模型和 Realtime API,另一种是将语音转文本模型、文本语言模型(用于处理请求)和文本转语音模型链接在一起以进行响应。语音到语音的延迟较低且更自然,但链接语音代理是将基于文本的代理扩展到语音代理的可靠方法。如果您已经在使用 Agents SDK,则可以使用链接方法 使用语音功能扩展现有代理。

流式音频 (Streaming Audio)#

实时处理音频以构建语音代理和其他低延迟应用程序,包括转录用例。您可以使用 Realtime API 流式传输音频进出模型。我们先进的语音模型提供自动语音识别,以提高准确性、低延迟交互和多语言支持。

文本转语音 (Text to Speech)#

要将文本转换为语音,请使用 Audio API 的 audio/speech 端点。与此端点兼容的模型是 gpt-4o-mini-tts、tts-1 和 tts-1-hd。使用 gpt-4o-mini-tts,您可以要求模型以某种方式或以某种语调说话。

语音转文本 (Speech to Text)#

对于语音转文本,请使用 Audio API 的 audio/transcriptions 端点。与此端点兼容的模型是 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1。通过流式传输,您可以持续传入音频并获得持续的文本流。

选择正确的 API#

有多个 API 用于转录或生成音频:
API支持的模态 (Supported modalities)流式传输支持 (Streaming support)
Realtime API音频和文本输入和输出音频流输入和输出
Chat Completions API音频和文本输入和输出音频流输出
Transcription API音频输入音频流输出
Speech API文本输入和音频输出音频流输出

通用 API 与专用 API#

主要的区别在于通用 API 与专用 API。使用 Realtime 和 Chat Completions API,您可以使用我们最新模型的原生音频理解和生成功能,并将它们与其他功能(如函数调用 (function calling) )结合使用。这些 API 可用于各种用例,您可以选择要使用的模型。
另一方面,Transcription、Translation 和 Speech API 专门用于处理特定模型,并且仅用于一个目的。

与模型对话与控制脚本#

选择正确 API 的另一种方法是问问自己需要多少控制。要设计对话交互,其中模型思考并以语音响应,请使用 Realtime 或 Chat Completions API,具体取决于您是否需要低延迟。
您不会提前确切知道模型会说什么,因为它会直接生成音频响应,但对话会感觉很自然。
为了获得更多的控制和可预测性,您可以使用语音转文本 / LLM / 文本转语音模式,这样您就可以确切地知道模型会说什么并可以控制响应。请注意,使用此方法会增加延迟。
这就是 Audio API 的用途:将 LLM 与 audio/transcriptions 和 audio/speech 端点配对,以获取口头用户输入,处理和生成文本响应,然后将其转换为用户可以听到的语音。

建议#

如果您需要 实时交互 或 转录,请使用 Realtime API。
如果实时不是必需的,但您希望构建 语音代理 或需要诸如 函数调用 之类的功能的基于音频的应用程序,请使用 Chat Completions API。
对于具有一个特定用途的用例,请使用 Transcription、Translation 或 Speech API。

将音频添加到您现有的应用程序#

诸如 GPT-4o 或 GPT-4o mini 之类的模型本身是多模态的 (multimodal),这意味着它们可以理解和生成多种模态作为输入和输出。
如果您已经有一个带有 Chat Completions 端点 的基于文本的 LLM 应用程序,您可能希望添加音频功能。例如,如果您的聊天应用程序支持文本输入,您可以添加音频输入和输出——只需在 modalities 数组中包含 audio 并使用音频模型,如 gpt-4o-audio-preview。
音频尚不支持在 Responses API 中。
模型的音频输出
模型的音频输入

扫码加入 Open AI(ChatGPT)微信交流群

欢迎加入 Open AI(ChatGPT) 交流群!让大家可以分享和讨论有关 Open AI(ChatGPT)API 的开发和使用等相关话题。

扫码加入交流群
修改于 2025-09-16 10:13:22
上一页
删除聊天补全
下一页
创建语音
Built with