介绍
概述
OpenAI API 几乎可以应用于任何需要理解或生成自然语言和代码的任务。OpenAI API 还可用于生成和编辑图像或将语音转换为文本。我们提供一系列具有不同功能和价位的模型,并且能够微调定制模型。
在 OpenAI,保护用户数据是我们使命的基础。我们不会通过 API 来训练我们的模型的输入和输出。请访问我们的 API 数据隐私页面了解更多信息。
关键概念
GPT
OpenAI 的 GPT 模型经过训练可以理解自然语言和代码。GPT 提供文本输出来响应其输入。GPT 的输入也称为“提示词”。设计提示词本质上是如何“编程”GPT 模型,通常是通过提供说明或一些如何成功完成任务的示例。GPT 可用于多种任务,包括内容或代码生成、摘要、对话、创意写作等。请阅读我们的 GPT 介绍指南和 GPT 最佳实践指南来了解更多信息。
嵌入
嵌入是一段数据(例如某些文本)的矢量表示,旨在保留其内容和/或其含义的各个方面。在某些方面相似的数据块往往比不相关的数据具有更紧密的嵌入。OpenAI 提供文本嵌入模型,该模型将文本字符串作为输入并生成嵌入向量作为输出。嵌入对于搜索、聚类、推荐、异常检测、分类等非常有用。在我们的嵌入指南中阅读有关嵌入的更多信息。
代币
GPT 和嵌入模型以称为标记的块的形式处理文本。标记代表常见的字符序列。例如,字符串“tokenization”被分解为“token”和“ization”,而像“the”这样的短而常见的单词则被表示为单个标记。请注意,在句子中,每个单词的第一个标记通常以空格字符开头。查看我们的 Tokens 计算器来测试特定字符串并查看它们如何转换为标记。根据粗略的经验,1 个标记大约相当于 4 个字符或英文文本的 0.75 个单词。
要记住的一个限制是,对于 GPT 模型,提示和生成的输出之和不得超过模型的最大上下文长度。对于嵌入模型(不输出标记),输入必须短于模型的最大上下文长度。每个 GPT 和嵌入模型的最大上下文长度限制可以在模型索引中找到。