OpenAI开发者大会推出四大创新：提示词缓存可减少50%输入token成本

10月2日消息，美东时间10月1日OpenAI举行了年度开发者大会DevDay，推出系列新工具，包括四大创新：实时API（Realtime API）、视觉微调（Vision Fine-Tuning）、提示词缓存（Prompt Caching）、模型蒸馏（Model Distillation），为开发者带来在降低模型成本、提高模型视觉理解水平、提升语音AI功能和小模型性能的新选择。在OpenAI官网主要，上述功能介绍已经做了全面更新，一起看看。

实时 API（Realtime API）

OpenAI DevDay发布了Realtime API，目前处于公开测试beta阶段。

Realtime API 能够构建低延迟、多模式对话体验。它目前支持文本和音频作为输入和输出，以及函数调用。Realtime API 中的音频功能由新的 GPT-4o 模型“gpt-4o-realtime-preview”提供支持。

通过此更新，开发人员可以将任何文本或音频输入传递到 GPT-4o，并让模型以他们选择的文本、音频或两者做出响应。

本质上，Realtime API 简化了构建语音助手和其他对话式 AI 工具的过程，无需将多个模型拼接在一起进行转录、推理和文本到语音的转换。

Realtime API 定价方面，Realtime API 同时使用文本tokens和音频tokens。文本输入tokens的价格为5 美元/百万tokens，输出tokens的价格为20 美元/百万tokens。音频输入的价格为100 美元/百万tokens，输出的价格为200美元/百万tokens。这相当于每分钟音频输入约 0.06 美元，每分钟音频输出约 0.24 美元。

视觉微调（Vision Fine-Tuning）

OpenAI DevDay公布，OpenAI最新的大语言模型（LLM） GPT-4o 引入了视觉微调。此功能让开发人员可以自定义模型以获得更强大的图像理解能力，从而实现增强的视觉搜索功能、改进的自动驾驶汽车或智能城市的物体检测以及更准确的医学图像分析等应用。

视觉微调遵循与文本微调类似的过程——开发人员可以准备他们的图像数据集，然后将该数据集上传到Open AI的平台。他们可以用少至 100 张图像来提高 GPT-4o 在视觉任务中的性能，并使用更大量的文本和图像数据来提高性能。

OpenAI举例称，东南亚食品配送和拼车公司Grab已经利用这项技术改进其地图服务。仅使用 100 个示例进行视觉微调，教会 GPT-4o 正确定位交通标志并计算车道分隔线以优化其地图数据，结果，与基础 GPT-4o 模型相比，Grab 能够将车道计数准确度提高 20%，限速标志定位率提高13%。

价格方面，截至 2024年10月31日，OpenAI每天免费提供100万tokens，以使用图像微调 GPT-4o。2024 年 10 月 31 日之后，GPT-4o 微调训练将花费每 100 万tokens 25 美元，推理将花费每 100 万个输入tokens 3.75 美元和每 100 万个输出tokens 15 美元。图像输入首先根据图像大小进行标记，然后按与文本输入相同的每令牌费率定价。

提示词缓存（Prompt Caching）

提示词缓存被视为本次DevDay发布的最重要更新。该功能旨在降低开发者的成本、减少延迟。

许多开发人员在构建 AI 应用程序时，会在多个 API 调用中重复使用相同的上下文，例如在编辑代码库或与聊天机器人进行长时间的多轮对话时。今天，我们推出了提示词缓存（Prompt Caching），让开发人员可以降低成本和延迟。通过重复使用最近处理的输入token，开发人员可以获得 50% 的折扣和更快的提示词处理时间。

目前，提示词缓存（Prompt Caching）已自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini，以及这些模型的微调版本。与未缓存的提示相比，缓存的提示可享受折扣。

模型蒸馏（Model Distillation）

OpenAI 推出了一款新的模型蒸馏产品，为开发人员提供集成的工作流程，以直接在 OpenAI 平台内管理整个蒸馏流程。

这让开发人员可以轻松使用前沿模型（如 o1-preview 和 GPT-4o）的输出来微调和提高更具成本效益的模型（如 GPT-4o mini）的性能，让小模型也可拥有尖端模型功能。

这种方法让小公司也可能利用与尖端模型类似的功能，并且无需承担使用这类模型的计算成本。例如一家从事医疗技术的小型初创公司要为农村的诊所开发一种AI 驱动的诊断工具。使用模型蒸馏，该公司可以训练一个紧凑的模型，该模型可以捕捉大模型的大部分诊断能力，同时只需要在标准的笔记本电脑或平板电脑上运行。

总结

**OpenAI DevDay推出系列新工具，引领AI技术创新**
10月1日，美东时间，OpenAI在年度开发者大会DevDay上震撼发布了四大创新工具，旨在帮助开发者降低成本、提升模型性能及视觉理解能力，并强化语音AI功能。这些新工具包括实时API（Realtime API）、视觉微调（Vision Fine-Tuning）、提示词缓存（Prompt Caching）以及模型蒸馏（Model Distillation）。
- **实时API（Realtime API）**：该API目前处于beta测试阶段，轻松构建低延迟、多模式的对话体验，支持文本、音频输入输出及函数调用，由GPT-4o的新模型“gpt-4o-realtime-preview”驱动。定价方面，文本与音频tokens费用各异，为开发者提供了灵活且高效的对话AI解决方案。
- **视觉微调（Vision Fine-Tuning）**：GPT-4o引入的视觉微调功能允许开发者通过上传自定义图像数据集，提升模型在视觉任务中的性能。这一创新极大地丰富了AI在图像分析、自动驾驶辅助及医学图像识别等领域的应用场景。以Grab公司为例，通过少量数据微调即显著提高了车道计数及限速标志识别的准确性。
- **提示词缓存（Prompt Caching）**：作为降低成本、减少延迟的重要更新，该功能自动应用于GPT-4o系列模型，通过复用最近处理的输入token，实现50%的折扣及更快的处理时间，为开发者优化AI应用的性能与成本提供了有力支持。
- **模型蒸馏（Model Distillation）**：OpenAI推出的新工具为开发者提供了高效的工作流程，使用尖端大模型的知识输出，直接微调和增强小型模型性能。这一技术不仅降低了计算成本，还使得小公司也能利用大模型的能力，推动AI在各行各业的普及与运用。例如，在医疗技术领域，小型初创公司利用模型蒸馏技术，开发出了成本效益高的AI诊断工具。
OpenAI此次发布的一系列新工具，无疑将进一步推动AI技术在各行业的广泛应用与深化发展，为开发者提供更加强大、灵活、高效的AI解决方案。