2026-06-12站内改写1 分钟阅读更新: 2026-06-13

OpenAI WebRTC音频会话：新增文档上下文功能

Simon Willison 升级了他的 OpenAI WebRTC 音频会话工具，新增了文档上下文粘贴功能，并支持 OpenAI 最新的 GPT-Realtime-2 模型（号称具有 GPT-5 级别推理能力）。用户现在可以在浏览器中通过语音与 AI 讨论任意文本内容。

来源Simon Willison's Weblog

Simon Willison 近日更新了他的 OpenAI WebRTC 音频会话工具，为用户带来了两项重要改进：支持 OpenAI 最新发布的 GPT-Realtime-2 模型，以及新增的文档上下文粘贴功能。这一更新使得用户能够更方便地通过语音与 AI 进行深入对话，尤其适合需要探讨长文档或具体技术问题的场景。

Willison 最初于 2024 年 12 月构建该工具，旨在尝试 OpenAI 当时新推出的 WebRTC API，用于与其实时音频模型进行交互。上个月，OpenAI 为该 API 引入了全新的 GPT-Realtime-2 模型，并宣传其为“首个具备 GPT-5 类推理能力的语音模型”，知识截止日期为 2024 年 9 月 30 日。该模型在推理能力上有了显著提升，能够处理更复杂的对话和逻辑问题。

尽管 Willison 一直期待该模型能出现在 ChatGPT iPhone 应用中，但至今仍未实现。因此，他决定升级自己的旧版工具，以便更早地体验新模型的能力。这一举措也反映了开发者社区对于及时获取最新 AI 能力的渴望，尤其是在官方应用尚未更新的情况下。

现在，用户可以在工具中选择更好的模型，并粘贴大段文档内容，从而在浏览器中与 AI 进行关于任何信息的音频对话。例如，用户可以将一篇关于“DuckDB 是否像 Datasette 运行 SQLite 一样安全”的 Markdown 文档粘贴进去，然后通过语音与 AI 探讨相关问题。这种交互方式非常适合需要快速理解或分析文档内容的场景，比如技术评估、学术讨论或知识探索。

该工具提供了一个简洁的界面：用户需要输入 OpenAI API 令牌，选择语音（如 Coral）和模型（如 gpt-realtime-2），然后展开“文档上下文”区域粘贴文本。点击“开始会话”后，即可与 AI 进行实时语音交流，对话内容会显示在底部的转录面板中。界面设计直观，即使是非技术用户也能快速上手。

Willison 的这一更新，为开发者提供了一个实用的平台，以非正式、对话式的方式探索 GPT-Realtime-2 模型的能力。该工具目前托管在 tools.simonwillison.net 上，感兴趣的用户可以自行体验。此外，这一工具也展示了如何通过 WebRTC 技术实现低延迟的语音交互，为未来类似应用的开发提供了参考。