OpenAI WebRTC音频会话:新增文档上下文功能
Simon Willison 升级了他的 OpenAI WebRTC 音频会话工具,新增了文档上下文粘贴功能,并支持 OpenAI 最新的 GPT-Realtime-2 模型(号称具有 GPT-5 级别推理能力)。用户现在可以在浏览器中通过语音与 AI 讨论任意文本内容。
Simon Willison 近日更新了他的 OpenAI WebRTC 音频会话工具,为用户带来了两项重要改进:支持 OpenAI 最新发布的 GPT-Realtime-2 模型,以及新增的文档上下文粘贴功能。这一更新使得用户能够更方便地通过语音与 AI 进行深入对话,尤其适合需要探讨长文档或具体技术问题的场景。
Willison 最初于 2024 年 12 月构建该工具,旨在尝试 OpenAI 当时新推出的 WebRTC API,用于与其实时音频模型进行交互。上个月,OpenAI 为该 API 引入了全新的 GPT-Realtime-2 模型,并宣传其为“首个具备 GPT-5 类推理能力的语音模型”,知识截止日期为 2024 年 9 月 30 日。该模型在推理能力上有了显著提升,能够处理更复杂的对话和逻辑问题。
尽管 Willison 一直期待该模型能出现在 ChatGPT iPhone 应用中,但至今仍未实现。因此,他决定升级自己的旧版工具,以便更早地体验新模型的能力。这一举措也反映了开发者社区对于及时获取最新 AI 能力的渴望,尤其是在官方应用尚未更新的情况下。
现在,用户可以在工具中选择更好的模型,并粘贴大段文档内容,从而在浏览器中与 AI 进行关于任何信息的音频对话。例如,用户可以将一篇关于“DuckDB 是否像 Datasette 运行 SQLite 一样安全”的 Markdown 文档粘贴进去,然后通过语音与 AI 探讨相关问题。这种交互方式非常适合需要快速理解或分析文档内容的场景,比如技术评估、学术讨论或知识探索。
该工具提供了一个简洁的界面:用户需要输入 OpenAI API 令牌,选择语音(如 Coral)和模型(如 gpt-realtime-2),然后展开“文档上下文”区域粘贴文本。点击“开始会话”后,即可与 AI 进行实时语音交流,对话内容会显示在底部的转录面板中。界面设计直观,即使是非技术用户也能快速上手。
Willison 的这一更新,为开发者提供了一个实用的平台,以非正式、对话式的方式探索 GPT-Realtime-2 模型的能力。该工具目前托管在 tools.simonwillison.net 上,感兴趣的用户可以自行体验。此外,这一工具也展示了如何通过 WebRTC 技术实现低延迟的语音交互,为未来类似应用的开发提供了参考。