2026-06-12站内改写1 分鐘閱讀更新: 2026-06-13

OpenAI WebRTC音頻會話：新增文檔上下文功能

Simon Willison 升級了他的 OpenAI WebRTC 音頻會話工具，新增了文檔上下文粘貼功能，並支持 OpenAI 最新的 GPT-Realtime-2 模型（號稱具有 GPT-5 級別推理能力）。用户現在可以在瀏覽器中通過語音與 AI 討論任意文本內容。

來源Simon Willison's Weblog

Simon Willison 近日更新了他的 OpenAI WebRTC 音頻會話工具，為用户帶來了兩項重要改進：支持 OpenAI 最新發布的 GPT-Realtime-2 模型，以及新增的文檔上下文粘貼功能。這一更新使得用户能夠更方便地通過語音與 AI 進行深入對話，尤其適合需要探討長文檔或具體技術問題的場景。

Willison 最初於 2024 年 12 月構建該工具，旨在嘗試 OpenAI 當時新推出的 WebRTC API，用於與其實時音頻模型進行交互。上個月，OpenAI 為該 API 引入了全新的 GPT-Realtime-2 模型，並宣傳其為“首個具備 GPT-5 類推理能力的語音模型”，知識截止日期為 2024 年 9 月 30 日。該模型在推理能力上有了顯著提升，能夠處理更復雜的對話和邏輯問題。

儘管 Willison 一直期待該模型能出現在 ChatGPT iPhone 應用中，但至今仍未實現。因此，他決定升級自己的舊版工具，以便更早地體驗新模型的能力。這一舉措也反映了開發者社區對於及時獲取最新 AI 能力的渴望，尤其是在官方應用尚未更新的情況下。

現在，用户可以在工具中選擇更好的模型，並粘貼大段文檔內容，從而在瀏覽器中與 AI 進行關於任何信息的音頻對話。例如，用户可以將一篇關於“DuckDB 是否像 Datasette 運行 SQLite 一樣安全”的 Markdown 文檔粘貼進去，然後通過語音與 AI 探討相關問題。這種交互方式非常適合需要快速理解或分析文檔內容的場景，比如技術評估、學術討論或知識探索。

該工具提供了一個簡潔的界面：用户需要輸入 OpenAI API 令牌，選擇語音（如 Coral）和模型（如 gpt-realtime-2），然後展開“文檔上下文”區域粘貼文本。點擊“開始會話”後，即可與 AI 進行實時語音交流，對話內容會顯示在底部的轉錄面板中。界面設計直觀，即使是非技術用户也能快速上手。

Willison 的這一更新，為開發者提供了一個實用的平台，以非正式、對話式的方式探索 GPT-Realtime-2 模型的能力。該工具目前託管在 tools.simonwillison.net 上，感興趣的用户可以自行體驗。此外，這一工具也展示瞭如何通過 WebRTC 技術實現低延遲的語音交互，為未來類似應用的開發提供了參考。