AI News HubLIVE
站内改写1 分鐘閱讀

OpenAI WebRTC音頻會話:新增文檔上下文功能

Simon Willison 升級了他的 OpenAI WebRTC 音頻會話工具,新增了文檔上下文粘貼功能,並支持 OpenAI 最新的 GPT-Realtime-2 模型(號稱具有 GPT-5 級別推理能力)。用户現在可以在瀏覽器中通過語音與 AI 討論任意文本內容。

Simon Willison 近日更新了他的 OpenAI WebRTC 音頻會話工具,為用户帶來了兩項重要改進:支持 OpenAI 最新發布的 GPT-Realtime-2 模型,以及新增的文檔上下文粘貼功能。這一更新使得用户能夠更方便地通過語音與 AI 進行深入對話,尤其適合需要探討長文檔或具體技術問題的場景。

Willison 最初於 2024 年 12 月構建該工具,旨在嘗試 OpenAI 當時新推出的 WebRTC API,用於與其實時音頻模型進行交互。上個月,OpenAI 為該 API 引入了全新的 GPT-Realtime-2 模型,並宣傳其為“首個具備 GPT-5 類推理能力的語音模型”,知識截止日期為 2024 年 9 月 30 日。該模型在推理能力上有了顯著提升,能夠處理更復雜的對話和邏輯問題。

儘管 Willison 一直期待該模型能出現在 ChatGPT iPhone 應用中,但至今仍未實現。因此,他決定升級自己的舊版工具,以便更早地體驗新模型的能力。這一舉措也反映了開發者社區對於及時獲取最新 AI 能力的渴望,尤其是在官方應用尚未更新的情況下。

現在,用户可以在工具中選擇更好的模型,並粘貼大段文檔內容,從而在瀏覽器中與 AI 進行關於任何信息的音頻對話。例如,用户可以將一篇關於“DuckDB 是否像 Datasette 運行 SQLite 一樣安全”的 Markdown 文檔粘貼進去,然後通過語音與 AI 探討相關問題。這種交互方式非常適合需要快速理解或分析文檔內容的場景,比如技術評估、學術討論或知識探索。

該工具提供了一個簡潔的界面:用户需要輸入 OpenAI API 令牌,選擇語音(如 Coral)和模型(如 gpt-realtime-2),然後展開“文檔上下文”區域粘貼文本。點擊“開始會話”後,即可與 AI 進行實時語音交流,對話內容會顯示在底部的轉錄面板中。界面設計直觀,即使是非技術用户也能快速上手。

Willison 的這一更新,為開發者提供了一個實用的平台,以非正式、對話式的方式探索 GPT-Realtime-2 模型的能力。該工具目前託管在 tools.simonwillison.net 上,感興趣的用户可以自行體驗。此外,這一工具也展示瞭如何通過 WebRTC 技術實現低延遲的語音交互,為未來類似應用的開發提供了參考。