AI News HubLIVE
站内改写2 分で読了

OpenAI WebRTCオーディオセッション:ドキュメントコンテキスト機能を追加

Simon Willison 氏が OpenAI WebRTC オーディオセッションツールをアップデート。新しい GPT-Realtime-2 モデルに対応し、ドキュメントコンテキストを貼り付けてブラウザ上で音声対話が可能に。

Simon Willison 氏は、自身が開発した OpenAI WebRTC オーディオセッションツールをアップデートし、2 つの重要な機能強化を施しました。それは、OpenAI が先月リリースした最新モデル GPT-Realtime-2 への対応と、ドキュメントコンテキストの貼り付け機能です。このアップデートにより、ユーザーはより高度な音声対話を実現できるようになりました。

このツールはもともと 2024 年 12 月に、当時リリースされたばかりの OpenAI WebRTC API を試すために作成されました。同 API は、OpenAI のリアルタイム音声モデルとの対話を可能にします。先月、OpenAI はこの API に GPT-Realtime-2 モデルを追加し、「GPT-5 クラスの推論能力を持つ初の音声モデル」と発表しました。知識のカットオフ日は 2024 年 9 月 30 日です。このモデルは、複雑な推論タスクにおいて顕著な性能向上を示しています。

Willison 氏は、このモデルが ChatGPT iPhone アプリに登場するのを待っていましたが、まだ実現していません。そこで、古いプレイグラウンドを改良し、より早く新モデルを試せるようにしました。このような個人によるツールのアップデートは、公式アプリの更新ペースに依存しない柔軟な開発姿勢を示しています。

今回のアップデートにより、ユーザーはツール上でより高性能なモデルを選択できるようになりました。また、大きなドキュメントを貼り付けることで、ブラウザ上でその内容について会話形式の音声対話を楽しめます。例えば、DuckDB の安全性に関する Markdown 文書を貼り付け、AI と音声で議論することが可能です。これにより、技術文書の理解や分析を効率的に行うことができます。

ツールのインターフェースはシンプルで、OpenAI API トークンの入力、音声(例:Coral)やモデル(例:gpt-realtime-2)の選択、ドキュメントコンテキストセクションへのテキスト貼り付けが行えます。「Start Session」ボタンをクリックすると、AI とのリアルタイム音声対話が始まり、会話内容は画面下部のトランスクリプトパネルに表示されます。この直感的なデザインにより、技術者でなくても簡単に利用できます。

Willison 氏のこのアップデートは、開発者や AI 愛好家が GPT-Realtime-2 モデルの能力をより気軽に、対話的に探索できる実用的な手段を提供しています。ツールは tools.simonwillison.net で公開されており、誰でも自由に利用できます。また、WebRTC を活用した低遅延の音声対話の実装例としても価値があり、今後の類似アプリケーション開発の参考となるでしょう。

OpenAI WebRTCオーディオセッション:ドキュメントコンテキスト機能を追加 | AI News Hub