AI News HubLIVE
站内改写2 分で読了

Show HN: Brontosaurus – 音声駆動の生成AIキャンバス

Brontosaurusは、音声コマンドでほぼ瞬時にウィジェットを作成するWebベースの生成キャンバスです。Thinking MachinesとInk & Switchに触発され、人間とAIの協調を重視し、思考の速さでの創造を可能にします。

ソースHacker News AI著者: thomasdhughes2

Brontosaurusは、音声で希望する内容を話すだけで、1秒未満でウィジェットを構築するWebベースの生成キャンバスです。基盤となるエージェントはOpenAIのgpt-oss-120b上で動作し、Cerebrasにより毎秒3,000トークンの驚異的な速度で提供され、まるで魔法のような体験を実現します。

このプロジェクトは2つの優れたブログ記事に触発されました。1つ目はThinking Machinesの「Interaction Model」です。技術的には、音声・視覚・テキストを統合したマルチモーダルモデルが、会話の流れを妨げずにリクエストを実行するバックグラウンドエージェントと連携するアーキテクチャに魅力を感じました。哲学的には、AIエージェントに関する議論が自律性に偏りすぎていると指摘し、人間とAIの協調を重視する考え方に共感しました。Brontosaurusはこの精神を体現し、能力やインテリジェンスよりも「思考の速さでの創造」を最優先しています。

2つ目はInk & Switchの記事「chitter chatter」です。この記事は生成キャンバスのビジョンを温かく親しみやすいスタイルで描いており、ソフトウェアの可塑性を探求しています。著者はこの記事を読んでBrontosaurusを構築したいと強く思いました。

技術的には、マルチエージェントのオーケストレーションが行われています。Conductor(指揮者)とBuilder(構築者)の2種類のエージェントがあり、どちらもgpt-oss-120b上で動作します。スペースバーをタップして音声入力を開始し、再度タップするとChromeのWeb Speech APIで音声がテキスト化されます。テキストはConductorエージェントに渡され、現在のキャンバス上のウィジェット情報(ID、タイトル、説明、位置・サイズ)を含むJSON配列とともに処理されます。Conductorは配置変更、削除、クリア、作成、編集のツールコールを実行できます。作成と編集はBuilderエージェントに指示を送り、Builderは完全な自己完結型HTMLドキュメントを返し、iframe内でレンダリングされます。

設計上の工夫として、Conductorは1つの指示で複数のツールコールが可能で、例えば「ピアノを削除して、電卓を作成して、電卓をピアノのあった場所に置いて」という指示を一度に実行できます。また、配置変更はBuilderの完了を待たずに行え、Builderは並列実行できるため、複数のウィジェットを同時に作成できます。

今後の改善点として、gpt-oss-120bは9ヶ月前のモデルで120Bパラメータと小規模ですが、そのためコストが非常に低く(1時間の使用で1ドル未満)、また出力品質の上限はさらに高いものがあります。より高性能なモデルを使えば複雑なウィジェットが作れる可能性がありますが、速度とコストのトレードオフがあります。また、Exa AIによるリアルタイム検索機能を追加しましたが、約0.9秒の遅延が発生したため、現時点では導入を見送っています。最大の改善点は仮想ファイルシステム(VFS)の導入です。現在のウィジェットは一時的なものですが、VFSにより既存の文書や過去のウィジェットを再利用でき、コンテキストに応じてウィジェット内容を選択的に取り込むことが可能になります。

現在のアーキテクチャでも驚くべき成果が得られており、例えばデモの最後にある8行のステップシーケンサー(ビートメーカー)は、ユーザーが「音楽を作りたい」と言っただけでBrontosaurusが自動生成したものです。著者は読者からのアイデアを歓迎しており、実装したら動画で返信することを約束しています。Brontosaurusは、技術的な革新と人間とAIの協調の哲学を融合させたプロジェクトです。