Vox:GitHub Copilotの音声インターフェース
Voxは、GitHub Copilotと音声で対話できるオープンソースのCLI拡張機能です。Windows、macOS、Linuxで動作します。
Voxは、GitHub Copilot CLI向けの新しい拡張機能で、開発者がキーボードを使わずに音声でCopilotと直接対話できるようにします。このツールは開発者aasis21によって作成され、ハンズフリーでの操作を可能にすることを目的としており、アクセシビリティを重視した設計となっています。Voxの核となるコンセプトは「音声入力、音声出力」であり、ユーザーが話しかけるとエージェントが音声で応答する、真の双方向音声コミュニケーションを実現します。
Voxの主な機能は、ターミナルで/voxコマンドを実行すると、反応するオーブが独立したウィンドウに表示されることです。ユーザーがそのオーブに向かって話すと、セッションが音声を認識し、Copilotの応答を読み上げます。さらに、音声による割り込み機能も搭載されており、ユーザーはいつでもCopilotの応答を中断して修正や追加の指示を行うことができます。これにより、より自然で効率的な対話が可能になります。また、リアルタイムの字幕表示と完全な会話のトランスクリプトが提供され、ユーザーは音声だけでなく視覚的にも内容を確認できます。さらに、キーボードで入力したテキストも読み上げる機能があり、すべての操作が音声でフィードバックされます。
技術的には、Voxは純粋なJavaScriptで書かれており、一般的なElectronフレームワークを使用せず、代わりにChromiumブラウザをアプリモードで起動してWeb Speech APIを利用しています。そのため、ビルドステップが不要で、インストールは非常に簡単です。ユーザーはターミナルで一行のコマンドを実行するだけでインストールが完了し、Windows、macOS、Linuxのすべてで動作します。VoxはGitHub Copilot CLIとCopilotアプリケーションの両方で使用でき、ほとんどの開発シナリオに対応します。このプロジェクトは完全に無料でオープンソース(MITライセンス)であり、開発者はコミュニティからの貢献やフィードバックを歓迎しています。
開発者のaasis21は、このプロジェクトをアクセシビリティを考慮した実験として始めたと述べており、特に長時間キーボードを使用できない開発者や、反復運動過多損傷を減らしたい人々に向けた代替手段を提供したいと考えています。特に音声のタイミングと割り込みフローに関するフィードバックを求めており、今後の改善に役立てる意向です。Voxの公式ウェブサイトとソースコードは公開されており、興味のある開発者はすぐに試すことができます。Voxは、コーディングワークフローに音声アシスタントの利便性をもたらす、GitHub Copilotの新しいインタラクションの形を提案しています。