AI News HubLIVE
サイト内リライト4 分で読了

FluidVoice - ローカルAI搭載のmacOS向けオープンソース音声テキスト変換アプリ

FluidVoiceは、ローカルAIによる音声テキスト変換を提供するmacOS向けオープンソースの音声入力アプリです。複数の音声モデル、コマンドモード、ライトモードなどをサポートし、すべて端末上で処理されるためプライバシーが確保されています。最新の1.6.0では、超低遅延のParakeetエンジンとFluid IntelligenceローカルAI拡張機能が導入されました。

ソースHacker News AI著者: danboarder

FluidVoiceは、macOS向けに設計されたオープンソースの音声テキスト変換アプリケーションです。デバイスローカルで効率的かつプライベートな音声認識体験を提供することを目指しています。このプロジェクトはGPLv3ライセンスの下で無料公開されており、Homebrewからbrew install --cask fluidvoiceで簡単にインストールできます。手動でダウンロードする場合は、GitHubのリリースページから入手可能です。

最新バージョン 1.6.0 のハイライト

1.6.0では、いくつかの重要な改善が行われました:

  • 超高速Parakeetエンジン:再実装されたParakeet音声認識モデルにより、話すことと画面に文字が表示される間の遅延がほぼゼロになりました。
  • Fluid Intelligence:完全にローカルで動作するAIモデルで、端末上での音声入力拡張を実現。クラウドやAPIキーは不要で、データがMacから送信されることはありません。
  • テーマの改善:ライト/ダークテーマの自動適応に加え、コンパクトなツールバースイッチャーを搭載。
  • リフレッシュされたオンボーディング:言語優先の音声エンジン設定、実際の音声入力トライアル、AI拡張のセットアップを一度に行えるクリーンなプロセス。

公式には、「初期のフィードバックに基づき、Fluid Intelligenceを使用すると他の音声入力アプリのサブスクリプションを解約してお金を節約できる可能性があります」と注意書きがあります。

コア機能

FluidVoiceは、さまざまなユーザーニーズに応える豊富な機能を備えています:

  • コマンドモード:音声でMacを操作。アプリの起動、ショートカットの実行、システムアクションのトリガー、ワークフローの自動化をキーボードなしで行えます。
  • ライトモード:任意のアプリのテキストフィールドに直接テキストを書き込んだり書き換えたりできます。テキストを選択して音声で書き換えるか、新しいコンテンツをインラインで音声入力します。
  • ライブプレビュー:リアルタイムで文字起こしをオーバーレイ表示。MacBookのノッチに合わせた表示もサポート。
  • 複数の音声モデル:Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe、Apple Speech、Whisper(Tiny、Base、Small、Medium、Largeなど)をサポート。ユーザーは言語とレイテンシのニーズに合わせてモデルを選択できます。
  • AI拡張:OpenAI、Groq、カスタムプロバイダー、またはローカルのFluid Intelligenceを使用したオプションの後処理機能。よりクリーンで正確な文字起こしを実現します。
  • 音声履歴:オプションのローカル録音履歴。予算制御とZIPエクスポート機能により、過去の音声入力を確認できます。
  • 今日の使用統計:統計カードとツールバーピルで日々の使用状況を一目で確認。
  • アダプティブテーマ:システム設定に合わせてライト/ダークテーマが自動切り替え。ツールバーからも変更可能。
  • グローバルホットキー:どこからでも即座に音声キャプチャを起動。アプリ切り替え不要。
  • スマートタイピング:アクセシビリティAPIを介して任意のアプリに直接テキストを挿入。信頼性が高く、アプリに依存しない入力。
  • メニューバー統合:メニューバーからクイックアクセス、ステータス確認、設定変更が可能。
  • 自動アップデート:シームレスなアップデートに加え、ベータチャンネルをオプトインして新機能を先行体験。
  • アプリごとの設定:異なるアプリに異なるプロンプトセットを割り当て可能。音声入力が作業中のアプリに自動適応します。
  • ローカルファースト:ユーザーがクラウドAIプロバイダーを明示的に選択しない限り、音声とテキストがデバイスから送信されることはありません。
  • 最速のParakeet実装:macOS上で最もネイティブなParakeet実装の一つで、ほぼリアルタイムの文字起こしと最小限の遅延を実現。
  • 設定可能なオーバーレイ:ピル型から大きなオーバーレイまで、ライブプレビューの表示サイズを選択可能。最小限にもできます。
  • すべての機能はオプション:AI拡張、Fluid Intelligence、音声履歴、分析、ベータビルドはすべてオプトイン。コアの音声入力は、権限とホットキーの設定だけで即座に使用できます。

サポートされるモデルと言語

FluidVoiceは、ダウンロード不要のApple Speech(Apple SiliconおよびIntel対応)から高精度のNemotronやWhisperまで、多様なモデルをサポートしています。例えば:

  • Nemotron Speech 3.5:超高速低遅延、約40言語対応、ストリーミング多言語入力に最適。
  • Parakeet TDT v3:高速デフォルトの多言語入力、25言語対応。
  • Cohere Transcribe:高精度多言語入力、14言語対応。
  • Whisper:幅広い互換性、最大99言語対応。

すべてのモデルはApple Silicon Macで使用可能。Intel MacではWhisperモデル(1.5.1以降)が使用できます。

クイックスタート

  1. Homebrewでインストールするか、最新リリースをダウンロードします。
  2. マイクおよびアクセシビリティの権限を付与します(音声入力と他アプリへの入力に必要)。
  3. 設定でグローバルホットキーを選択し、どこからでも音声キャプチャを起動できるようにします。
  4. オンボーディングに従い、音声モデルの選択、実際の音声入力トライアル、AI拡張の設定を行います。
  5. (オプション)Fluid Intelligenceを有効にし、ローカルAIモデルをダウンロードして端末上での拡張を利用します。
  6. (オプション)OpenAI、Groq、またはカスタムプロバイダーのAPIキーを追加し、クラウド拡張を利用します(キーはmacOSキーチェーンに安全に保存されます)。

プライバシーとセキュリティ

FluidVoiceはローカルファーストを基本としています。ユーザーの音声、オーディオ、文字起こしテキストは、クラウドAIプロバイダーを明示的に選択しない限りデバイスから送信されることはありません。匿名分析はデフォルトで有効ですが(アプリバージョン、macOSバージョン、機能フラグなどの低粒度情報のみ)、いつでも設定から無効にできます。音声、文字起こしテキスト、個人情報やプライベートデータは収集されません。

コミュニティとコントリビューション

FluidVoiceには活発なコミュニティがあります。Discordで議論に参加したり、X(Twitter)で@ALTIC_DEVをフォローして開発の最新情報を入手できます。プロジェクトへのコントリビューションを歓迎しており、大きな変更を加える前にまずIssueを作成することを推奨しています。開発環境はXcodeベースで、依存関係はSwift Package Managerで管理されます。

ライセンスと将来計画

2026年2月23日以降、プロジェクトはGPLv3ライセンスで提供されます。それ以前のバージョンはApache License 2.0でライセンスされていました。開発チームは将来的にWindows、iOS、Linux版のリリースを計画しています。FluidVoiceが役に立った場合は、GitHubでスターを付けていただけると、可視性が高まり開発の継続につながります。