Show HN: Dikaletus – Mistral AIを使用した会議録音と文字起こし
Dikaletusは、FFmpeg、PulseAudio、Mistral AI APIを使用して会議の録音、文字起こし、要約を自動化するオープンソースの会議エージェントスクリプトです。ターミナルUI、コンテキストバイアス、話者分離などの機能を備え、構造化されたMarkdown形式の議事録を生成します。
記事インテリジェンス
要点
- Mistral AIの音声認識およびテキスト生成モデルを活用し、会議処理を自動化。
- ライブ録音と既存の音声/動画ファイルの両方に対応し、ターミナルUIを提供。
- コンテキストバイアス、話者分離、タイムスタンプ粒度などの高度な文字起こし設定をサポート。
- 録音ファイル、生の文字起こし、構造化された議事録をタイムスタンプ付きディレクトリに出力。
重要な理由
このニュースが重要なのは、Mistral AIの音声認識およびテキスト生成モデルを活用し、会議処理を自動化ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Dikaletusは、MimosaDevによって開発されたオープンソースの会議エージェントスクリプトで、会議の録音、文字起こし、要約を効率的に行うことができます。FFmpeg、PulseAudio、そしてMistral AIのAPIを組み合わせることで、Linuxユーザー向けに完全な自動化ソリューションを提供します。
コア機能
Dikaletusの主要なワークフローは、録音と文字起こしの2つに分かれています。ユーザーはマイクとスピーカーの音声をリアルタイムで録音するか、既存の音声/動画ファイルをインポートできます。録音が完了すると、スクリプトはMistralのvoxtral-mini-latestモデルを使用して音声をテキストに変換し、その後mistral-medium-latestモデルで構造化された議事録を生成します。
スクリプトは**ターミナルユーザーインターフェース(TUI)**と**コマンドラインモード**の2つの操作モードを提供します。TUIモードはBreeze Darkテーマを採用し、メニューからワークフローの選択、APIキーの設定、出力ディレクトリの構成などを直感的に行えます。コマンドラインモードは自動化や上級ユーザーに適しており、豊富なパラメータオプションを利用できます。
高度な文字起こし機能
Dikaletusの文字起こし機能は基本的な音声認識にとどまらず、精度を向上させるための高度な設定を備えています:
- **コンテキストバイアス**:ドメイン固有の用語を含むテキストファイルを提供することで、モデルが専門用語(プロジェクト名、技術用語など)を正確に認識できるよう誘導します。
- **話者分離**:複数の話者を自動的に識別し、各発言に対応する話者ラベルを出力に追加します。
- **タイムスタンプ粒度**:「セグメント」「単語」「なし」の3段階から選択可能で、出力のタイムスタンプの詳細度を制御します。
これらの機能により、複数参加者の会議やインタビューなどで特に有用であり、話者ラベルとタイムスタンプ付きのJSON形式の文字起こしファイルを生成できます。
インストールと依存関係
DikaletusはR言語で記述されており、システムにPulseAudioとFFmpegのインストールが必要です。インストール手順には、リポジトリのクローン、Rパッケージ(httr、jsonlite、cliなど)のインストール、システム依存関係のセットアップが含まれます。プロジェクトはGPLv3ライセンスの下で提供され、コードはCodebergでホストされており、コミュニティによる貢献や再利用が容易です。
出力と設定
各ワークフローの実行ごとに、指定された出力ディレクトリ内にタイムスタンプ付きのサブディレクトリが作成され、以下のファイルが保存されます:
recording.wav:録音ファイル(ライブ録音の場合)transcription.txt:生の文字起こし(JSONまたはプレーンテキスト形式)meeting_notes.md:テンプレートに基づいて生成された構造化議事録
設定情報(APIキー、各種設定)はconfig.jsonファイルに保存され、次回以降の実行時に自動的に読み込まれます。また、ユーザーは会議議事録のテンプレートをカスタマイズして、チームのワークフローに合わせることができます。
適用シーン
Dikaletusは、効率的な会議記録を必要とするチームや個人にとって、軽量でありながら強力なツールです。日常のスタンドアップミーティング、プロジェクトレビュー、クライアントミーティングなど、さまざまな場面で手動記録の手間を省き、重要な情報を見逃さないように支援します。特にプライバシーを重視するユーザーや、音声処理をローカルで行いたい場合に適しています。