AI News HubLIVE
站内改写

Show HN:Dikaletus – 使用Mistral AI進行會議錄製與轉錄

Dikaletus是一個開源會議代理指令碼,利用FFmpeg、PulseAudio和Mistral AI API自動完成會議錄音、轉錄和摘要生成。它提供終端互動介面,支援上下文偏置、說話人分離等功能,並可將會議記錄匯出為結構化Markdown筆記。

文章情報

工程師中級

要點

  • 基於Mistral AI的語音轉文本和文本生成模型,實現會議自動化處理。
  • 支援錄音、現有音訊/影片檔案兩種輸入方式,並提供終端互動介面。
  • 包含上下文偏置、說話人分離、時間戳粒度等高階轉錄設定。
  • 輸出包含錄音檔案、原始轉錄和結構化會議筆記,按時間戳組織目錄。

為什麼重要

這條新聞值得關注,因為基於Mistral AI的語音轉文本和文本生成模型,實現會議自動化處理。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Dikaletus是一款由MimosaDev開發的開源會議代理指令碼,旨在簡化會議記錄、轉錄和摘要的全流程。它結合了FFmpeg、PulseAudio和Mistral AI的強大能力,為Linux使用者提供了一套完整的自動化方案。

核心功能

Dikaletus的核心工作流分為錄音和轉錄兩大部分。使用者可以選擇即時錄製麥克風和揚聲器輸出的音訊,或直接匯入現有的音訊/影片檔案。錄音完成後,指令碼呼叫Mistral的voxtral-mini-latest模型進行語音轉文本,再透過mistral-medium-latest模型生成結構化的會議筆記。

指令碼提供了兩種操作模式:**終端互動介面(TUI)**和**命令列模式**。TUI模式採用Breeze Dark主題風格,支援透過選單選擇工作流、配置API金鑰、設定輸出目錄等,適合互動式操作。命令列模式則適合自動化指令碼或高階使用者,支援豐富的引數選項。

高階轉錄特性

Dikaletus的轉錄功能不僅限於基本的語音識別,還提供了多項高階設定以提升準確性:

  • **上下文偏置**:透過提供領域特定術語的文本檔案,引導模型更準確地識別專業詞彙,例如專案名稱、技術術語等。
  • **說話人分離**:自動識別並區分不同發言人的語音片段,並在轉錄結果中標註說話人標籤。
  • **時間戳粒度**:使用者可選擇“段落”、“單詞”或“無”三種粒度,控制轉錄結果中時間戳的詳細程度。

這些特性使得Dikaletus特別適合多參與者會議、採訪等場景,能夠生成帶有說話人標籤和時間戳的JSON格式轉錄檔案。

安裝與依賴

Dikaletus基於R語言編寫,需要系統安裝PulseAudio和FFmpeg。安裝過程包括克隆倉庫、安裝R包(如httr、jsonlite、cli等)以及系統依賴。專案採用GPLv3許可證,程式碼託管在Codeberg上,方便社群貢獻和二次開發。

輸出與配置

每次工作流執行會在指定輸出目錄下生成一個帶時間戳的子目錄,包含以下檔案:

  • recording.wav:原始錄音(如果選擇錄製)
  • transcription.txt:原始轉錄文本(JSON或純文本格式)
  • meeting_notes.md:基於模板生成的結構化會議筆記

配置資訊(API金鑰、偏好設定等)儲存在config.json檔案中,後續執行可自動載入。使用者還可以自定義Markdown會議筆記模板,以匹配團隊的工作流程。

適用場景

Dikaletus為需要高效會議記錄的團隊和個人提供了一個輕量級但功能強大的工具。無論是日常站會、專案評審還是客戶會議,它都能幫助使用者節省手動記錄的時間,並確保關鍵資訊不遺漏。對於注重隱私或希望本地化處理音訊的使用者,這款開源工具尤其具有吸引力。