Show HN:Dikaletus – 使用Mistral AI進行會議錄製與轉錄
Dikaletus是一個開源會議代理腳本,利用FFmpeg、PulseAudio和Mistral AI API自動完成會議錄音、轉錄和摘要生成。它提供終端交互界面,支持上下文偏置、説話人分離等功能,並可將會議記錄導出為結構化Markdown筆記。
文章情報
要點
- 基於Mistral AI的語音轉文本和文本生成模型,實現會議自動化處理。
- 支持錄音、現有音頻/視頻文件兩種輸入方式,並提供終端交互界面。
- 包含上下文偏置、説話人分離、時間戳粒度等高級轉錄設置。
- 輸出包含錄音文件、原始轉錄和結構化會議筆記,按時間戳組織目錄。
為甚麼重要
這條新聞值得關注,因為基於Mistral AI的語音轉文本和文本生成模型,實現會議自動化處理。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Dikaletus是一款由MimosaDev開發的開源會議代理腳本,旨在簡化會議記錄、轉錄和摘要的全流程。它結合了FFmpeg、PulseAudio和Mistral AI的強大能力,為Linux用户提供了一套完整的自動化方案。
核心功能
Dikaletus的核心工作流分為錄音和轉錄兩大部分。用户可以選擇實時錄製麥克風和揚聲器輸出的音頻,或直接導入現有的音頻/視頻文件。錄音完成後,腳本調用Mistral的voxtral-mini-latest模型進行語音轉文本,再通過mistral-medium-latest模型生成結構化的會議筆記。
腳本提供了兩種操作模式:**終端交互界面(TUI)**和**命令行模式**。TUI模式採用Breeze Dark主題風格,支持通過菜單選擇工作流、配置API密鑰、設置輸出目錄等,適合交互式操作。命令行模式則適合自動化腳本或高級用户,支持豐富的參數選項。
高級轉錄特性
Dikaletus的轉錄功能不僅限於基本的語音識別,還提供了多項高級設置以提升準確性:
- **上下文偏置**:通過提供領域特定術語的文本文件,引導模型更準確地識別專業詞彙,例如項目名稱、技術術語等。
- **説話人分離**:自動識別並區分不同發言人的語音片段,並在轉錄結果中標註説話人標籤。
- **時間戳粒度**:用户可選擇“段落”、“單詞”或“無”三種粒度,控制轉錄結果中時間戳的詳細程度。
這些特性使得Dikaletus特別適合多參與者會議、採訪等場景,能夠生成帶有説話人標籤和時間戳的JSON格式轉錄文件。
安裝與依賴
Dikaletus基於R語言編寫,需要系統安裝PulseAudio和FFmpeg。安裝過程包括克隆倉庫、安裝R包(如httr、jsonlite、cli等)以及系統依賴。項目採用GPLv3許可證,代碼託管在Codeberg上,方便社區貢獻和二次開發。
輸出與配置
每次工作流運行會在指定輸出目錄下生成一個帶時間戳的子目錄,包含以下文件:
recording.wav:原始錄音(如果選擇錄製)transcription.txt:原始轉錄文本(JSON或純文本格式)meeting_notes.md:基於模板生成的結構化會議筆記
配置信息(API密鑰、偏好設置等)保存在config.json文件中,後續運行可自動加載。用户還可以自定義Markdown會議筆記模板,以匹配團隊的工作流程。
適用場景
Dikaletus為需要高效會議記錄的團隊和個人提供了一個輕量級但功能強大的工具。無論是日常站會、項目評審還是客户會議,它都能幫助用户節省手動記錄的時間,並確保關鍵信息不遺漏。對於注重隱私或希望本地化處理音頻的用户,這款開源工具尤其具有吸引力。