2026-06-27 05:50 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 06:16 UTC+8

AI音頻翻譯器：集成語音識別、大語言模型翻譯與文本轉語音

本文介紹了一個基於Python的開源AI音頻翻譯器，利用Telnyx API實現語音識別、大語言模型翻譯和文本轉語音的完整流程。用户可上傳音頻文件，獲得翻譯後的音頻和對齊的轉錄文本。

來源Hacker News AI作者: sona-coffee11

這是一個基於Python的開源項目，旨在通過Telnyx的API實現一個完整的AI音頻翻譯器。用户可以將任何音頻文件（如播客、會議錄音或講座）上傳到系統中，系統首先使用語音識別（STT）將源語言轉錄為文本，然後調用大語言模型（LLM）進行翻譯，最後通過文本轉語音（TTS）生成目標語言的音頻。輸出結果包括翻譯後的音頻文件以及對齊的轉錄文本，便於用户對照和理解。

項目利用了Telnyx平台提供的三個核心API：STT Transcribe（用於語音轉文本）、AI Inference（用於大語言模型推理翻譯）和TTS Generate（用於文本轉語音）。其架構設計清晰，流程如下：當API請求到達時，系統首先通過TTS播放一條歡迎消息，然後收集用户的語音輸入並進行STT轉錄，接着將轉錄文本發送給AI Inference進行翻譯處理，最後將翻譯結果通過TTS轉換為語音輸出。整個過程可以循環進行，形成對話式的交互體驗。最終，系統返回一個JSON響應，包含翻譯任務的狀態和其他元數據。

Telnyx作為AI通信基礎設施平台，其獨特優勢在於將LLM推理與語音流量部署在同一個私有全球網絡上，實現了低於200毫秒的往返時延。這確保了實時語音翻譯的流暢性。環境變量的配置非常簡單，只需設置TELNYX_API_KEY、AI_MODEL、TTS_MODEL和STT_MODEL四個參數即可快速上手。項目提供了詳細的設置指南，包括如何克隆倉庫、安裝依賴、運行應用以及使用ngrok配置Webhook。

在API參考方面，項目提供了一個POST /translate端點，用户可以通過multipart表單上傳音頻文件，並指定源語言和目標語言。例如，使用curl命令可以輕鬆測試：curl -X POST http://localhost:5000/translate -F [email protected] -F source=en -F target=ja。響應中會返回任務ID、狀態、源語言、目標語言以及原始和翻譯後的音頻長度等信息。此外，GET /health端點用於健康檢查。

常見問題及解決方法包括：端口5000被佔用時應檢查是否有其他進程在使用；401未授權錯誤表示API密鑰無效，需要重新生成；AI響應慢或為空則需要驗證模型名稱是否正確。項目還提供了相關示例和官方文檔鏈接，方便用户進一步學習和擴展。