AI News HubLIVE
站內改寫1 分鐘閱讀

語音查詢器——一款可從600多種語音中快速為您的應用找到合適語音的新工具

語音查詢器讓開發者能夠透過自然語言提示或上傳音訊樣本,搜尋、匹配、篩選和試聽Together AI TTS模型中的600多種語音。

Together AI 今日正式釋出語音查詢器(Voice Finder)——一款旨在幫助開發人員從超過600種聲音中快速篩選出最適合其應用的語音搜尋工具。該工具整合了包括MiniMax、Cartesia、Deepgram、Rime在內的多家領先TTS模型的聲音庫,支援透過自然語言提示或上傳音訊樣本進行智慧匹配與試聽。

語音查詢器的核心是一個多模態模型,該模型對每個語音進行了15個以上維度的結構化標註,涵蓋音調、性別、口音、語言、年齡、情感和說話風格等屬性。這些後設資料驅動了自然語言搜尋和手動篩選功能。使用者可以輸入諸如“冥想應用的平靜女聲”或“金融科技客服的自信聲音”等描述性提示,也可以上傳一段簡短的音訊樣本,系統將返回相關性排名並允許線上試聽。此外,使用者還可以依據具體屬性進行精確過濾,確保找到的聲音完美契合應用場景。

對於正在開發語音代理的團隊而言,選擇合適的聲音至關重要。醫療接待員、餐廳點餐助手和娛樂陪伴型代理需要截然不同的聲音特質。傳統的做法是手動瀏覽廠商目錄,但往往缺乏有效指導。語音查詢器將這一過程從數小時縮短到幾分鐘,讓開發者能夠快速迭代。

Together AI 同時提供了構建即時語音代理的統一平臺,整合語音轉文字(STT)、大語言模型(LLM)和文本轉語音(TTS),所有元件在同一雲環境內部署,端到端延遲控制在500毫秒以內,足以支援即時互動。語音查詢器作為該平臺的前端工具,使聲音選擇步驟變得直觀高效。

目前,開發人員可以透過 findtherightvoice.com 體驗語音查詢器,並可進一步查閱 Together AI 的語音平臺文件。企業客戶可聯絡銷售團隊獲取專用端點和生產部署支援。Together AI 表示,未來將繼續擴充套件聲音庫並最佳化後設資料模型,以覆蓋更多語言和場景。