语音查找器——一款可从600多种语音中快速为您的应用找到合适语音的新工具
语音查找器让开发者能够通过自然语言提示或上传音频样本,搜索、匹配、筛选和试听Together AI TTS模型中的600多种语音。
Together AI 今日正式发布语音查找器(Voice Finder)——一款旨在帮助开发人员从超过600种声音中快速筛选出最适合其应用的语音搜索工具。该工具整合了包括MiniMax、Cartesia、Deepgram、Rime在内的多家领先TTS模型的声音库,支持通过自然语言提示或上传音频样本进行智能匹配与试听。
语音查找器的核心是一个多模态模型,该模型对每个语音进行了15个以上维度的结构化标注,涵盖音调、性别、口音、语言、年龄、情感和说话风格等属性。这些元数据驱动了自然语言搜索和手动筛选功能。用户可以输入诸如“冥想应用的平静女声”或“金融科技客服的自信声音”等描述性提示,也可以上传一段简短的音频样本,系统将返回相关性排名并允许在线试听。此外,用户还可以依据具体属性进行精确过滤,确保找到的声音完美契合应用场景。
对于正在开发语音代理的团队而言,选择合适的声音至关重要。医疗接待员、餐厅点餐助手和娱乐陪伴型代理需要截然不同的声音特质。传统的做法是手动浏览厂商目录,但往往缺乏有效指导。语音查找器将这一过程从数小时缩短到几分钟,让开发者能够快速迭代。
Together AI 同时提供了构建实时语音代理的统一平台,集成语音转文字(STT)、大语言模型(LLM)和文本转语音(TTS),所有组件在同一云环境内部署,端到端延迟控制在500毫秒以内,足以支持实时交互。语音查找器作为该平台的前端工具,使声音选择步骤变得直观高效。
目前,开发人员可以通过 findtherightvoice.com 体验语音查找器,并可进一步查阅 Together AI 的语音平台文档。企业客户可联系销售团队获取专用端点和生产部署支持。Together AI 表示,未来将继续扩展声音库并优化元数据模型,以覆盖更多语言和场景。