2026-06-15站内改写2 分钟阅读更新: 2026-06-15

超越转录：ASR模型在200毫秒内传递文字、情感和意图

Whissle的META-1模型是一种元感知语音识别系统，能够在单次前向传播中同时输出转录文本和元数据（情感、意图、年龄、性别等），延迟约200毫秒。通过集成KenLM n-gram语言模型，该系统将词错误率降低了高达3.6%（相对10.8%），同时在多语言基准测试中显著快于Deepgram、AssemblyAI和Gemini 2.0 Flash等商业解决方案。

来源Hacker News AI作者: ksingla025

Whissle研究团队近日发布了一种全新的语音识别方法，其Meta-aware Voice Action Model（META-1）能够在一次前向传播中同时输出转录文本和丰富的元数据——包括情感、意图、年龄、性别和说话人切换等信息。传统语音识别系统只能输出文字，要获取额外信息需要调用多个API，增加延迟和成本。而Whissle的模型将所有信息整合在一个流中，延迟仅为200毫秒，比最接近的元数据解决方案快9倍。

然而，基于CTC的模型有一个众所周知的弱点：它们逐帧解码，缺乏语言知识，容易产生错误的单词边界和非词猜测。当词汇表包含约10,000个元数据令牌和约8,000个文本令牌时，问题更加严重。Whissle的解决方案是使用传统的n-gram语言模型——KenLM，它本质上是一个单词序列概率的查找表。该模型运行时间不足毫秒，无需GPU，且没有幻觉风险。通过束搜索算法，系统探索多个假设，并使用n-gram语言模型进行评分，从而选择最合理的单词序列。

Whissle在四种语言（英语、西班牙语、德语和印地语）上对系统进行了基准测试，使用了1,300个真实音频样本和五种提供商配置。结果显示，语言模型使德语和西班牙语的词错误率降低了高达3.6%（相对降低10.8%），同时模型以约200毫秒的延迟流式传输情感、意图和人口统计信息。相比之下，Deepgram Nova-3、AssemblyAI Universal Streaming和Gemini 2.0 Flash的元数据提取延迟在0.9至2.2秒之间。

测试采用了公平的比较方法：所有提供商接收相同的音频（PCM int16, 单声道, 16kHz），并使用相同的文本归一化标准计算WER。数据集包括LibriSpeech（英语）、Multilingual LibriSpeech（西班牙语和德语）以及Meta STT Hindi（印地语）。Whissle的两种配置（贪婪解码和带LM的束搜索）与Deepgram、AssemblyAI和Gemini进行对比。特别值得注意的是，Gemini 2.0 Flash是一种批量LLM，并非流式ASR服务，其延迟代表了完全不同的架构。

n-gram语言模型的关键创新在于，它使用Whissle声学模型训练数据中的文本转录进行训练，确保了与声学模型所见域的高度对齐。训练过程包括提取参考转录、进行文本归一化、使用KenLM训练3-gram模型，并应用剪枝策略。最终每个语言组生成对应的二进制语言模型文件，在服务器启动时加载。

通过CTC束搜索的浅融合技术，声学模型分数和语言模型分数相结合，有效提升了转录准确性，同时不干扰元数据令牌的预测。由于元数据令牌在log-softmax归一化后被抑制，语言模型仅作用于文本令牌，保证了正确的概率分布。

这一突破意味着实时语音应用可以同时获得高精度的转录和丰富的元数据，而无需复杂的多系统集成。Whissle预计，这一技术将在客户服务、会议转录、语音助手等领域发挥重要作用。