TurnNat:双人对话中话轮转换自然性的自动评估
TurnNat是一个基于似然的框架,用于自动评估双人对话中的话轮转换自然性。它通过因果预测模型计算未来语音活动的负对数似然来量化时序异常,并在扰动基准上验证了有效性。
全双工对话系统(如智能语音助手和实时翻译设备)需要能够像人类一样自然地切换发言权,即话轮转换。然而,自动评估话轮转换的自然性一直是一个难题。现有的评估方法要么依赖昂贵且耗时的人工判断,要么使用针对特定行为(如重叠或沉默)的时序指标,这使得不同类型的时序失败难以在一个统一框架下进行比较。为了解决这个问题,来自学术界的研究团队提出了TurnNat,一个基于似然的自动评估框架,用于双人对话中的话轮转换自然性评估。
TurnNat的核心思想是利用一个因果预测模型,该模型在大量自然对话数据上训练,能够根据当前对话状态预测未来两位说话人的语音活动。通过计算实际观察到的未来语音活动的负对数似然(NLL),系统可以量化时序的异常程度:如果实际的语音活动模式与模型预测的典型模式不符,NLL值就会偏高,表明话轮转换可能不自然。具体来说,TurnNat首先从对话中提取话轮转换边界单元(TBU),这些单元对应于话语的开始和结束时刻。然后,它在每个TBU上计算帧级别的NLL,并聚合这些帧级别的分数,得到每个TBU的平均和尾部(即高异常)分数。最后,这些TBU分数被进一步聚合成一个对话级别的自然性评分,从而实现对整段对话的自动评估。
为了验证TurnNat的有效性,研究团队还构建了一个受控的扰动基准数据集。该数据集包含成对的自然对话片段和经过人工扰动(如插入不当的沉默或重叠)的片段,并且所有片段都经过了人工自然性判断的验证。实验结果表明,TurnNat能够成功识别出各种类型的异常话轮转换扰动,包括不同时长和位置的时序失败。这一框架为全双工对话系统的评估提供了一个统一、自动化的工具,有望加速相关系统的开发和优化。