AERIC:用于隐式有害对话的预期性隐藏状态监控
AERIC 是一种轻量级安全监控器,通过读取解码过程中的隐藏状态来提前检测隐式有害内容,无需额外前向传播。它仅含 387 个可训练参数,在多个基准测试上优于大型模型,且延迟增加仅 2.34%。
文章情报
要点
- AERIC 通过分析模型内部隐藏状态提前预测有害内容。
- 结合短期危害预测、支持敏感抑制和提示条件残差评分。
- 在 DiaSafety 和 Harmful Advice 基准上 AUROC 分别提升至 0.7143 和 0.8582。
- 延迟增加仅 2.34%,远低于对比模型的 79.40%。
为什么重要
这条新闻值得关注,因为AERIC 通过分析模型内部隐藏状态提前预测有害内容。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
当前语言模型面临两大安全挑战:一是需要在有害内容生成前尽早检测风险,二是危害可能以隐式形式出现而非明显的 toxic 文本。现有的响应级防护能有效评判完整文本,流式防护则更接近 token 级时间,但两者均未探讨轻型监控器能否从生成器的内部轨迹中提前预测隐式有害偏移。为此,研究者提出了 AERIC(Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue),一种面向隐式有害对话的迁移式隐藏状态方法。
AERIC 采用同次传递(same-pass)监控范式,安全监控器可以读取常规解码过程中产生的隐藏状态,但不得调用额外的基模型前向传播。该方法结合了短期危害预测(short-horizon hazard forecasting)、支持敏感抑制(support-sensitive suppression)和提示条件残差评分(prompt-conditioned residual scoring),并基于同次传递指数移动平均决策规则进行判断。默认的线性监控器仅包含 387 个可训练的头部参数,极其轻量。
实验表明,AERIC 在多个平衡基准上显著优于现有方法。与 Qwen3GuardStream-4B 相比,AERIC 在 DiaSafety 上的 AUROC 从 0.6830 提升至 0.7143,在 Harmful Advice 上从 0.8219 提升至 0.8582。对于提示级触发基准,研究者通过源端安全预算规则校准阈值,在约束安全触发率不超过 10% 的同时最大化触发覆盖率。在该规则下,HarmBench DirectRequest 上的 trigger@64 达到 0.6438(Qwen)和 0.4656(Gemma),SocialHarmBench 上达到 0.6849(Qwen)和 0.7363(Gemma),平均扣留 23.53 至 41.86 个回答 token。
效率方面,在包含 HarmBench DirectRequest 和 SocialHarmBench 的 63 个有害提示固定生成基准上(使用 Qwen3-8B),AERIC 仅使平均延迟增加 2.34%,而 Qwen3Guard-Stream-4B 则导致延迟增加 79.40%。这一结果表明,AERIC 在保持高检测性能的同时,能够以极低的计算开销实现实时安全监控。