2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

MechELK：一种用于大型语言模型中潜在知识提取的机制可解释性框架

新框架MechELK利用机制可解释性从大型语言模型中提取隐藏知识。它结合了稀疏自编码器、因果探针和表征工程，实现了84.7%的准确率，超越了现有方法。该框架在模型给出错误或回避性回答时尤其有效。

来源arXiv Computational Linguistics作者: Ji-jun Park, Soo-joon Choi, Jiwon Jeong, Taeyang Yoon, Ju-Wan Lee

大型语言模型（LLM）经常在其内部表示中编码事实和推理知识，但这些知识并未在其表面输出中忠实地反映出来——这种现象被称为潜在知识。现有的方法，如对比一致性搜索（CCS），依赖于对比激活模式，在处理复杂的多步推理任务时存在困难，而机制可解释性工具主要用于理解模型行为，而非提取隐藏知识。

本文提出MechELK，一个统一的三阶段框架，桥接了机制可解释性和潜在知识提取。MechELK通过以下步骤操作：（1）定位——使用稀疏自编码器（SAE）特征分析和激活修补来识别承载知识的表示；（2）验证——采用因果探针来区分真正的潜在知识和虚假相关性；（3）提取——应用表征工程在不修改模型权重的情况下浮现隐藏知识。

在TruthfulQA、一个精心策划的Deceptive Alignment基准和Quirky LM数据集上评估，MechELK平均提取准确率达84.7%，比CCS高6.2%，比直接线性探针高9.1%。关键在于，在模型表面输出错误或回避的78.3%的情况下，MechELK成功识别出潜在知识，展示了其在AI安全应用中的实用性，包括检测欺骗性对齐。

该工作由Ji-jun Park等人完成，提交于2026年4月7日，发表于arXiv。