2026-06-16站内改写1 分钟阅读更新: 2026-06-16

CoRA：置信度与理由对齐，实现可靠的思维链推理

提出CoRA框架，基于GRPO强化学习对齐模型置信度与生成理由，减少误导性高置信度答案。在MedQA等数据集上，对齐误差降低26.51%，准确率保持且校准改善。

来源arXiv Computational Linguistics作者: Juming Xiong, Weixin Liu, Kevin Guo, Congning Ni, Junchao Zhu, Chongyu Qu, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Malin, Zhijun Yin

思维链（Chain-of-Thought, CoT）推理是一种让大型语言模型（LLM）逐步展示推理过程的技术，能够显著提升模型在复杂任务上的表现。然而，一个常见的问题是，模型可能对错误的答案表现出高置信度，同时生成的推理步骤看似合理但实际存在逻辑漏洞或信息缺失。这种“高置信度但理由不充分”的现象严重影响了模型的可信度。为了解决这一挑战，研究人员提出了置信度-理由对齐（Confidence-Rationale Alignment）的概念，即评估模型对其最终答案的置信度是否与其生成的推理理由相匹配。最新研究《CoRA: Confidence-Rationale Alignment for Reliable Chain-of-Thought Reasoning》引入了一种基于GRPO（Group Relative Policy Optimization）的强化学习框架。该框架通过联合奖励机制，同时优化三个目标：答案的正确性、模型对选定答案的置信度概率（即softmax输出中的概率），以及基于评分标准的理由支持度。评分标准是该方法的核心创新之一，它从四个维度对理由进行自动化评估：扎实程度（理由是否基于事实或可验证的信息）、连贯性（推理逻辑是否自洽）、任务匹配度（理由是否针对当前任务）以及与所选答案的关联性（理由是否直接支持答案）。重要的是，评分标准在评估时不使用真实答案，从而避免了信息泄露。研究团队在MedQA（医学问答）、MathQA（数学问答）和OpenBookQA（科学问答）三个基准数据集上进行了实验，使用了三种开放权重LLM（如Llama、Mistral等）。实验结果显示，与未经过调整的基线模型、监督微调（SFT）以及仅以正确性为奖励的GRPO方法相比，CoRA将置信度-理由对齐误差降低了最多26.51%，同时保持了有竞争力的准确率，并且经常改善模型的校准性能（即置信度与准确率的一致性）。这些结果有力地证明，可靠的CoT推理不仅需要模型对答案有高置信度，还需要生成实质性支持这些答案的推理理由。CoRA框架为实现这一目标提供了一种有效的强化学习途径，有望在医疗诊断、法律分析等对可解释性要求高的领域发挥重要作用。