CoRA:置信度与理由对齐,实现可靠的思维链推理
提出CoRA框架,基于GRPO强化学习对齐模型置信度与生成理由,减少误导性高置信度答案。在MedQA等数据集上,对齐误差降低26.51%,准确率保持且校准改善。
思维链(Chain-of-Thought, CoT)推理是一种让大型语言模型(LLM)逐步展示推理过程的技术,能够显著提升模型在复杂任务上的表现。然而,一个常见的问题是,模型可能对错误的答案表现出高置信度,同时生成的推理步骤看似合理但实际存在逻辑漏洞或信息缺失。这种“高置信度但理由不充分”的现象严重影响了模型的可信度。为了解决这一挑战,研究人员提出了置信度-理由对齐(Confidence-Rationale Alignment)的概念,即评估模型对其最终答案的置信度是否与其生成的推理理由相匹配。最新研究《CoRA: Confidence-Rationale Alignment for Reliable Chain-of-Thought Reasoning》引入了一种基于GRPO(Group Relative Policy Optimization)的强化学习框架。该框架通过联合奖励机制,同时优化三个目标:答案的正确性、模型对选定答案的置信度概率(即softmax输出中的概率),以及基于评分标准的理由支持度。评分标准是该方法的核心创新之一,它从四个维度对理由进行自动化评估:扎实程度(理由是否基于事实或可验证的信息)、连贯性(推理逻辑是否自洽)、任务匹配度(理由是否针对当前任务)以及与所选答案的关联性(理由是否直接支持答案)。重要的是,评分标准在评估时不使用真实答案,从而避免了信息泄露。研究团队在MedQA(医学问答)、MathQA(数学问答)和OpenBookQA(科学问答)三个基准数据集上进行了实验,使用了三种开放权重LLM(如Llama、Mistral等)。实验结果显示,与未经过调整的基线模型、监督微调(SFT)以及仅以正确性为奖励的GRPO方法相比,CoRA将置信度-理由对齐误差降低了最多26.51%,同时保持了有竞争力的准确率,并且经常改善模型的校准性能(即置信度与准确率的一致性)。这些结果有力地证明,可靠的CoT推理不仅需要模型对答案有高置信度,还需要生成实质性支持这些答案的推理理由。CoRA框架为实现这一目标提供了一种有效的强化学习途径,有望在医疗诊断、法律分析等对可解释性要求高的领域发挥重要作用。