2026-06-05 04:43 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

法学教授更偏爱AI而非同行的答案

一项新研究显示，在盲评中，美国法学教授对大型语言模型（LLM）提供的合同法课程答案评分远高于同行，平均胜率达75.33%，且AI回答被标记为有害的比例更低。该研究为在需要判断力的领域评估AI导师提供了可扩展的方法。

来源Hacker News AI作者: paulpauper

大型语言模型（LLM）正越来越多地被推广为教育辅导工具，但大多数评估集中在有单一正确答案的领域，如数学或事实性问题。然而，许多学科依赖于判断、推理、权衡模糊性并得出有充分依据的结论。法学就是一个典型的例子，它要求严格的法律推理和论证。

一项由Alejandro Salinas等人进行的新研究对合同法课程的短答案辅导进行了盲评。十六位美国法学教授被邀请创建了四十道代表性题目，并撰写了他们自己认为最佳的答案。随后，这些教授对2918组匿名的人类与LLM回答进行了对比评分，其中人类回答来自其他教授，LLM回答来自当时先进的模型。结果令人惊讶：教授们对LLM的评价远高于对同行的评价，平均胜率高达75.33%，这意味着在几乎每四个比较中，LLM的回答就被认为优于人类教师三次。此外，LLM的表现与最佳教师相当，甚至在某些指标上更优。

更值得注意的是，LLM回答被标记为“有害”（如包含误导性信息或不当内容）的比例仅为3.53%，而教授回答的这一比例为12.06%，是前者的三倍多。这种对LLM的偏好在不同评估者之间保持高度一致，反映了法学界共享的专业标准和价值观。研究还发现，通过使用另一个LLM作为评判者，可以可靠地将评估流程扩展到更多模型，从而为在需要判断力的领域评估AI导师提供了一种有效且可扩展的方法。

与此同时，另一篇发表在《经济文献杂志》上的研究表明，人工智能和LLM工具能够大量生产与人类撰写几乎无法区分的金融学术论文。这引发了一个深刻的思考：在学术界，仅仅“高产”可能不再是竞争优势，真正的价值将转向那些能够利用AI进行创新和探索前所未有的项目的人。法学教授对AI的偏爱可能只是一个开始，预示着AI在教育和专业领域中将扮演越来越重要的角色。