AI News HubLIVE
站内改写1 分钟阅读

法学教授更偏爱AI而非同行的答案

一项新研究显示,在盲评中,美国法学教授对大型语言模型(LLM)提供的合同法课程答案评分远高于同行,平均胜率达75.33%,且AI回答被标记为有害的比例更低。该研究为在需要判断力的领域评估AI导师提供了可扩展的方法。

来源Hacker News AI作者: paulpauper

大型语言模型(LLM)正越来越多地被推广为教育辅导工具,但大多数评估集中在有单一正确答案的领域,如数学或事实性问题。然而,许多学科依赖于判断、推理、权衡模糊性并得出有充分依据的结论。法学就是一个典型的例子,它要求严格的法律推理和论证。

一项由Alejandro Salinas等人进行的新研究对合同法课程的短答案辅导进行了盲评。十六位美国法学教授被邀请创建了四十道代表性题目,并撰写了他们自己认为最佳的答案。随后,这些教授对2918组匿名的人类与LLM回答进行了对比评分,其中人类回答来自其他教授,LLM回答来自当时先进的模型。结果令人惊讶:教授们对LLM的评价远高于对同行的评价,平均胜率高达75.33%,这意味着在几乎每四个比较中,LLM的回答就被认为优于人类教师三次。此外,LLM的表现与最佳教师相当,甚至在某些指标上更优。

更值得注意的是,LLM回答被标记为“有害”(如包含误导性信息或不当内容)的比例仅为3.53%,而教授回答的这一比例为12.06%,是前者的三倍多。这种对LLM的偏好在不同评估者之间保持高度一致,反映了法学界共享的专业标准和价值观。研究还发现,通过使用另一个LLM作为评判者,可以可靠地将评估流程扩展到更多模型,从而为在需要判断力的领域评估AI导师提供了一种有效且可扩展的方法。

与此同时,另一篇发表在《经济文献杂志》上的研究表明,人工智能和LLM工具能够大量生产与人类撰写几乎无法区分的金融学术论文。这引发了一个深刻的思考:在学术界,仅仅“高产”可能不再是竞争优势,真正的价值将转向那些能够利用AI进行创新和探索前所未有的项目的人。法学教授对AI的偏爱可能只是一个开始,预示着AI在教育和专业领域中将扮演越来越重要的角色。