2026-06-05 04:43 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

法學教授更偏愛AI而非同行的答案

一項新研究顯示，在盲評中，美國法學教授對大型語言模型（LLM）提供的合同法課程答案評分遠高於同行，平均勝率達75.33%，且AI回答被標記為有害的比例更低。該研究為在需要判斷力的領域評估AI導師提供了可擴充套件的方法。

來源Hacker News AI作者: paulpauper

大型語言模型（LLM）正越來越多地被推廣為教育輔導工具，但大多數評估集中在有單一正確答案的領域，如數學或事實性問題。然而，許多學科依賴於判斷、推理、權衡模糊性並得出有充分依據的結論。法學就是一個典型的例子，它要求嚴格的法律推理和論證。

一項由Alejandro Salinas等人進行的新研究對合同法課程的短答案輔導進行了盲評。十六位美國法學教授被邀請建立了四十道代表性題目，並撰寫了他們自己認為最佳的答案。隨後，這些教授對2918組匿名的人類與LLM回答進行了對比評分，其中人類回答來自其他教授，LLM回答來自當時先進的模型。結果令人驚訝：教授們對LLM的評價遠高於對同行的評價，平均勝率高達75.33%，這意味著在幾乎每四個比較中，LLM的回答就被認為優於人類教師三次。此外，LLM的表現與最佳教師相當，甚至在某些指標上更優。

更值得注意的是，LLM回答被標記為“有害”（如包含誤導性資訊或不當內容）的比例僅為3.53%，而教授回答的這一比例為12.06%，是前者的三倍多。這種對LLM的偏好在不同評估者之間保持高度一致，反映了法學界共享的專業標準和價值觀。研究還發現，透過使用另一個LLM作為評判者，可以可靠地將評估流程擴充套件到更多模型，從而為在需要判斷力的領域評估AI導師提供了一種有效且可擴充套件的方法。

與此同時，另一篇發表在《經濟文獻雜誌》上的研究表明，人工智慧和LLM工具能夠大量生產與人類撰寫幾乎無法區分的金融學術論文。這引發了一個深刻的思考：在學術界，僅僅“高產”可能不再是競爭優勢，真正的價值將轉向那些能夠利用AI進行創新和探索前所未有的專案的人。法學教授對AI的偏愛可能只是一個開始，預示著AI在教育和專業領域中將扮演越來越重要的角色。