法學教授更偏愛AI而非同行的答案
一項新研究顯示,在盲評中,美國法學教授對大型語言模型(LLM)提供的合同法課程答案評分遠高於同行,平均勝率達75.33%,且AI回答被標記為有害的比例更低。該研究為在需要判斷力的領域評估AI導師提供了可擴充套件的方法。
大型語言模型(LLM)正越來越多地被推廣為教育輔導工具,但大多數評估集中在有單一正確答案的領域,如數學或事實性問題。然而,許多學科依賴於判斷、推理、權衡模糊性並得出有充分依據的結論。法學就是一個典型的例子,它要求嚴格的法律推理和論證。
一項由Alejandro Salinas等人進行的新研究對合同法課程的短答案輔導進行了盲評。十六位美國法學教授被邀請建立了四十道代表性題目,並撰寫了他們自己認為最佳的答案。隨後,這些教授對2918組匿名的人類與LLM回答進行了對比評分,其中人類回答來自其他教授,LLM回答來自當時先進的模型。結果令人驚訝:教授們對LLM的評價遠高於對同行的評價,平均勝率高達75.33%,這意味著在幾乎每四個比較中,LLM的回答就被認為優於人類教師三次。此外,LLM的表現與最佳教師相當,甚至在某些指標上更優。
更值得注意的是,LLM回答被標記為“有害”(如包含誤導性資訊或不當內容)的比例僅為3.53%,而教授回答的這一比例為12.06%,是前者的三倍多。這種對LLM的偏好在不同評估者之間保持高度一致,反映了法學界共享的專業標準和價值觀。研究還發現,透過使用另一個LLM作為評判者,可以可靠地將評估流程擴充套件到更多模型,從而為在需要判斷力的領域評估AI導師提供了一種有效且可擴充套件的方法。
與此同時,另一篇發表在《經濟文獻雜誌》上的研究表明,人工智慧和LLM工具能夠大量生產與人類撰寫幾乎無法區分的金融學術論文。這引發了一個深刻的思考:在學術界,僅僅“高產”可能不再是競爭優勢,真正的價值將轉向那些能夠利用AI進行創新和探索前所未有的專案的人。法學教授對AI的偏愛可能只是一個開始,預示著AI在教育和專業領域中將扮演越來越重要的角色。