AI能猜出你知道什麼?大型語言模型從溝通日誌中評估人類領域知識的性能比較
研究評估了七個大型語言模型(包括Gemini、Claude和GPT系列)從長期Slack日誌中推斷個人領域知識的能力。分析27,188條來自43名用户的消息,對比零樣本估計與27名參與者的自我報告技能評分。Gemini 2.5 Flash表現最佳(MAE 21.13%),而GPT模型誤差較大。研究發現,估計準確性僅微弱依賴於消息數量,表明更多文本並不能保證更好的推斷。該結果展示了自動專業知識映射的可行性和當前侷限性,強調需要隱私保護部署和更豐富的結構感知知識表示。
文章情報
要點
- 員工常難以識別“誰知道什麼”,導致組織效率損失
- Gemini 2.5 Flash在零樣本評估中取得最低誤差(MAE 21.13%)
- 估計準確性對消息數量依賴較弱
- 研究揭示了自動專家識別的潛力與隱私保護需求
為甚麼重要
這條新聞值得關注,因為員工常難以識別“誰知道什麼”,導致組織效率損失。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
在一項發表於arXiv的新研究中,來自日本的研究人員Ko Watanabe及其同事探索了一個有趣的問題:大型語言模型(LLM)能否從公司內部的Slack聊天記錄中,自動推斷出每個員工所具備的專業知識?這一能力的潛在價值巨大,因為在許多組織中,員工往往難以識別同事的專長,導致合作效率低下和生產力損失。
研究團隊收集了來自43名用户的27,188條Slack消息作為數據集,並邀請了其中27名參與者對自己的技能進行自我評分,作為評估真實知識的基準。他們測試了七個主流的大型語言模型,包括Gemini系列(如Gemini 2.5 Flash)、Claude系列和GPT系列。這些模型在未經任何特定任務訓練的情況下(即零樣本學習)接收用户的聊天曆史,然後輸出對用户在不同領域知識水平的估計。
結果顯示,Gemini 2.5 Flash表現最為出色,其平均絕對誤差(MAE)僅為21.13%,意味着模型的估計與用户自評之間的平均差距約為21個百分點。相比之下,GPT系列模型的誤差顯著更大,在某些情況下甚至超過40%。這一發現表明,不同模型在從自然語言中理解人類知識的能力上存在顯著差異。
更有趣的是,研究人員發現,估計的準確性與用於分析的消息數量之間只有微弱的關聯。換句話説,即使給模型更多文本,也不一定能提高推斷的準確性。這暗示了當前模型的一個根本性侷限:它們可能缺乏對人類知識結構的深層理解,而僅僅是基於表面模式進行猜測。
這項研究不僅證實了利用日常溝通記錄自動繪製組織知識地圖的可行性,也指出了技術上的瓶頸。研究團隊強調,未來的系統必須在保護用户隱私的前提下設計,例如採用差分隱私或聯邦學習等技術。同時,還需要開發更豐富的知識表示方法,例如考慮知識之間的層次關係和上下文依賴,才能讓AI真正成為“誰知道什麼”問題的可靠解答者。