AI能猜出你知道什么?大型语言模型从沟通日志中评估人类领域知识的性能比较
研究评估了七个大型语言模型(包括Gemini、Claude和GPT系列)从长期Slack日志中推断个人领域知识的能力。分析27,188条来自43名用户的消息,对比零样本估计与27名参与者的自我报告技能评分。Gemini 2.5 Flash表现最佳(MAE 21.13%),而GPT模型误差较大。研究发现,估计准确性仅微弱依赖于消息数量,表明更多文本并不能保证更好的推断。该结果展示了自动专业知识映射的可行性和当前局限性,强调需要隐私保护部署和更丰富的结构感知知识表示。
文章情报
要点
- 员工常难以识别“谁知道什么”,导致组织效率损失
- Gemini 2.5 Flash在零样本评估中取得最低误差(MAE 21.13%)
- 估计准确性对消息数量依赖较弱
- 研究揭示了自动专家识别的潜力与隐私保护需求
为什么重要
这条新闻值得关注,因为员工常难以识别“谁知道什么”,导致组织效率损失。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
在一项发表于arXiv的新研究中,来自日本的研究人员Ko Watanabe及其同事探索了一个有趣的问题:大型语言模型(LLM)能否从公司内部的Slack聊天记录中,自动推断出每个员工所具备的专业知识?这一能力的潜在价值巨大,因为在许多组织中,员工往往难以识别同事的专长,导致合作效率低下和生产力损失。
研究团队收集了来自43名用户的27,188条Slack消息作为数据集,并邀请了其中27名参与者对自己的技能进行自我评分,作为评估真实知识的基准。他们测试了七个主流的大型语言模型,包括Gemini系列(如Gemini 2.5 Flash)、Claude系列和GPT系列。这些模型在未经任何特定任务训练的情况下(即零样本学习)接收用户的聊天历史,然后输出对用户在不同领域知识水平的估计。
结果显示,Gemini 2.5 Flash表现最为出色,其平均绝对误差(MAE)仅为21.13%,意味着模型的估计与用户自评之间的平均差距约为21个百分点。相比之下,GPT系列模型的误差显著更大,在某些情况下甚至超过40%。这一发现表明,不同模型在从自然语言中理解人类知识的能力上存在显著差异。
更有趣的是,研究人员发现,估计的准确性与用于分析的消息数量之间只有微弱的关联。换句话说,即使给模型更多文本,也不一定能提高推断的准确性。这暗示了当前模型的一个根本性局限:它们可能缺乏对人类知识结构的深层理解,而仅仅是基于表面模式进行猜测。
这项研究不仅证实了利用日常沟通记录自动绘制组织知识地图的可行性,也指出了技术上的瓶颈。研究团队强调,未来的系统必须在保护用户隐私的前提下设计,例如采用差分隐私或联邦学习等技术。同时,还需要开发更丰富的知识表示方法,例如考虑知识之间的层次关系和上下文依赖,才能让AI真正成为“谁知道什么”问题的可靠解答者。