办公理解基准测试
Office Comprehension Bench (OCB) 是首个公开基准,用于评估大型语言模型在Word、Excel和PowerPoint原生文件格式上的理解能力。它包括两个测试轨道:文件保真度问答和领域问答。即使最先进的系统在默认推理模式下也仅达到约59.3%的准确率,提升思考深度效果有限,而升级产品层级能带来适度改善。研究团队已发布数据集、评估工具和排行榜。
近日,一项名为“Office Comprehension Bench (OCB)”的新型基准测试正式发布,旨在全面评估大型语言模型(LLM)在办公软件原生文件格式上的理解能力。OCB是首个同时涵盖Word (.docx)、Excel (.xlsx)和PowerPoint (.pptx)及其变体的公开基准,填补了该领域的空白。
OCB包含两个核心测试轨道。文件保真度问答(File Fidelity Q&A)专注于检测模型对办公文档中表格、图表、嵌入式图片、公式以及页眉、演讲者备注、命名区域等特定元素的结构和视觉感知能力。而领域问答(Domain Q&A)则更进一步,要求模型基于真实的行业文档进行专家级推理,覆盖12个专业领域,问题涉及跨文档的多步分析与综合。每个参考答案被分解为原子化的可二分判断声明,并由多个LLM评委独立评分。
实验结果显示,即便是当前最强大的前沿系统,在其默认推理模式下,领域问答的准确率也仅为约59.3%。研究发现,在同一产品层级内增加思考深度对性能提升微乎其微,而升级至更高产品层级则能带来适度的改进。这表明当前LLM在处理复杂办公文档推理时仍存在显著局限。
为促进该领域的进一步研究,研究团队已公开了完整的OCB数据集、评估工具、裁判提示词以及一个公开排行榜。这些资源将帮助开发者量化并提升其模型在办公场景下的实用能力,推动AI在生产力工具中的实际应用。该论文由Firoz Shaik等20位作者共同完成,于2026年5月29日提交至arXiv,涉及计算与语言、人工智能、计算机与社会、信息检索、机器学习等多个学科领域。