2026-07-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 16:13 UTC+8

办公理解基准测试

Office Comprehension Bench (OCB) 是首个公开基准，用于评估大型语言模型在Word、Excel和PowerPoint原生文件格式上的理解能力。它包括两个测试轨道：文件保真度问答和领域问答。即使最先进的系统在默认推理模式下也仅达到约59.3%的准确率，提升思考深度效果有限，而升级产品层级能带来适度改善。研究团队已发布数据集、评估工具和排行榜。

来源arXiv Computational Linguistics作者: Firoz Shaik, Mateus Pican\c{c}o Lima Gomes, Tanvir Aumi, Jingci Wang, Milos Milunovic, Filip Basara, Ivana Jovanovic, Vishwas Suryanarayanan, Neha Nandan Kenkare, Weiyao Xie, Zhipeng Han, Zheng Zhang, Waleed Shahid, Jay Rathi, Russell Scherer, Thong Q. Nguyen, Michael Bentley, Tamara Stankovic, Rasika Chakravarthy, Vishal Chowdhary

近日，一项名为“Office Comprehension Bench (OCB)”的新型基准测试正式发布，旨在全面评估大型语言模型（LLM）在办公软件原生文件格式上的理解能力。OCB是首个同时涵盖Word (.docx)、Excel (.xlsx)和PowerPoint (.pptx)及其变体的公开基准，填补了该领域的空白。

OCB包含两个核心测试轨道。文件保真度问答（File Fidelity Q&A）专注于检测模型对办公文档中表格、图表、嵌入式图片、公式以及页眉、演讲者备注、命名区域等特定元素的结构和视觉感知能力。而领域问答（Domain Q&A）则更进一步，要求模型基于真实的行业文档进行专家级推理，覆盖12个专业领域，问题涉及跨文档的多步分析与综合。每个参考答案被分解为原子化的可二分判断声明，并由多个LLM评委独立评分。

实验结果显示，即便是当前最强大的前沿系统，在其默认推理模式下，领域问答的准确率也仅为约59.3%。研究发现，在同一产品层级内增加思考深度对性能提升微乎其微，而升级至更高产品层级则能带来适度的改进。这表明当前LLM在处理复杂办公文档推理时仍存在显著局限。

为促进该领域的进一步研究，研究团队已公开了完整的OCB数据集、评估工具、裁判提示词以及一个公开排行榜。这些资源将帮助开发者量化并提升其模型在办公场景下的实用能力，推动AI在生产力工具中的实际应用。该论文由Firoz Shaik等20位作者共同完成，于2026年5月29日提交至arXiv，涉及计算与语言、人工智能、计算机与社会、信息检索、机器学习等多个学科领域。