AI News HubLIVE
站內改寫1 分鐘閱讀

辦公理解基準測試

Office Comprehension Bench (OCB) 是首個公開基準,用於評估大型語言模型在Word、Excel和PowerPoint原生文件格式上的理解能力。它包括兩個測試軌道:文件保真度問答和領域問答。即使最先進的系統在默認推理模式下也僅達到約59.3%的準確率,提升思考深度效果有限,而升級產品層級能帶來適度改善。研究團隊已發佈數據集、評估工具和排行榜。

來源arXiv Computational Linguistics作者: Firoz Shaik, Mateus Pican\c{c}o Lima Gomes, Tanvir Aumi, Jingci Wang, Milos Milunovic, Filip Basara, Ivana Jovanovic, Vishwas Suryanarayanan, Neha Nandan Kenkare, Weiyao Xie, Zhipeng Han, Zheng Zhang, Waleed Shahid, Jay Rathi, Russell Scherer, Thong Q. Nguyen, Michael Bentley, Tamara Stankovic, Rasika Chakravarthy, Vishal Chowdhary

近日,一項名為“Office Comprehension Bench (OCB)”的新型基準測試正式發佈,旨在全面評估大型語言模型(LLM)在辦公軟件原生文件格式上的理解能力。OCB是首個同時涵蓋Word (.docx)、Excel (.xlsx)和PowerPoint (.pptx)及其變體的公開基準,填補了該領域的空白。

OCB包含兩個核心測試軌道。文件保真度問答(File Fidelity Q&A)專注於檢測模型對辦公文檔中表格、圖表、嵌入式圖片、公式以及頁眉、演講者備註、命名區域等特定元素的結構和視覺感知能力。而領域問答(Domain Q&A)則更進一步,要求模型基於真實的行業文檔進行專家級推理,覆蓋12個專業領域,問題涉及跨文檔的多步分析與綜合。每個參考答案被分解為原子化的可二分判斷聲明,並由多個LLM評委獨立評分。

實驗結果顯示,即便是當前最強大的前沿系統,在其默認推理模式下,領域問答的準確率也僅為約59.3%。研究發現,在同一產品層級內增加思考深度對性能提升微乎其微,而升級至更高產品層級則能帶來適度的改進。這表明當前LLM在處理複雜辦公文檔推理時仍存在顯著侷限。

為促進該領域的進一步研究,研究團隊已公開了完整的OCB數據集、評估工具、裁判提示詞以及一個公開排行榜。這些資源將幫助開發者量化並提升其模型在辦公場景下的實用能力,推動AI在生產力工具中的實際應用。該論文由Firoz Shaik等20位作者共同完成,於2026年5月29日提交至arXiv,涉及計算與語言、人工智能、計算機與社會、信息檢索、機器學習等多個學科領域。