AI News HubLIVE
站內改寫1 分鐘閱讀

辦公理解基準測試

Office Comprehension Bench (OCB) 是首個公開基準,用於評估大型語言模型在Word、Excel和PowerPoint原生檔案格式上的理解能力。它包括兩個測試軌道:檔案保真度問答和領域問答。即使最先進的系統在預設推理模式下也僅達到約59.3%的準確率,提升思考深度效果有限,而升級產品層級能帶來適度改善。研究團隊已釋出資料集、評估工具和排行榜。

來源arXiv Computational Linguistics作者: Firoz Shaik, Mateus Pican\c{c}o Lima Gomes, Tanvir Aumi, Jingci Wang, Milos Milunovic, Filip Basara, Ivana Jovanovic, Vishwas Suryanarayanan, Neha Nandan Kenkare, Weiyao Xie, Zhipeng Han, Zheng Zhang, Waleed Shahid, Jay Rathi, Russell Scherer, Thong Q. Nguyen, Michael Bentley, Tamara Stankovic, Rasika Chakravarthy, Vishal Chowdhary

近日,一項名為“Office Comprehension Bench (OCB)”的新型基準測試正式釋出,旨在全面評估大型語言模型(LLM)在辦公軟體原生檔案格式上的理解能力。OCB是首個同時涵蓋Word (.docx)、Excel (.xlsx)和PowerPoint (.pptx)及其變體的公開基準,填補了該領域的空白。

OCB包含兩個核心測試軌道。檔案保真度問答(File Fidelity Q&A)專注於檢測模型對辦公文件中表格、圖表、嵌入式圖片、公式以及頁首、演講者備註、命名區域等特定元素的結構和視覺感知能力。而領域問答(Domain Q&A)則更進一步,要求模型基於真實的行業文件進行專家級推理,覆蓋12個專業領域,問題涉及跨文件的多步分析與綜合。每個參考答案被分解為原子化的可二分判斷宣告,並由多個LLM評委獨立評分。

實驗結果顯示,即便是當前最強大的前沿系統,在其預設推理模式下,領域問答的準確率也僅為約59.3%。研究發現,在同一產品層級內增加思考深度對效能提升微乎其微,而升級至更高產品層級則能帶來適度的改進。這表明當前LLM在處理複雜辦公文件推理時仍存在顯著侷限。

為促進該領域的進一步研究,研究團隊已公開了完整的OCB資料集、評估工具、裁判提示詞以及一個公開排行榜。這些資源將幫助開發者量化並提升其模型在辦公場景下的實用能力,推動AI在生產力工具中的實際應用。該論文由Firoz Shaik等20位作者共同完成,於2026年5月29日提交至arXiv,涉及計算與語言、人工智慧、計算機與社會、資訊檢索、機器學習等多個學科領域。