辦公理解基準測試
Office Comprehension Bench (OCB) 是首個公開基準,用於評估大型語言模型在Word、Excel和PowerPoint原生檔案格式上的理解能力。它包括兩個測試軌道:檔案保真度問答和領域問答。即使最先進的系統在預設推理模式下也僅達到約59.3%的準確率,提升思考深度效果有限,而升級產品層級能帶來適度改善。研究團隊已釋出資料集、評估工具和排行榜。
近日,一項名為“Office Comprehension Bench (OCB)”的新型基準測試正式釋出,旨在全面評估大型語言模型(LLM)在辦公軟體原生檔案格式上的理解能力。OCB是首個同時涵蓋Word (.docx)、Excel (.xlsx)和PowerPoint (.pptx)及其變體的公開基準,填補了該領域的空白。
OCB包含兩個核心測試軌道。檔案保真度問答(File Fidelity Q&A)專注於檢測模型對辦公文件中表格、圖表、嵌入式圖片、公式以及頁首、演講者備註、命名區域等特定元素的結構和視覺感知能力。而領域問答(Domain Q&A)則更進一步,要求模型基於真實的行業文件進行專家級推理,覆蓋12個專業領域,問題涉及跨文件的多步分析與綜合。每個參考答案被分解為原子化的可二分判斷宣告,並由多個LLM評委獨立評分。
實驗結果顯示,即便是當前最強大的前沿系統,在其預設推理模式下,領域問答的準確率也僅為約59.3%。研究發現,在同一產品層級內增加思考深度對效能提升微乎其微,而升級至更高產品層級則能帶來適度的改進。這表明當前LLM在處理複雜辦公文件推理時仍存在顯著侷限。
為促進該領域的進一步研究,研究團隊已公開了完整的OCB資料集、評估工具、裁判提示詞以及一個公開排行榜。這些資源將幫助開發者量化並提升其模型在辦公場景下的實用能力,推動AI在生產力工具中的實際應用。該論文由Firoz Shaik等20位作者共同完成,於2026年5月29日提交至arXiv,涉及計算與語言、人工智慧、計算機與社會、資訊檢索、機器學習等多個學科領域。