2026-05-25 11:29 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Claude 通過率不到4%，SaaS-Bench撕碎了Computer-Use的「全自動辦公」幻想

UniPat AI 發佈 SaaS-Bench 評測，Claude 等主流大模型在真實辦公任務中完全通過率最高僅 3.8%，AI 全自動辦公遠未落地。

來源量子位作者: 量子位的朋友们

Claude 通過率不到4%，SaaS-Bench撕碎了Computer-Use的「全自動辦公」幻想 – 量子位

量子位的朋友們 2026-05-25 11:29:41

來源：量子位

UniPat AI 發佈 SaaS-Bench 評測，Claude 等主流大模型在真實辦公任務中完全通過率最高僅 3.8%，AI 全自動辦公遠未落地。

想象一個真實的工作日：項目經理要更新項目狀態，財務人員要整理客户賬單，醫療管理員要核對預約和保險信息。

這些並不是高級專家任務，很多時候，一個認真一點的實習生照着流程也能完成。

但對今天的 AI Agent 來説，這些“日常工作”卻遠沒有看起來那麼簡單。

它需要理解業務目標、跨應用查找信息、保持狀態一致，還要在幾十甚至上百步操作後，把所有細節正確落到系統裏。

這也是 SaaS-Bench 想揭示的現實：Agent 不只是要會點按鈕、填表格，更要能完成真實辦公室裏的長流程工作。

如果連實習生日常能做的任務都無法穩定完成，那我們就需要重新審視：距離真正可用的 Agent，還有多遠。

Computer-Use Agent的「奇點」沒有來，現實的冷水先潑下來了。

過去一年，各家GUI Agent爭先恐後地宣稱能替人類幹活。Benchmark成績一路飆升，投資人興奮，媒體狂歡，「全自動辦公」似乎就在眼前。

但UniPat AI剛剛用一組數據證明：這一切，都建立在沙子上！

Leaderboard

23個真系統，106個任務，一場殘酷的實戰考試

現有的Agent評測，説白了就是：仿真環境、簡單任務、最多幾十步搞定。

跟真實工作完全是兩回事。

真實辦公長什麼樣？一個醫療管理員寫完SOAP病歷→填病例上報→生成正式文檔。一個財務收到報銷申請→審批→打款→記賬。跨好幾個系統，步驟動輒幾百步。

SaaS-Bench的思路很暴力：直接把真系統搬進Docker，讓Agent在真實的前後端邏輯、數據庫狀態和業務約束中幹活。

SaaS-Bench 任務 —— 真實工作場景任務

SaaS-Bench 精心挑選了 23 個開源 SaaS (Software-as-a-Service) 系統，全部通過 Docker 本地部署，保留了完整的前後端邏輯、數據庫狀態和業務約束。覆蓋六個專業領域：

軟件研發：OpenProject、Baserow、Code-Server、Metabase

業務財務：Twenty CRM、BigCapital、HRMS、Pretix

醫療管理：OpenEMR、OpnForm、OnlyOffice

團隊協作：SiYuan、Roundcube、Mattermost、ownCloud

農業供應鏈：FarmOS、Grocy、Recipya、E-Label

獨立媒體：PhotoPrism、MediaCMS、BookLore、Watcharr

更重要的是，這些系統不是“空殼網頁”：每個軟件裏都填充了真實業務的數據，包括用户、項目、訂單、文件等實體記錄。Agent 進入的不是一個空白的測試頁面，而是一個有歷史數據、有干擾項、有跨系統關聯的真實工作環境。

任務模態、領域、app 三層分佈

106 個任務中，93.4% 跨越至少兩個應用，三應用任務佔了一半（53 個）。純文本任務 74 個，涉及多模態理解的 32 個。以 Claude Opus 4.6 的執行軌跡估算，97.3% 的文本任務操作步數超過 100 步，最長軌跡達 300+ 步。

任務難度分析 ——大多數任務是 Cross-App + Long-Horizon 的

這些任務是怎麼來的？如何評估 Agent 的操作能力？

SaaS-Bench 採用“LLM 生成 + 專家把關”的方式完成任務構建：

先由 LLM 圍繞六大專業領域和具體職業角色生成任務，明確任務目標、跨應用依賴和驗證要求，並通過多輪修改減少歧義和漏洞。

隨後，專家會對任務進行人工篩選和真實執行檢查，重點判斷任務是否專業、自然、可完成、可驗證。對於堆砌步驟、邏輯混亂或驗證不準的任務，會被修改或剔除，最終確保每個任務都能真實運行，並能被驗證器準確評估。

任務構建流程圖 —— 四個階段保證任務質量

SaaS-Bench 允許 Agent 使用 Browser-Use 在 SaaS 環境中操作計算機，並給出了兩個指標：

Resolved Score（完全通過分數，嚴苛）：全部檢查點通過才算 1，否則為 0

Checkpoint Score（檢查點分數，寬鬆）：按權重計算部分檢查點完成比例

Agent → Browser-Use → 執行 → 驗證 → 打分總覽圖

後面的結果會表明——這兩個數字之間的巨大落差，恰好暴露了 Agent 最核心的問題。

榜單出爐：全軍覆沒

來看這組數字 ——

主要結果 (DeepSeek V4 、M2.7 和 GLM5.1 為單模態模型，僅測評 Text-Only Domain)

最強的Claude Opus 4.7，檢查點分數43.9%，端到端完全通過分數只有3.8%——106個任務，只完整通過了4個。Kimi K2.5和Gemini 3.1 Pro？完全通過分數為零。一個任務都沒走完。

這組數字的含義極其殘酷：Agent可以推進工作的部分中間環節，但幾乎沒有能力將一個完整的長程工作流走完。

多跑幾次能救嗎？

四個模型的 Pass@k 結果

把每個模型在同一任務上獨立跑3次，對一次就算通過。pass@3相比pass@1整體提升約8個百分點。

Sonnet 4.6在多模態任務上從33.9%跳到52.1%（+18.2pp）——它並非完全不行，而是執行極不穩定。

這不是環境隨機性。每次運行的初始狀態完全相同。這是路徑依賴——模型在某個決策點的微小差異，導致後續軌跡完全分叉。

多跑幾次有幫助，但遠不是解決方案。

越複雜，分越低

三個結構維度全部單調遞減：

分數 vs 應用數 / 分數 vs 步長 / 分數 vs 檢查點個數

跨應用數 1→4：平均分從53%降至20%

操作步長增加：任務軌跡越長，得分顯著越低

檢查點個數 ≤6 vs ≥18：平均分從65%降至27%

「跨應用+軌跡長+細粒度驗證」的任務得分最低——這恰恰是真實工作流最常見的形態。

四種結構性失敗：Agent到底在哪翻車

SaaS-Bench真正的價值不在於分數本身，而在於暴露了Agent在真實環境中的四種致命缺陷。

失敗1：任務越長，越做不對

即使每個檢查點通過率高達95%，12個檢查點的全部通過概率也只有54%。而SaaS-Bench的平均檢查點數遠超12。

所有模型都呈現同一個模式：通過率隨任務推進呈下降趨勢，沒有一個模型能在後半段維持住前期表現。

模型隨着任務執行，做對的越來越少

這是一條不可逆的下降曲線。越往後走，越不可能走完。

失敗2：一步錯，步步錯

一個典型案例：任務要求創建一個公司客户「Arcturus Digital」。Agent同時填了聯繫人姓名和公司名，觸發了個人客户邏輯，實際創建的是個人客户Elena Vasquez。

此後的10張發票、付款記錄、賬户對賬，全部掛在錯誤實體下。核心檢查點權重僅3%，但導致了下游30%的權重損失。

上游任務導致下游失敗鏈示意圖

一個3%的錯誤節點，造成30%的分數損失。

失敗3：做完不檢查，自以為對了

Claude Opus 4.6在Step 124識別出日期錯誤（2026-03-19 vs. 2026-03-20），執行了修改，但沒有回到頁面複查，直接推進後續子任務。Step 210提交時，彙報寫的是「賬單日期2026-03-20，已修復」——頁面上實際日期仍是03-19。

Agent 在意圖層面認為成功，Verifier 在狀態層面發現失敗

Agent在意圖層面認為成功，驗證器在狀態層面發現失敗。兩者之間的斷層是系統性的。當前CUA框架缺少「嚴謹的反思閉環」 —— Agent是個不會檢查自己作業的學生。

失敗4：同一張考卷，成績忽高忽低

Claude Sonnet 4.6 在同一任務的三次獨立運行中，分數範圍從 0.00 到 0.68。這不是環境隨機性造成的 —— 每次運行的初始狀態完全相同 —— 而是路徑依賴：模型在某個決策點的微小差異，會導致後續執行軌跡完全分叉，這讓 Agent 在長程任務中的執行變成了賭博。

Claude Sonnet 4.6在同一任務的三次運行

這意味着什麼

SaaS-Bench撕碎了一個幻覺：Agent的Benchmark成績和真實工作能力之間，存在巨大的鴻溝。

四種結構性失敗模式——越往後越做不對、一步錯步步錯、做完不檢查、次次分數不一樣——指向同一個底層事實：當前Agent缺少對持久狀態的有效推理能力，缺少操作後的閉環驗證機制，缺少從錯誤中恢復的能力。

這些不是靠模型變大、或者加幾個工程模塊就能解決的問題。它們指向的是當前 Agent範式更深層的侷限：在長程任務中，模型缺少對全局狀態的持續感知，無法像人一樣”心裏有數”。這不只是技術債，而是當前範式的天花板。

Computer-Use Agent想要真正替人幹活？路還很遠。SaaS-Bench把地圖攤開了——接下來就看各家怎麼走了。

但這也引向了一個正在逐漸形成的共識：今天的 SaaS 是給人設計的——菜單、按鈕、表單，都在服務人類的眼睛和手指。但當 Agent 成為主要用户，這些界面就變成了累贅。未來不是讓 Agent學會操作人類的軟件，而是軟件本身要為 Agent 重新設計。SaaS-Bench 揭示的不只是 Agent 的短板，也是當前軟件形態的保質期——面向人類的 SaaS，可能都要為Agent 重做一遍。

Blog：https://unipat.ai/blog/SaaS-Bench

GitHub：https://github.com/UniPat-AI/SaaS-Bench

論文：https://arxiv.org/abs/2605.15777

UniPat AI

UniPat AI 致力於構建面向真實場景的 AI 訓練、評測與應用新範式，推動 Agent 能力在千行百業中規模化落地，創造切實的經濟與社會價值。

官網鏈接：https://unipat.ai

轉載來源：UniPat AI

本文為量子位獲授權轉載，觀點僅為原作者所有。

UniPat AI

量子位的朋友們

美團外賣前負責人入局餐飲具身模型，元節智能獲千萬級種子輪融資2026-05-23

Artificial Analysis放榜：千問3.7問鼎國產模型冠軍，全球前五2026-05-21

AI首次實現中國風光發電普查，北大、阿里達摩院研究登上《自然》2026-05-21

Token工廠智啓未來，2026智算基礎設施創新大會在杭州蕭山開幕2026-05-16

相關閲讀

科研AI出了個狠角色：開源30B小模型，硬剛Gemini和Claude

真正跑通“假設-證據-驗證”的循環

鄧思邈2026-03-09

UniPat AI UniScientist 科研AI