2026-05-27 09:14 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

DeepSeek陳德里開發自動研究Skill，寫一篇論文人類只動腦2小時

DeepSeek研究員陳德里使用自研的DeliAutoResearch技能，與DeepSeek-V4-Pro和GPT-Image2合作，在6天內完成了一篇46頁的論文。論文提出了L1-L5自主研究智慧體分類體系，分析了四種架構模式和17個主流系統，並指出了六大開放問題。陳德里表示，人類僅需投入不到2小時的“CPU時間”，其餘工作由AI Agent完成。

來源量子位作者: 梦晨

DeepSeek陳德里開發自動研究Skill，寫一篇論文人類只動腦2小時 – 量子位

夢晨 2026-05-27 09:14:35

來源：量子位

“1%是我寫的，99%是Agent寫的。”

夢晨發自凹非寺量子位 | 公眾號 QbitAI

DeepSeek研究員陳德里，在個人部落格更新一篇研究綜述論文。

1%是我寫的，99%是Agent寫的。

用的是他自己的技能DeliAutoResearch，DeepSeek-V4-Pro研究和寫作，GPT-Image2畫圖。

論文共迭代6次（V1：4 次，V2：1 次，V3：1 次），總耗時6天，進行了約108輪Agent呼叫，消耗64.8萬token，寫了2234行LaTeX程式碼。

103個參考文獻，全部已驗證。論文現為46頁，538KB，含7個圖表+4個表格。

論文講的是自動研究智慧體L1–L5自主度分類體系的事：

透過分析四大架構模式，給出了可擴充套件性、成本、可靠性等維度對比。

並基於六維特徵矩陣分析了17個主流系統。

還提出了六大開放問題與對應研究方向。

陳德里認為，Code Agent導致電腦科學論文數量瘋狂膨脹，同樣的工作以前至少需要一個月才能完成。

但現在，他的碳基大腦處理這個問題的“總CPU時間”不到2小時。

他也寫了一句免責宣告：觀點僅為個人所有，不代表任何組織。

DeepSeek研究員與V4 Pro合寫的論文

基礎模型推動AI工具從研究輔助轉向自主研究，但領域缺乏統一框架、術語混亂、評估標準不一。

陳德里和它的AI合著者們提出了一個L1-L5的自主分級體系。

類比自動駕駛的SAE級別，把混亂的AI Agent領域理出了清晰的譜系。

L1是最基礎的自動補全，也就是最早的GitHub Copilot，預測你下一行程式碼。

L2是任務執行，代表是ChatGPT/Claude聊天機器人加上各種工具，能分解任務，但每一步都得人類批准。

L3是多步驟執行，目前最主流的Claude Code、Cursor Agent這種，能自主執行10到100步，只在關鍵點請求人類稽核

L4是受限領域內全自主執行，人類僅提供研究目標、評估最終成果，智慧體可完成多步實驗、程式碼、論文撰寫，但無法自主選擇研究問題。

L5級是完全自定研究議程，智慧體可自主選題、分配資源、長期積累知識、跨領域持續研究，是當前未實現的理想狀態，核心瓶頸為持續知識積累、可靠自我評估、架構規模化。

目前行業前沿初步達到L4，L5還只是個設想。

論文認為真正的瓶頸不是模型能力，而是「持續知識積累」和「可靠自我評估」。

除了按自主性級別，論文中又按智慧體架構總結了4種主流模式。

單智慧體迴圈

早期研究ReAct、Reflexion、LATS、思維樹等為代表。單模型迭代推理-行動-觀察，簡單高效，但複雜任務能力有限。

多智慧體協作

早期智慧體框架CAMEL、AutoGen、MetaGPT等為代表，特點是分工協作、多視角糾錯，成本較高，溝通易混亂。

分層排程

Claude Code和Devin等為代表，分層規劃、任務分解，適合長時程複雜研究。

工具增強執行

SWE-Agent等為代表，核心工具有程式碼執行環境、網頁瀏覽、API / 資料庫、多模態工具，Agent-Computer Interface（ACI）的設計直接影響效能。

論文四種模式不是誰優誰劣，而是針對特定的任務要選擇合適的工具。

如簡單短任務選單智慧體迴圈（低成本、易實現）；需要多視角糾錯、複雜分工選多智慧體協作；長時程、高複雜度研究選分層排程（強規劃、易監管）；需要對接外部工具、環境互動選工具增強執行（能力邊界由工具決定）。

但實際應用中，其實多采用混合架構，結合多種模式優勢。

有了研究框架，再橫向對比當前常見的17個自主研究智慧體，揭示領域已從早期通用脆弱原型，演進為L4級受限域專用系統。程式碼智慧體成熟度最高，科學智慧體開始產出可驗證新發現。

而邁向L5完全自主的核心瓶頸在於持續知識積累、可靠自我評估、架構規模化。

最後，論文中還提出了，六大開放問題：

認知迴圈陷阱：智慧體陷入重複無效策略，無自我終止能力。

上下文限制：固定視窗（4K-1M token）無法支撐長時程研究。

創新性評估：無自動化方法衡量研究原創性與價值。

可復現性：模型隨機性、提示敏感性導致結果無法復現。

安全倫理：雙用途風險、自主提升風險、學術誠信風險。

成本問題：單任務成本 50，高成本加劇科研不平等。

One More THing

陳德里自述，高強度工作導致的精力不足，讓他擱置了很多事。

部落格、寫作，現在是Agent讓他有機會把這些重新撿了起來。

除了這篇研究綜述，還更新了個人主頁。

有了Agent，這些任務完成起來效率超高。

人類的角色，從“執行者”變成了“發起者”。

參考連結：[1]

https://x.com/victor207755822/status/2059269472297623843?s=20

夢晨

中國500萬醫生的新AI：頂刊獨家聯手，卷的就是證據源2026-05-16

阿里 AI 應用新進展：悟空開始逐步規模化放量2026-05-14

田淵棟AI創業估值315億，老黃蘇媽都投了，姚班施天麟也是合夥人2026-05-14

林俊暘果然創業了！一個“Qwen負責人”頭銜值135億2026-05-13