DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時
DeepSeek研究員陳德里使用自研的DeliAutoResearch技能,與DeepSeek-V4-Pro和GPT-Image2合作,在6天內完成了一篇46頁的論文。論文提出了L1-L5自主研究智慧體分類體系,分析了四種架構模式和17個主流系統,並指出了六大開放問題。陳德里表示,人類僅需投入不到2小時的“CPU時間”,其餘工作由AI Agent完成。
文章情報
要點
- 陳德里開發自動研究技能DeliAutoResearch,論文99%由Agent撰寫。
- 論文提出L1-L5自主研究智慧體分類,類比自動駕駛SAE級別。
- 分析四種架構模式:單智慧體迴圈、多智慧體協作、分層排程、工具增強執行。
- 指出六大開放問題,包括認知迴圈陷阱、上下文限制、創新評估等。
為什麼重要
這條新聞值得關注,因為陳德里開發自動研究技能DeliAutoResearch,論文99%由Agent撰寫。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時 – 量子位
DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時
夢晨 2026-05-27 09:14:35
來源:量子位
“1%是我寫的,99%是Agent寫的。”
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
DeepSeek研究員陳德里,在個人部落格更新一篇研究綜述論文。
1%是我寫的,99%是Agent寫的。
用的是他自己的技能DeliAutoResearch,DeepSeek-V4-Pro研究和寫作,GPT-Image2畫圖。
論文共迭代6次(V1:4 次,V2:1 次,V3:1 次),總耗時6天,進行了約108輪Agent呼叫,消耗64.8萬token,寫了2234行LaTeX程式碼。
103個參考文獻,全部已驗證。論文現為46頁,538KB,含7個圖表+4個表格。
論文講的是自動研究智慧體L1–L5自主度分類體系的事:
透過分析四大架構模式,給出了可擴充套件性、成本、可靠性等維度對比。
並基於六維特徵矩陣分析了17個主流系統。
還提出了六大開放問題與對應研究方向。
陳德里認為,Code Agent導致電腦科學論文數量瘋狂膨脹,同樣的工作以前至少需要一個月才能完成。
但現在,他的碳基大腦處理這個問題的“總CPU時間”不到2小時。
他也寫了一句免責宣告:觀點僅為個人所有,不代表任何組織。
DeepSeek研究員與V4 Pro合寫的論文
基礎模型推動AI工具從研究輔助轉向自主研究,但領域缺乏統一框架、術語混亂、評估標準不一。
陳德里和它的AI合著者們提出了一個L1-L5的自主分級體系。
類比自動駕駛的SAE級別,把混亂的AI Agent領域理出了清晰的譜系。
L1是最基礎的自動補全,也就是最早的GitHub Copilot,預測你下一行程式碼。
L2是任務執行,代表是ChatGPT/Claude聊天機器人加上各種工具,能分解任務,但每一步都得人類批准。
L3是多步驟執行,目前最主流的Claude Code、Cursor Agent這種,能自主執行10到100步,只在關鍵點請求人類稽核
L4是受限領域內全自主執行,人類僅提供研究目標、評估最終成果,智慧體可完成多步實驗、程式碼、論文撰寫,但無法自主選擇研究問題。
L5級是完全自定研究議程,智慧體可自主選題、分配資源、長期積累知識、跨領域持續研究,是當前未實現的理想狀態,核心瓶頸為持續知識積累、可靠自我評估、架構規模化。
目前行業前沿初步達到L4,L5還只是個設想。
論文認為真正的瓶頸不是模型能力,而是「持續知識積累」和「可靠自我評估」。
除了按自主性級別,論文中又按智慧體架構總結了4種主流模式。
單智慧體迴圈
早期研究ReAct、Reflexion、LATS、思維樹等為代表。單模型迭代推理-行動-觀察,簡單高效,但複雜任務能力有限。
多智慧體協作
早期智慧體框架CAMEL、AutoGen、MetaGPT等為代表,特點是分工協作、多視角糾錯,成本較高,溝通易混亂。
分層排程
Claude Code和Devin等為代表,分層規劃、任務分解,適合長時程複雜研究。
工具增強執行
SWE-Agent等為代表,核心工具有程式碼執行環境、網頁瀏覽、API / 資料庫、多模態工具,Agent-Computer Interface(ACI) 的設計直接影響效能。
論文四種模式不是誰優誰劣,而是針對特定的任務要選擇合適的工具。
如簡單短任務選單智慧體迴圈(低成本、易實現);需要多視角糾錯、複雜分工選多智慧體協作;長時程、高複雜度研究選分層排程(強規劃、易監管);需要對接外部工具、環境互動選工具增強執行(能力邊界由工具決定)。
但實際應用中,其實多采用混合架構,結合多種模式優勢。
有了研究框架,再橫向對比當前常見的17個自主研究智慧體,揭示領域已從早期通用脆弱原型,演進為L4級受限域專用系統。程式碼智慧體成熟度最高,科學智慧體開始產出可驗證新發現。
而邁向L5完全自主的核心瓶頸在於持續知識積累、可靠自我評估、架構規模化。
最後,論文中還提出了,六大開放問題:
認知迴圈陷阱:智慧體陷入重複無效策略,無自我終止能力。
上下文限制:固定視窗(4K-1M token)無法支撐長時程研究。
創新性評估:無自動化方法衡量研究原創性與價值。
可復現性:模型隨機性、提示敏感性導致結果無法復現。
安全倫理:雙用途風險、自主提升風險、學術誠信風險。
成本問題:單任務成本 50,高成本加劇科研不平等。
One More THing
陳德里自述,高強度工作導致的精力不足,讓他擱置了很多事。
部落格、寫作,現在是Agent讓他有機會把這些重新撿了起來。
除了這篇研究綜述,還更新了個人主頁。
有了Agent,這些任務完成起來效率超高。
人類的角色,從“執行者”變成了“發起者”。
參考連結:[1]
https://x.com/victor207755822/status/2059269472297623843?s=20
版權所有,未經授權不得以任何形式轉載及使用,違者必究。
夢晨
中國500萬醫生的新AI:頂刊獨家聯手,卷的就是證據源2026-05-16
阿里 AI 應用新進展:悟空開始逐步規模化放量2026-05-14
田淵棟AI創業估值315億,老黃蘇媽都投了,姚班施天麟也是合夥人2026-05-14
林俊暘果然創業了!一個“Qwen負責人”頭銜值135億2026-05-13
熱門文章
菲爾茲獎得主都看懵了:OpenAI非數學模型首次自主突破80年未解數學難題
2026-05-21
智象未來超兩千億引數影像大模型HiDream-O1-Image-Pro釋出,融資持續提速
2026-05-20
太初元碁洪源:異構計算能力將成為未來AI算力基礎設施的重要方向|AIGC2026
2026-05-20
騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程式「騰訊Hy翻譯」
2026-05-21
Artificial Analysis放榜:千問3.7問鼎國產模型冠軍,全球前五
2026-05-21
掃碼關注量子位
量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1