AI News HubLIVE
站内改写

DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時

DeepSeek研究員陳德里使用自研的DeliAutoResearch技能,與DeepSeek-V4-Pro和GPT-Image2合作,在6天內完成了一篇46頁的論文。論文提出了L1-L5自主研究智慧體分類體系,分析了四種架構模式和17個主流系統,並指出了六大開放問題。陳德里表示,人類僅需投入不到2小時的“CPU時間”,其餘工作由AI Agent完成。

文章情報

工程師進階

要點

  • 陳德里開發自動研究技能DeliAutoResearch,論文99%由Agent撰寫。
  • 論文提出L1-L5自主研究智慧體分類,類比自動駕駛SAE級別。
  • 分析四種架構模式:單智慧體迴圈、多智慧體協作、分層排程、工具增強執行。
  • 指出六大開放問題,包括認知迴圈陷阱、上下文限制、創新評估等。

為什麼重要

這條新聞值得關注,因為陳德里開發自動研究技能DeliAutoResearch,論文99%由Agent撰寫。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時 – 量子位

DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時

夢晨 2026-05-27 09:14:35

來源:量子位

“1%是我寫的,99%是Agent寫的。”

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI

DeepSeek研究員陳德里,在個人部落格更新一篇研究綜述論文。

1%是我寫的,99%是Agent寫的。

用的是他自己的技能DeliAutoResearch,DeepSeek-V4-Pro研究和寫作,GPT-Image2畫圖。

論文共迭代6次(V1:4 次,V2:1 次,V3:1 次),總耗時6天,進行了約108輪Agent呼叫,消耗64.8萬token,寫了2234行LaTeX程式碼。

103個參考文獻,全部已驗證。論文現為46頁,538KB,含7個圖表+4個表格。

論文講的是自動研究智慧體L1–L5自主度分類體系的事:

透過分析四大架構模式,給出了可擴充套件性、成本、可靠性等維度對比。

並基於六維特徵矩陣分析了17個主流系統。

還提出了六大開放問題與對應研究方向。

陳德里認為,Code Agent導致電腦科學論文數量瘋狂膨脹,同樣的工作以前至少需要一個月才能完成。

但現在,他的碳基大腦處理這個問題的“總CPU時間”不到2小時。

他也寫了一句免責宣告:觀點僅為個人所有,不代表任何組織。

DeepSeek研究員與V4 Pro合寫的論文

基礎模型推動AI工具從研究輔助轉向自主研究,但領域缺乏統一框架、術語混亂、評估標準不一。

陳德里和它的AI合著者們提出了一個L1-L5的自主分級體系。

類比自動駕駛的SAE級別,把混亂的AI Agent領域理出了清晰的譜系。

L1是最基礎的自動補全,也就是最早的GitHub Copilot,預測你下一行程式碼。

L2是任務執行,代表是ChatGPT/Claude聊天機器人加上各種工具,能分解任務,但每一步都得人類批准。

L3是多步驟執行,目前最主流的Claude Code、Cursor Agent這種,能自主執行10到100步,只在關鍵點請求人類稽核

L4是受限領域內全自主執行,人類僅提供研究目標、評估最終成果,智慧體可完成多步實驗、程式碼、論文撰寫,但無法自主選擇研究問題。

L5級是完全自定研究議程,智慧體可自主選題、分配資源、長期積累知識、跨領域持續研究,是當前未實現的理想狀態,核心瓶頸為持續知識積累、可靠自我評估、架構規模化。

目前行業前沿初步達到L4,L5還只是個設想。

論文認為真正的瓶頸不是模型能力,而是「持續知識積累」和「可靠自我評估」。

除了按自主性級別,論文中又按智慧體架構總結了4種主流模式。

單智慧體迴圈

早期研究ReAct、Reflexion、LATS、思維樹等為代表。單模型迭代推理-行動-觀察,簡單高效,但複雜任務能力有限。

多智慧體協作

早期智慧體框架CAMEL、AutoGen、MetaGPT等為代表,特點是分工協作、多視角糾錯,成本較高,溝通易混亂。

分層排程

Claude Code和Devin等為代表,分層規劃、任務分解,適合長時程複雜研究。

工具增強執行

SWE-Agent等為代表,核心工具有程式碼執行環境、網頁瀏覽、API / 資料庫、多模態工具,Agent-Computer Interface(ACI) 的設計直接影響效能。

論文四種模式不是誰優誰劣,而是針對特定的任務要選擇合適的工具。

如簡單短任務選單智慧體迴圈(低成本、易實現);需要多視角糾錯、複雜分工選多智慧體協作;長時程、高複雜度研究選分層排程(強規劃、易監管);需要對接外部工具、環境互動選工具增強執行(能力邊界由工具決定)。

但實際應用中,其實多采用混合架構,結合多種模式優勢。

有了研究框架,再橫向對比當前常見的17個自主研究智慧體,揭示領域已從早期通用脆弱原型,演進為L4級受限域專用系統。程式碼智慧體成熟度最高,科學智慧體開始產出可驗證新發現。

而邁向L5完全自主的核心瓶頸在於持續知識積累、可靠自我評估、架構規模化。

最後,論文中還提出了,六大開放問題:

認知迴圈陷阱:智慧體陷入重複無效策略,無自我終止能力。

上下文限制:固定視窗(4K-1M token)無法支撐長時程研究。

創新性評估:無自動化方法衡量研究原創性與價值。

可復現性:模型隨機性、提示敏感性導致結果無法復現。

安全倫理:雙用途風險、自主提升風險、學術誠信風險。

成本問題:單任務成本 50,高成本加劇科研不平等。

One More THing

陳德里自述,高強度工作導致的精力不足,讓他擱置了很多事。

部落格、寫作,現在是Agent讓他有機會把這些重新撿了起來。

除了這篇研究綜述,還更新了個人主頁。

有了Agent,這些任務完成起來效率超高。

人類的角色,從“執行者”變成了“發起者”。

參考連結:[1]

https://x.com/victor207755822/status/2059269472297623843?s=20

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

夢晨

中國500萬醫生的新AI:頂刊獨家聯手,卷的就是證據源2026-05-16

阿里 AI 應用新進展:悟空開始逐步規模化放量2026-05-14

田淵棟AI創業估值315億,老黃蘇媽都投了,姚班施天麟也是合夥人2026-05-14

林俊暘果然創業了!一個“Qwen負責人”頭銜值135億2026-05-13

熱門文章

菲爾茲獎得主都看懵了:OpenAI非數學模型首次自主突破80年未解數學難題

2026-05-21

智象未來超兩千億引數影像大模型HiDream-O1-Image-Pro釋出,融資持續提速

2026-05-20

太初元碁洪源:異構計算能力將成為未來AI算力基礎設施的重要方向|AIGC2026

2026-05-20

騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程式「騰訊Hy翻譯」

2026-05-21

Artificial Analysis放榜:千問3.7問鼎國產模型冠軍,全球前五

2026-05-21

掃碼關注量子位

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1