AI News HubLIVE
站内改写

DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时

DeepSeek研究员陈德里使用自研的DeliAutoResearch技能,与DeepSeek-V4-Pro和GPT-Image2合作,在6天内完成了一篇46页的论文。论文提出了L1-L5自主研究智能体分类体系,分析了四种架构模式和17个主流系统,并指出了六大开放问题。陈德里表示,人类仅需投入不到2小时的“CPU时间”,其余工作由AI Agent完成。

文章情报

工程师进阶

要点

  • 陈德里开发自动研究技能DeliAutoResearch,论文99%由Agent撰写。
  • 论文提出L1-L5自主研究智能体分类,类比自动驾驶SAE级别。
  • 分析四种架构模式:单智能体循环、多智能体协作、分层调度、工具增强执行。
  • 指出六大开放问题,包括认知循环陷阱、上下文限制、创新评估等。

为什么重要

这条新闻值得关注,因为陈德里开发自动研究技能DeliAutoResearch,论文99%由Agent撰写。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时 – 量子位

DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时

梦晨 2026-05-27 09:14:35

来源:量子位

“1%是我写的,99%是Agent写的。”

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

DeepSeek研究员陈德里,在个人博客更新一篇研究综述论文。

1%是我写的,99%是Agent写的。

用的是他自己的技能DeliAutoResearch,DeepSeek-V4-Pro研究和写作,GPT-Image2画图。

论文共迭代6次(V1:4 次,V2:1 次,V3:1 次),总耗时6天,进行了约108轮Agent调用,消耗64.8万token,写了2234行LaTeX代码。

103个参考文献,全部已验证。论文现为46页,538KB,含7个图表+4个表格。

论文讲的是自动研究智能体L1–L5自主度分类体系的事:

通过分析四大架构模式,给出了可扩展性、成本、可靠性等维度对比。

并基于六维特征矩阵分析了17个主流系统。

还提出了六大开放问题与对应研究方向。

陈德里认为,Code Agent导致计算机科学论文数量疯狂膨胀,同样的工作以前至少需要一个月才能完成。

但现在,他的碳基大脑处理这个问题的“总CPU时间”不到2小时。

他也写了一句免责声明:观点仅为个人所有,不代表任何组织。

DeepSeek研究员与V4 Pro合写的论文

基础模型推动AI工具从研究辅助转向自主研究,但领域缺乏统一框架、术语混乱、评估标准不一。

陈德里和它的AI合著者们提出了一个L1-L5的自主分级体系。

类比自动驾驶的SAE级别,把混乱的AI Agent领域理出了清晰的谱系。

L1是最基础的自动补全,也就是最早的GitHub Copilot,预测你下一行代码。

L2是任务执行,代表是ChatGPT/Claude聊天机器人加上各种工具,能分解任务,但每一步都得人类批准。

L3是多步骤执行,目前最主流的Claude Code、Cursor Agent这种,能自主执行10到100步,只在关键点请求人类审核

L4是受限领域内全自主执行,人类仅提供研究目标、评估最终成果,智能体可完成多步实验、代码、论文撰写,但无法自主选择研究问题。

L5级是完全自定研究议程,智能体可自主选题、分配资源、长期积累知识、跨领域持续研究,是当前未实现的理想状态,核心瓶颈为持续知识积累、可靠自我评估、架构规模化。

目前行业前沿初步达到L4,L5还只是个设想。

论文认为真正的瓶颈不是模型能力,而是「持续知识积累」和「可靠自我评估」。

除了按自主性级别,论文中又按智能体架构总结了4种主流模式。

单智能体循环

早期研究ReAct、Reflexion、LATS、思维树等为代表。单模型迭代推理-行动-观察,简单高效,但复杂任务能力有限。

多智能体协作

早期智能体框架CAMEL、AutoGen、MetaGPT等为代表,特点是分工协作、多视角纠错,成本较高,沟通易混乱。

分层调度

Claude Code和Devin等为代表,分层规划、任务分解,适合长时程复杂研究。

工具增强执行

SWE-Agent等为代表,核心工具有代码执行环境、网页浏览、API / 数据库、多模态工具,Agent-Computer Interface(ACI) 的设计直接影响性能。

论文四种模式不是谁优谁劣,而是针对特定的任务要选择合适的工具。

如简单短任务选单智能体循环(低成本、易实现);需要多视角纠错、复杂分工选多智能体协作;长时程、高复杂度研究选分层调度(强规划、易监管);需要对接外部工具、环境交互选工具增强执行(能力边界由工具决定)。

但实际应用中,其实多采用混合架构,结合多种模式优势。

有了研究框架,再横向对比当前常见的17个自主研究智能体,揭示领域已从早期通用脆弱原型,演进为L4级受限域专用系统。代码智能体成熟度最高,科学智能体开始产出可验证新发现。

而迈向L5完全自主的核心瓶颈在于持续知识积累、可靠自我评估、架构规模化。

最后,论文中还提出了,六大开放问题:

认知循环陷阱:智能体陷入重复无效策略,无自我终止能力。

上下文限制:固定窗口(4K-1M token)无法支撑长时程研究。

创新性评估:无自动化方法衡量研究原创性与价值。

可复现性:模型随机性、提示敏感性导致结果无法复现。

安全伦理:双用途风险、自主提升风险、学术诚信风险。

成本问题:单任务成本 50,高成本加剧科研不平等。

One More THing

陈德里自述,高强度工作导致的精力不足,让他搁置了很多事。

博客、写作,现在是Agent让他有机会把这些重新捡了起来。

除了这篇研究综述,还更新了个人主页。

有了Agent,这些任务完成起来效率超高。

人类的角色,从“执行者”变成了“发起者”。

参考链接:[1]

https://x.com/victor207755822/status/2059269472297623843?s=20

版权所有,未经授权不得以任何形式转载及使用,违者必究。

梦晨

中国500万医生的新AI:顶刊独家联手,卷的就是证据源2026-05-16

阿里 AI 应用新进展:悟空开始逐步规模化放量2026-05-14

田渊栋AI创业估值315亿,老黄苏妈都投了,姚班施天麟也是合伙人2026-05-14

林俊旸果然创业了!一个“Qwen负责人”头衔值135亿2026-05-13

热门文章

菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题

2026-05-21

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

2026-05-20

太初元碁洪源:异构计算能力将成为未来AI算力基础设施的重要方向|AIGC2026

2026-05-20

腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」

2026-05-21

Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五

2026-05-21

扫码关注量子位

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1