AI News HubLIVE
站内改写

DeepSeekの陳德里氏が自動研究スキルを開発、論文作成における人間の作業はわずか2時間

DeepSeekの研究者である陳德里氏は、自身が開発したDeliAutoResearchスキルを用いて、DeepSeek-V4-ProとGPT-Image2と協力し、わずか6日間で46ページの論文を完成させた。この論文は、研究エージェントの自律性をL1~L5に分類する枠組みを提案し、4つのアーキテクチャパターンと17の主流システムを分析、6つの未解決問題を指摘している。陳氏によると、人間の「CPU時間」はわずか2時間未満であり、残りはAIエージェントが担当した。

記事インテリジェンス

エンジニア上級

要点

  • 陳德里氏のDeliAutoResearchスキルにより、論文の99%がAIエージェントによって執筆された。
  • 論文は、自動運転のSAEレベルに類似した研究エージェントの自律性分類(L1~L5)を提案。
  • 4つのアーキテクチャパターン(シングルエージェントループ、マルチエージェント協調、階層的スケジューリング、ツール拡張実行)を分析。
  • 認知ループトラップ、コンテキスト制限、革新性評価などの6つの未解決問題を指摘。

重要な理由

このニュースが重要なのは、陳德里氏のDeliAutoResearchスキルにより、論文の99%がAIエージェントによって執筆されたためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

DeepSeekの研究者である陳德里氏は、自身が開発したDeliAutoResearchスキルを使用して、研究プロセスを劇的に効率化した事例を示した。DeepSeek-V4-Proを研究と執筆に、GPT-Image2を図の生成に活用し、わずか6日間で46ページのサーベイ論文を完成させた。論文は6回のイテレーション(V1:4回、V2:1回、V3:1回)を経て、約108回のエージェント呼び出し、64万8000トークンの処理、2234行のLaTeXコードが生成された。103件の参考文献はすべて検証済みで、7つの図表と4つの表が含まれている。

陳氏によると、論文の約1%だけが人間によって直接書かれ、残りの99%はAIエージェントによって生成された。人間の労力は「CPU時間」でわずか2時間未満であり、以前なら少なくとも1か月かかっていた作業が大幅に短縮された。この論文は、自律研究エージェントの分野における混乱を整理するため、自動運転のSAEレベルに着想を得たL1~L5の自律性分類体系を提案している。

分類はL1(基本的な自動補完、初期のGitHub Copilotなど)からL5(完全に自律的な研究アジェンダ設定、現時点では未達成)まで及ぶ。論文によると、現在の最先端はL4であり、エージェントは限られた領域内で実験や論文執筆を実行できるが、研究課題を自律的に選択することはできない。真のボトルネックはモデル能力ではなく、「継続的な知識蓄積」と「信頼性の高い自己評価」であると論じている。

自律性レベルに加えて、論文は4つの主要なアーキテクチャパターンを特定している:シングルエージェントループ(ReAct、Reflexionなど)、マルチエージェント協調(CAMEL、AutoGenなど)、階層的スケジューリング(Claude Code、Devinなど)、ツール拡張実行(SWE-Agentなど)。各パターンには長所があり、異なるタスクに適している。その後、6次元の特徴行列を用いて17の既存システムを評価し、この分野が初期の脆弱なプロトタイプからL4の特殊化システムへと進化し、コードエージェントが最も成熟していることを明らかにした。

最後に、論文は6つの未解決問題を挙げている:認知ループトラップ、コンテキスト制限、革新性評価、再現性、安全性と倫理、コスト問題。陳氏は個人的なメモとして、AIエージェントのおかげで燃え尽き症候群のために中断していたブログや創作活動を再開できたと述べ、人間の役割が実行者から開始者へと移行していることを強調している。