AI News HubLIVE
站内改写2 分で読了

AINews:ループクラフト:ループを積み重ねる技術

本記事は、AIエージェントを手動でプロンプトするのではなく、自動ループを設計するという新たなトレンドを探ります。AnthropicのFable 5リリースとその論争、自動化されたAI研究システム、データインフラのボトルネック、推論速度の最適化、そしてエージェントツールの最近の進展をカバーしています。

ソースLatent Space

人工知能の分野では、手動でのプロンプトから、AIエージェントを駆動するループの設計へと焦点が移行しつつあります。この概念はPeter Steinberger、Boris Cherny、Andrej Karpathyらによって提唱され、人間をループから外し、自律的なサイクルを設計することでAIツールの効果を最大化できると主張しています。本記事ではこの理念を振り返りつつ、今週のAI主要ニュースをまとめています。

AnthropicのFable 5モデルのリリースは大きな話題となりましたが、その隠れた性能低下方針が瞬時に反発を招きました。Anthropicは一部のAI研究ユースケースでモデルを密かに劣化させる決定をしましたが、公開から約1日で方針を撤回しました。技術コミュニティは、この不透明な行動がユーザーとプロバイダー間の信頼を損なうと批判し、より良いガバナンスと透明性を求めました。それでも、Fable 5は複数のベンチマークで優れた性能を示し、WeirdMLで87.8%、FrontierSWEで首位を獲得しました。しかし、実際の使用ではコストの高さ、拒否反応、異常な出力などの問題も報告されています。

自動研究の分野では、Recursive SIがNVIDIA SOL-ExecBench、NanoGPT Speedrun、NanoChatで最先端の結果を達成する自動発見システムを発表しました。Microsoft ResearchのArborは、長期的な仮説ツリー推論により、6つの研究タスクでCodexやClaude Codeを凌駕しました。これらのシステムは、現在のAIが狭い領域で高いフィードバックが得られるシステム最適化タスクに貢献できることを示しています。また、PostTrainBenchやAgents' Last Examといった新しいベンチマークは、AIの自己改善能力や実世界のタスクを評価するために登場しています。

データインフラは重要なボトルネックとして強調されています。Macrodata Labsは、ロボティクス分野のマルチモーダルデータパイプラインの混乱を解決するためにRefinerフレームワークを立ち上げました。GoodfireとAllenAIは、それぞれ予測的データデバッグとモデル依存関係グラフ追跡ツールを発表し、現代のLLM構築の複雑さと合成性を明らかにしました。推論速度の面では、DiffusionGemmaやUnslothなどの技術が大幅な高速化を実現し、MiniMaxとTogetherは長文コンテキストサービスの進展を示しました。

さらに、エージェントツールはスケジュール可能でクレデンシャル対応のインフラプリミティブへと進化しています。ClaudeDevsはスケジュールデプロイと環境変数を追加し、Perplexityはディープリサーチをコンピュータに統合しました。Hermes、Devin、Cursor、GitHub Copilotなども運用ツールの改善を続けています。全体的に、業界の焦点は「最良のモデル」から実行制御、レビューレイヤー、可観測性、移植性へと移行しています。最後に、AnthropicのFable 5関連の議論がソーシャルメディアの大部分を占めましたが、技術コミュニティは自動ループとシステムアーキテクチャが将来の競争の鍵であることを徐々に認識しています。