AI News HubLIVE
站内改写

[AINews] AIエンジニアワールズフェア — オートリサーチ、メモリ、ワールドモデル、トークンマキシング、エージェンティックコマース、垂直AIのスピーカー募集

本記事は、AIエンジニアワールズフェアの第2波スピーカー募集を発表し、オートリサーチ、メモリ、ワールドモデル、トークンマキシング、エージェンティックコマース、垂直AIなどの新しいトラックをカバーしています。また、Grok 4.3のリリース、DeepSeek V4 Proの進展、Codex vs Claude Codeの競争、エージェントインフラストラクチャ研究、ローカルLLMコミュニティでの議論など、最近のAI開発を要約しています。

記事インテリジェンス

エンジニア上級

要点

  • AIエンジニアワールズフェアの第2波スピーカー募集開始、新しいテーマトラックを追加。
  • Grok 4.3がリリースされたが、評価は賛否両論。DeepSeek V4 Proが信頼できるオープンウェイトのコーディングモデルとして登場。
  • Codexが製品速度でリード。エージェントインフラは検索、メモリ、永続的実行に焦点。
  • ローカルLLMコミュニティ活発:QwenモデルとPFlash高速化技術が注目される。

重要な理由

このニュースが重要なのは、AIエンジニアワールズフェアの第2波スピーカー募集開始、新しいテーマトラックを追加ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

本記事は、AI分野の最新動向を包括的に報道しています。主な内容は、AIエンジニアワールズフェアのスピーカー募集、最近のモデルリリース、エージェントインフラストラクチャ研究、そしてローカルLLMコミュニティの議論です。

AIエンジニアワールズフェア第2波スピーカー募集

主催者は、今年夏にモスコーン・ウェストで開催されるAIエンジニアワールズフェアの第2波スピーカー募集を発表しました。新しいテーマトラックには、オートリサーチ(再帰的自己改善ループ)、トークンマキシング(AI採用の効率的な拡大方法)、メモリ(ユーザー使用によるモデル改善)、ワールドモデル(空間知能と敵対的推論)、エージェンティックコマース(エージェントがデータやAPIに支払う方法)、垂直AI(法律、医療、GTM、金融)が含まれます。さらに、ロボティクス展示エリアやスタートアップピッチイベントも計画されています。

Grok 4.3のリリース

xAIはGrok 4.3をリリースし、コスト/パフォーマンスが大幅に向上しましたが、評価はまちまちです。インテリジェンスインデックススコアは53で、前世代から4ポイント上昇し、価格は約40-60%低下しました。最大の改善はGDPval-AAで321 Elo上昇の1500に達し、実世界のエージェントタスク性能が向上したことを示しています。しかし、非幻覚能力が8ポイント低下し、信頼性に懸念が残ります。コミュニティの反応は、「意味のある反復」と「依然としてトップのオープンソースモデルに劣る」に二分されています。

DeepSeek V4 Proの進展

DeepSeek V4 Proは、このバッチで最も信頼できるオープンウェイトのコーディング/エージェントモデルとして登場しました。Piコーディングエージェント内でテストされ、CodexやClaude Codeに匹敵すると評価されています。システムの詳細には、1Mコンテキスト、ハイブリッドCSA/HCAアテンション設計、KVキャッシュ10%削減、長コンテキストでの推論FLOPs約4倍削減が含まれます。オープンウェイトモデルはインテリジェンスインデックスで52-54をスコアリングし、トップのクローズドモデルとの差は縮まっていますが、最も困難なタスクに集中しています。また、DeepSeekは「Thinking-with-Visual-Primitives」フレームワークを発表し、空間トークンを推論プロセスに直接埋め込むことで空間推論能力を向上させています。

Codex vs Claude Codeの競争

OpenAIのCodexは製品速度とユーザーエクスペリエンスでリードしており、デバイスツールバー、CIステータスなどの新機能を追加し、話題の「ペット」システムも導入しました。コメントでは、GPT-5.5はより「スマート」でOpus 4.7はより良い「テイスト」を持つが、速度は遅いとされています。他のエージェントランタイム(Devin、Hermes、Flue)も急速に進化しており、競争の表面はモデルIQからエージェントフレームワーク設計に移行しています。

エージェントインフラストラクチャ研究

エージェントシステムの主なボトルネックはランタイム設計にあります。ReaLM-Retrieveは、推論モデルが推論中に検索を行う必要があることを示し、OCR-Memoryは長期軌跡を画像として保存します。LangChain/LangGraphはマルチユーザーとヒューマンインザループのための生産用プリミティブを推進しています。永続的実行は、スタック全体で第一級のランタイム機能になりつつあります。

研究ハイライト

再帰型マルチエージェント協調は、共有潜在再帰計算を通じて平均精度8.3%向上、1.2-2.4倍の高速化を達成しました。Meta FAIRの「自己改善型事前学習」は、事実性で36.2%、安全性で18.5%の向上を報告。マイクロソフトの合成長視野コンピュータ使用世界は、スケーラブルな経験データを提供します。

ローカルLLMコミュニティの動向

Qwenモデルシリーズが際立っています:Qwen 3.6 27Bはローカルゲーム開発コンテストでGemma 4 31Bと互角の性能を発揮。Qwen-Scopeはスパースオートエンコーダをリリースし、Qwen 3.5モデルに解釈可能性ツールを提供。PFlash技術は投機的プリフィルを利用してRTX 3090で10倍の速度向上を実現。ハードウェア面では、16x SparkクラスターやAMD Halo Boxなどのセットアップが注目されています。

その他の議論

GPT-5.5はサイバーセキュリティシミュレーションで人間の専門家が12時間かかるタスクを11分で完了し、コストは1.73ドルでした。OpenAIの研究者は、モデルが人間の研究者を超えて研究質問を生成できると述べています。ローカルLLMユーザーは、コードレビューやデータフィルタリングなどの実用的なアプリケーションを共有し、APIコストを大幅に節約しています。

全体として、AI分野は急速に発展しており、モデル能力、エージェントインフラ、ローカルデプロイのすべてが進歩しています。