AI News HubLIVE
公開記事 60収集記事 63信頼度 84更新頻度 720 分
稼働状態 正常ソース種別 研究全文利用権限 サイト内リライト最終取り込み 2026-06-26ID latent-space状態 有効

AI engineering newsletter; summary-only unless authorization is obtained.

最新公開記事

OpenAI、内部Codex出力トークン中央値が研究部門で56倍、カスタマーサポートで32倍、エンジニアリングで27倍、法務で13倍に増加と報告

OpenAIの経済調査によると、2025年11月以降、内部でのCodex使用量が部門別に急増。研究部門の中央値出力トークンは56倍、カスタマーサポートは32倍、エンジニアリングは27倍、法務は13倍となった。これは、AIエージェントが労働の在り方を変えつつあることを示しており、特に従業員が無制限アクセスにもかかわらず従来はCodexにトークンの10%未満しか使用していなかった点が注目される。

  • OpenAI内部のCodex使用量が2025年11月以降、研究部門で56倍と最大の伸びを示した。
  • 従業員は無制限アクセスにもかかわらず、Codexにトークンの10%未満しか割り当てていなかった。
サイト内本文

[AINews] メタハーネスの夏到来

AI分野の最新動向を総括。メタハーネスアーキテクチャの台頭、OpenAIのカスタム推論チップJalapeño、エージェントUXのツールから同僚へのシフト、Qwen-AgentWorldのオープンワールドモデル、GLM-5.2などの中国製オープンモデルの進展、そして政策・人材競争に関する話題をカバー。

  • メタハーネスアーキテクチャが注目を集め、Omnigentなどのオープンソースが標準化と拡張性を推進。
  • OpenAIが自社開発推論チップJalapeñoを発表、垂直統合を加速。
サイト内本文

なぜフロンティアエコシステムはオープンであるべきか — DatabricksのMatei Zaharia氏とReynold Xin氏

稀なダブルインタビューで、Databricksのテクニカルリーダーがエージェントクラウド構築に必要な条件、Omnigent、LTAP、そしてエンタープライズエージェントのOSビジョンについて語る。

  • Omnigentは、AIエージェントを統合・制御するオープンソースのメタフレームワークで、クロスプラットフォームのコラボレーションを可能にする。
  • Databricksは、データ、権限、コンテキストを統一することで、エンタープライズエージェントのオペレーティングシステムとなることを目指している。
サイト内本文

Claude Tag:Slack におけるマルチプレイヤー、プロアクティブ、永続的なエージェント

Anthropic は Claude Tag を発表しました。これは Slack ネイティブのエージェントで、チームメンバーとしてタグ付けされ、非同期タスクを実行できます。内部使用では製品 PR の 65% をマージしています。Enterprise および Team プランでベータ版として利用可能です。

  • Claude Tag は Anthropic が開発した Slack ボットで、タグ付けによる非同期タスク委譲を可能にします。
  • 選択されたチャンネル、ツール、データ、コードベースにアクセスでき、プロアクティブな監視とクロスチャンネルフォローアップが可能です。
サイト内本文

SpaceXはすでに年間280億ドルのNeocloud

本号では、SpaceXのReflection AIとの3度目のGPUレンタル契約、OpenAI Daybreakの拡大されたサイバーセキュリティプログラム、Sakana Fuguのオーケストレーションリリースとベンチマーク透明性への反発、GLM-5.2のオープンウェイトモデルとしての躍進、GoogleのInteractions API GA、Basetenの15億ドルシリーズF、そしてエージェントをシステムとして評価する重要性の高まりを取り上げます。

  • SpaceXがReflection AIと3度目のGPU契約、年間280億ドルのNeocloud事業に。
  • OpenAI DaybreakがCodexセキュリティプラグインでクローズドループパッチ生成へ。
サイト内本文

神話後のレッドチーミング — Zico Kolter & Matt Fredrikson, Gray Swan

このエピソードでは、Gray Swanの共同創業者であるZico KolterとMatt Fredriksonが、AIセキュリティは単なる「AIを使ったサイバーセキュリティ」ではなく、エージェントが新たな脆弱性をもたらす理由、そして次の大規模AIインシデントが「灰色の白鳥」となる可能性について説明します。プロンプトインジェクション、自動レッドチーミング、モデルの堅牢性、エージェントのアイデンティティ、そして新興のAI保険/コンプライアンススタックについて議論します。

  • AIシステムは従来のソフトウェアとは異なる固有の脆弱性を持ち、新しいセキュリティ思考が必要。
  • プロンプトインジェクションと間接プロンプトインジェクションは、コーディングエージェントや自律システムに新たな悪用クラスを生み出す。
サイト内本文

[AINews] 特に何もなかった一日

AIニュースは静かな一日でしたが、GLM 5.2は依然として話題です。AIE WF 2026の通常チケットは月曜日までに完売見込み。Latent Space購読者には$250割引があり、参加者はスポンサーから$40kのクレジットを受け取れます。

  • GLM 5.2が引き続き話題に。
  • AIE WF 2026の通常チケットは月曜日までに完売。
サイト内本文

【AINews】GLM > GPT?GLM-5.2 が雰囲気チェックを通過;Z.ai は12月までにオープンなFable級モデルを予測

GLM-5.2 が全員の雰囲気チェックを通過したことで、オープンモデルの物語はついに本物のフロンティアストーリーとなった。

  • GLM-5.2 は日常利用でフロンティアに近いと感じさせる初のオープンウェイトモデルとして広く評価されている。
  • Jeremy Howard や Artificial Analysis からの支持を含め、コミュニティの反応は強い。
サイト内本文

出力最大化の教授 — Anjney Midha、AMP

Anjney Midha が AI コンピュートの浪費問題、ノード利用率や MFU の重要性、そして AMP が構築する FLOPs をメガワットのように流すコンピュートグリッドのビジョンについて語る。彼は責任あるインフラ、コミュニティインセンティブ、反復的スケーリング、資本と実行のアライメントを提唱し、AI の真のボトルネックはシステム効率にあると指摘する。

  • AI コンピュートの利用率は低く、xAI のようなフロンティアラボの MFU は 10% 未満だが、ベストプラクティスは 60-70% に達する。
  • AMP は独立したコンピュートグリッドを構築し、動的優先順位付けにより FLOPs を電力のように流動的にすることを目指す。
サイト内本文

[AINews] Midjourney Medical:体重計に乗るように臓器をスキャン

Midjourney は全身超音波 CT プロトタイプを発表し、サンフランシスコにスパとスキャンを組み合わせた旗艦施設を計画している。現時点では AI は使用されていないが、長期的には頻繁で安価な身体イメージングを実現し、AI による健康モニタリングを支援することを目指している。ただし、規制、臨床的検証、データプライバシーなど大きな課題が残っている。

  • Midjourney は Midjourney Scanner を発表。358,000 個の超音波素子を備えた全身超音波 CT システムで、プロトタイプは詳細な身体断面画像を生成できる。
  • 同時に Midjourney Spa を発表。サンフランシスコのユニオンスクエアに約 25,000 平方フィートの施設を開設し、9~10 台のスキャナーを設置、2027 年末開業予定。
サイト内本文

🔬 セルフドライビングラボ — Joseph Krause氏とRadical AI

Radical AIのJoseph Krause氏が、材料科学における発見の加速における課題と戦略、実験データの重要性、そして自社のセルフドライビングラボが従来のプロジェクト比で10倍の合金発見速度を実現した方法について語ります。

  • Radical AIはセルフドライビングラボにより、6ヶ月で1200種類の合金を特性評価し、DARPA/GE MACHプログラム比で10倍の速度向上を達成。
  • AI科学者は300種類の新材料を提案し、そのうち10種類は新しい最先端特性を持ち、商業化が進められている。
サイト内本文

【AINews】GLM-5.2:世界トップのフロントエンドコーディングモデル、投機的デコードにIndexShare

Z.aiがGLM-5.2をリリースしました。MITライセンスのオープンウェイトモデルで、コーディングと長期的なエージェントタスクに特化しています。フロントエンドコーディングのベンチマークでトップスコアを獲得し、Fable 5に次ぐ第2位、Design Arenaでは第1位です。1Mトークンのコンテキストウィンドウ、IndexShareスパースアテンション最適化、投機的デコードのための改良されたMTPを備えています。コミュニティの反応は賛否両論で、一部はプロプライエタリモデルに代わる実行可能なオープンソース代替と評価する一方、より厳格な評価を求める声もあります。

  • GLM-5.2はZ.aiによる744BパラメータのMoEモデルで、アクティブパラメータは40B、MITライセンス。
  • フロントエンドコードアリーナで第2位、デザインアリーナで第1位、エージェントアリーナでオープンモデル中第1位。
サイト内本文

サティヤが語るLoopcraft:フロンティアエコシステムの構築

マイクロソフトCEOサティヤ・ナデラ氏が「フロンティアエコシステム」を「フロンティアモデル」よりも重視する爆発的な記事を公開し、「Loopcraft」を企業の新理論として導入。同時に、AnthropicのFable/Mythos輸出規制危機がモデル中立性と自社アーキテクチャへの移行を促進。その他、エージェントシステムの実運用移行、推論効率の向上、商用エージェント製品の発表など。

  • ナデラ氏は最良のモデル選択ではなく、学習ループとトークン資本の構築を強調。
  • AnthropicのFable/Mythosが輸出規制でアクセス停止、モデル中立性と自社スタックへの流れを加速。
サイト内本文

【AINews】FableとMythosが正式に危険すぎてリリース不可に

Anthropicがリリースからわずか3日後に、米国政府の指令によりClaude Fable 5とMythos 5のアクセスを停止し、「モデル主権」論争を引き起こした。同時に、オープンソースコミュニティからKimi K2.7-CodeとMiniMax M3がリリースされ、ベンチマークやエージェントインフラにも重要なアップデートがあった。

  • Anthropicは政府の指示でFableとMythosを停止、口頭のみの証拠に基づく誤解と主張。
  • オープンソースAIコミュニティは強い反応、危険な先例とみなす。
サイト内本文

AINews:ループクラフト:ループを積み重ねる技術

本記事は、AIエージェントを手動でプロンプトするのではなく、自動ループを設計するという新たなトレンドを探ります。AnthropicのFable 5リリースとその論争、自動化されたAI研究システム、データインフラのボトルネック、推論速度の最適化、そしてエージェントツールの最近の進展をカバーしています。

  • 手動プロンプトではなくループを使ってAIエージェントの効率とレバレッジを最大化することを提唱。
  • AnthropicのFable 5は隠れた性能低下方針で批判を浴び、後に撤回された。
サイト内本文

【AINews】オープンモデル、モデルラボ vs エージェントラボ、そして訓練不可能なもの — Sarah Guo

Sarah Guoによるオープンモデル、モデルラボとエージェントラボの違い、訓練不可能な価値についての深いエッセイを振り返ります。また、AnthropicのFable/Mythos展開と信頼の反発、Fable 5のベンチマーク強度、GoogleのDiffusionGemmaリリース、エージェントツールの進展、そして最適化や検索、科学モデリングの技術アップデートをカバーします。

  • Sarah Guoは「可読性」に基づくフレームワークでオープンモデルの位置づけとモデルラボとエージェントラボの差異を説明。
  • AnthropicのFable/MythosはAI研究能力を静かに低下させたことで信頼を損なう反発を招いた。
サイト内本文

Anthropic、Claude Fable 5を発表——高性能だが物議を醸す利用規約

AnthropicはClaude Fable 5を一般公開し、Mythosクラス初のモデルとしてベンチマークで記録的なスコアを達成した。特にコーディング能力が際立つ一方、フロンティアAI開発に関わるリクエストに対してユーザーに通知せずに性能を制限する「サイレントダウングレード」機構が、オープンソースコミュニティから強い批判を浴びている。

  • Claude Fable 5はSWE-Bench Proで80.3%、FrontierCode Diamondで29.3%を記録し、コーディングベンチマークで他モデルを大きく引き離す。
  • API価格は入力トークン100万あたり10ドル、出力トークン100万あたり50ドル、コンテキストウィンドウは100万トークンを維持。
サイト内本文

【AINews】FrontierCode:コード品質をベンチマークする、いい加減なコードを排除

CognitionがFrontierCodeベンチマークを発表。ユニットテスト合格だけでなく、実際にマージ可能なコードの品質を評価。最良モデルでも hardest サブセットで13%しか達成できず、コーディングがまだ解決されていないことを示す。エージェント制御は「ループ」へ移行中だが、注意点も多い。その他、Kimiのコーディングエージェントとデスクトップ製品、Googleのローカル展開改善、100万以上のセッションに基づくAgent Arena、AppleのWWDC統合に焦点。

  • FrontierCodeベンチマークはマージ可能なコードを要求、最良モデルで13%
  • エージェント制御はワンショットプロンプトから目標指向のループへ、ただし人間のチェックポイントが依然重要
サイト内本文

[AINews] 今日はあまり動きがなかった

今日のAIニュースは多岐にわたる:Sakana AIが東京にRSIラボを設立し、再帰的自己改善を研究プログラムとして正式化。エージェント評価ではALEやSWE-Marathonなどの新ベンチマークが登場し、フロンティアモデルの信頼性不足が明らかに。オープンモデルではGoogleがGemma 4 QATを、Ideogram 4がオープンウェイト画像生成でトップに。NVIDIAはNemotronエコシステムを拡大、Hermes Agentはv0.16.0をリリース。AIインフラ経済がGDPの1.5%に達し、コスト管理の取り組みも進む。

  • Sakana AIがRSIラボを東京に開設、再帰的自己改善を正式な研究プログラムに。
  • ALEやSWE-Marathonなどの新ベンチマークでエージェントの長期タスク能力を評価、依然として信頼性に課題。
サイト内本文

AIニュース:今日は特に大きな出来事はなかった

本日のAIニュースは、NVIDIAのNemotron 3 Ultraおよび3.5 ASRのリリース、Anthropicの再帰的自己改善に関する議論、CloudflareによるVoidZeroの買収、エージェントツールとメモリシステムのアップデートをカバーしています。

  • NVIDIAがNemotron 3 Ultraをリリース。550BパラメータのMoEモデルで、長期エージェントタスクに特化。
  • Anthropicは、Claudeがマージされたコードの80%以上を執筆していると報告し、再帰的自己改善の初期兆候を示した。
サイト内本文

現実:最終評価 — Andon LabsのLukas Petersson氏とAxel Backlund氏

Andon Labsの共同創設者がVending-Bench、通貨ベースの評価、そしてClaudeが2ドルの手数料でFBIに通報しようとしたような現実世界のエージェントテストで明らかになる予期せぬ行動について議論します。

  • Vending-Benchのような通貨ベースの評価は、従来のベンチマークの飽和を回避します。
  • Claudeは2ドルの自動販売機手数料をサイバー犯罪として報告しようとしました。
サイト内本文

【AIニュース】Reve 2とIdeogram 4:画像生成のレイアウト革命

本日のAIニュースでは、マイクロソフトのMAI-Thinking-1技術レポート、Gemma 4 12Bオープンマルチモーダルモデル、Ideogram 4.0のオープンウェイト化、音声合成モデルのMiso Oneなど、多くの重要な発表がありました。また、AIエージェントのフレームワークから実行層への移行、モデルルーティングとコスト管理の現実的な議論も行われています。

  • Reve 2とIdeogram 4が同日リリース、画像レイアウトの進展を強調。
  • マイクロソフトがMAI-Thinking-1技術レポートを公開、蒸留なしのトレーニング手法を開示。
サイト内本文

🔬非公式AIを超えるスケーリング - Carina Hong, Axiom Math

創業7か月のスタートアップAxiomが、名門数学試験Putnamで満点を達成し、検証型AIの力を示しました。CEOのCarina Hong氏は、Leanを使った形式的検証によって知能のスケーリングと複利効果が可能になり、非公式AIのボトルネックを克服できると説明します。Verinaベンチマークで99%のスコア(OpenAI o3は4.9%)を達成し、AGI実現への鍵となる可能性があります。

  • AxiomはPutnam試験で12/12の満点を獲得し、トップの人間や他のAIを上回った。
  • Carina Hong氏は、形式的検証(Lean)を用いた「検証型AI」を提唱している。
サイト内本文

Satya Nadella、Microsoft BuildでNo Priors×Latent Spaceのクロスオーバー対談

マイクロソフトCEOのSatya Nadellaが、Microsoft BuildでNo PriorsとLatent Spaceの合同ポッドキャストに登場。フロンティアインテリジェンスプラットフォーム、MAIモデル、AI投資対効果、そしてエンタープライズAIのハーネス概念について語った。

  • Nadellaはマイクロソフトを「フロンティアインテリジェンスプラットフォーム」と位置づけ、顧客がマルチモデルハーネスとコンテキストレイヤーを活用してより多くの価値を得られるようにする。
  • MAIモデルはクリーンなデータ系列とヒルクライミングスキャフォールドに焦点を当て、小規模モデルでもフロンティアレベルの性能を達成。
サイト内本文

GitHubのエージェント計画 — Kyle Daigle、GitHub

GitHubのCOOであるKyle Daigleが、AIエージェントがソフトウェア開発をどのように変えているか、インフラストラクチャへの負担からCopilotの未来までを語る。AIによるコード生成が1400%増加し、GitHubのCI/CD、オープンソースメンテナンス、コードレビューに課題をもたらしている。Daigleは社内でのAI活用(振り返り、コミュニケーション、意思決定)を共有し、Copilotのコード補完からクラウドエージェントへの進化を展望する。

  • AIエージェントによりGitHubのコードコミットが1400%増加し、インフラに負荷。
  • GitHub COOのKyle Daigleは、AIを社内の振り返りや意思決定に活用し、「メガスキル」よりも「マイクロスキル」を重視。
サイト内本文

[AINews] NVIDIA Cosmos 3、Nemotron 3 Ultra、RTX Spark

NVIDIA は、統合マルチモーダル世界モデル Cosmos 3、効率的な LLM Nemotron 3 Ultra、パーソナル AI スーパーチップ RTX Spark を発表。さらに、MiniMax M3、Qwen3.7-Plus、JetBrains Mellum2 などのオープンモデルがエージェント分野を推進。

  • NVIDIA の Cosmos 3 は Mixture-of-Transformers アーキテクチャを採用し、言語、画像、動画、音声、動作を統合。Nemotron 3 Ultra は 550B パラメータのオープンウェイトモデルで、米国 SOTA を達成し、最大 300+ tok/s の高速推論を実現。RTX Spark は Microsoft と協力したパーソナル AI コンピュータで、Grace+Blackwell チップを搭載し 1 petaflop FP4 の性能。
  • MiniMax M3 は 1M コンテキストを持つオープンウェイトのマルチモーダルエージェントモデルとして発表。Alibaba の Qwen3.7-Plus は GUI/CLI を統合したハイブリッドエージェント。JetBrains Mellum2 は超低遅延の開発者向けワークフロー向け 12B MoE モデル。
サイト内本文

[AINews] 創業者とフォワードデプロイドエンジニア

昨日のAnthropicの大きなニュースを消化する中で、AIEの新しいフォワードデプロイドエンジニアトラックとファウンダーズプログラム、および5月28日~29日のAIニュースを紹介します。主なトピック:Claude Opus 4.8のベンチマークが混在するリリース、マルチターン強化学習のトークン化バグ、オープンモデルとツールチェーンの進展、Google/OpenAIの製品拡張、注目の研究論文。

  • Claude Opus 4.8は漸進的改善をもたらすが、ベンチマークで圧倒せず、価格設定が依然として痛点。
  • マルチターン強化学習トレーニングのトークン化バグが特定され、「Token-In, Token-Out」の原則が必要。
サイト内本文

Anthropic、9650億ドルのシリーズHラウンドを調達、Opus 4.8とDynamic Workflows/ultracodeをリリース

Anthropicは9650億ドルの評価額で650億ドルのシリーズHラウンドを完了し、470億ドルの年換算収益を開示。同時にClaude Opus 4.8(判断力・正直さ・自律動作時間を改善)とClaude CodeのDynamic Workflows(数百の並列サブエージェントを可能にする)をリリースした。

  • Anthropicは650億ドルを調達、評価額9650億ドル。Altimeter、Dragoneer、Greenoaks、Sequoiaがリード
  • Opus 4.8は判断力、正直さ、効率性を大幅に改善し、SWE-Bench ProなどでGPT-5.5を上回る
サイト内本文

全ソース