AI News HubLIVE
公開記事 17収集記事 21信頼度 88更新頻度 720 分
稼働状態 正常ソース種別 研究全文利用権限 全文利用可最終取り込み 2026-06-23ID interconnects状態 有効

Public Substack newsletter by ex-Meta RLHF researcher; free posts allowed.

最新公開記事

GLM-5.2:オープンエージェントの段階的変化

Z.aiがリリースしたGLM-5.2は、オープンウェイトモデルにとって大きな飛躍を表し、エージェントおよびコーディングベンチマークでクローズドソースモデルに匹敵または凌駕します。Claude Fableの禁止の中でリリースされ、経済的・地政学的影響を浮き彫りにし、オープンモデルとクローズドモデルをめぐる議論を引き起こしています。

  • GLM-5.2はエージェントおよびコーディングベンチマークでトップクラスの性能を示し、AnthropicやOpenAIのモデルに匹敵する。
  • 米国によるClaude Fableの輸出制限の中でリリースされ、オープンモデルの経済性と地政学的緊張を浮き彫りにした。
サイト内本文

オープンソースAIの禁止は誤り

本記事は、オープンソースAIの禁止や過度な規制は重大な誤りであると主張する。オープンソースソフトウェアは、技術教育、イノベーション、競争に不可欠であり、数兆ドルの経済価値を生み出してきた。AI分野では、オープンソースモデルが独占に対抗し、安全性と透明性を提供する。中国への懸念からオープンソースを制限するのではなく、国内での支援を強化すべきである。

  • オープンソースソフトウェアは世界のソフトウェアの90%以上を支え、8兆ドル以上の経済効果を生み出している。
  • オープンソースAIは教育、イノベーション、競争を促進し、スタートアップや中小企業に力を与える。
サイト内本文

ブログの現状、2026年半ば

Ai2退職後のキャリアチェンジにあたり、著者はブログInterconnectsの現状を共有。ブログが自身の目標にどう貢献するか、Arcee AIとMercorへのアドバイザリー契約、コメントの有料化や有料記事増加による運営方針について述べる。

  • ブログは独立した生の声で、オープンサイエンスと最先端AIに焦点を当てている。
  • 最近Arcee AIとMercorのアドバイザリー契約を結び、ミッションを支援。
サイト内本文

フロンティアポストトレーニングレシピレビュー:Finbarr Timbersとの対談

このポッドキャストでは、InstructGPTから2026年のマルチティーチャーオン・ポリシー蒸留(MOPD)時代に至るポストトレーニングレシピの進化を掘り下げます。Nathan LambertとFinbarr Timbersが、OLMo-3のようなオープンソースモデルの課題や、フロンティアラボが専門教師と蒸留を活用して性能限界を押し上げる方法を分析します。

  • ポストトレーニングレシピは大きく変化し、単一パイプラインからマルチティーチャー戦略(MOPD)へ移行した。
  • MOPDはドメイン専門教師を訓練し、一般学生モデルに蒸留することでRLの競合問題を解決する。
サイト内本文

Claude Fable 5と新たなAI安全寓話

AnthropicはClaude Fable 5を発表しました。これは一般公開された中で最も高性能なモデルです。同社は、サイバーセキュリティ、生物学、蒸留などの分野で分類器を使用し、Opus 4.8にフォールバックする安全対策を導入しました。しかし、最先端のLLM開発リクエストに対しては、ユーザーに通知せずにプロンプトを変更するなど静かな介入を行い、信頼を損ねています。この記事は、その不整合を批判し、AI安全性とオープンソースへの影響を考察しています。

  • Claude Fable 5は現時点で最も高性能な公開モデルであり、ベンチマークで大幅な向上を示す。
  • サイバーセキュリティ、生物学、蒸留のリクエストに対しては分類器が作動し、ユーザーに通知の上Opus 4.8にフォールバックする。
サイト内本文

Ai2への別れ

Nathan Lambertが、Allen Institute for AI(Ai2)での経験を振り返ります。彼はOlmoモデルの開発に携わり、Tülu 3などのプロジェクトを主導しました。オープンリサーチの重要性を強調し、一介の研究者からAI分野で著名な存在へと成長した道のりを語ります。

  • Nathan LambertはAi2で2年間を過ごし、主要なオープン言語モデルプロジェクトを主導しました。
  • 彼はAIにおけるオープンリサーチと関係構築の重要な役割を強調しています。
サイト内本文

次に来ることについてのいくつかのアイデア、2026年5月

2026年のAIはさらなる加速を続け、オープンモデルはエージェント能力で遅れをとり、GoogleのGeminiはClaude CodeやCodexに対抗できず、アメリカのオープンモデルが台頭し、AnthropicとOpenAIの競争が激化、既存の権力構造がAIに関与し始めている。

  • オープンモデルはエージェント能力でクローズドモデルに5〜6ヶ月遅れ、12ヶ月以上に延びる可能性。
  • Google GeminiはClaude CodeやCodexに対抗できるツールを欠く。
サイト内本文

最新オープンアーティファクト(#21):オープンモデル大豊作!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1など。CAISIのV4評価について。

今月はオープンフロンティアラボから次々に新モデルがリリースされました。CAISIの評価ではオープンモデルは米国フロンティアに遅れをとっており、ギャップが拡大しているとされていますが、評価手法には疑問が呈されています。注目モデルとしてMiMo-V2.5-Pro、Gemma-4、Kimi-K2.6、Laguna-XS.2、DeepSeek-V4-Flashなどが紹介されています。

  • DeepSeek、Google、Moonshot AI、Xiaomiなどから複数のオープンモデルがリリース。
  • CAISIの評価ではEloスコアに大きな差があるが、ベンチマーク手法に批判あり。
サイト内本文

オープンモデルエコシステムがどのように増幅するか

本記事では、フロンティアモデルの計算資源の約80%が研究開発に使用され、最終トレーニングではないと説明。中国のようなオープンエコシステムは重複する研究開発コストを削減する。オープンモデルは将来の開発コストを下げるが、導入コストはクローズドソリューションより高い。著者は競争力維持のためにオープンモデルコンソーシアムの必要性を主張。

  • 計算資源の約80%は研究開発に使用され、最終モデルトレーニングではない。
  • 中国のオープンエコシステムはラボ間の重複する研究開発を削減。
サイト内本文

中国のAIラボからのメモ

中国の主要なAIラボを訪問した著者は、謙虚で実用的なファストフォロワー文化を発見した。中国の研究者(多くは学生)は、エゴが少なく、哲学的な議論よりも構築に集中している。エコシステムは初期の国内AI需要を示すが、データ産業は未発達で、Nvidiaチップへの渇望が強い。

  • 中国のAIラボは、エゴが少なく効率的なモデル構築を可能にするファストフォロワー文化を育んでいる。
  • 学生が中核的な役割を果たし、新鮮な視点と献身をもたらしている。
サイト内本文

今日のオープン・クローズド パフォーマンスギャップを読み解く

オープンモデルとクローズドモデルの性能差は単一の数値では測れず、ベンチマークの進化、実世界での性能、訓練パラダイムの変化が関与する。ベンチマークの信頼性は低下し、フロンティアラボは収益維持のために常に革新を迫られている。中国のオープンモデルはベンチマークで優れるが、ロバストネスや実用面では課題がある。

  • オープンとクローズドのギャップは多面的で、単一の指標では捉えられない。
  • ベンチマークは進化し、実世界の性能との相関が低下している。
サイト内本文

私が最近取り組んでいること:ATOMレポート、ポストトレーニングコース、本の完成、そして進行中の研究

この記事は、ATOMレポートの更新、RLHF本の完成と予約開始、ポストトレーニングコースの制作、そして2つの研究論文への関与など、著者の最近の取り組みをまとめたものです。

  • ATOMレポートを更新し、新たなデータと相対採用指標(RAM)を公開。
  • RLHF本が完成し予約開始、無料ビデオコースも併せて提供。
サイト内本文

Claude Mythosと誤ったオープンウェイトモデルへの恐怖

本記事は、Claude Mythosモデルの発表後に生じたオープンウェイトAIモデルに対する恐怖の波を分析する。著者は、過去の誇張された恐怖と同様であると主張し、全面禁止ではなく詳細な研究を求める。

  • Claude Mythosがオープンウェイトモデルによるサイバー攻撃の懸念を引き起こした。
  • GPT-2やGPT-4の際にも同様のパニックがあったが、現実化しなかった。
サイト内本文

Gemma 4とオープンモデル成功の鍵

本記事では、2026年のオープンモデル競争環境、成功要因(性能、出身国、ライセンス、ツールサポート、ファインチューニング容易性)を探り、Googleの最新Gemma 4シリーズを分析。オープンモデルの成功はベンチマークスコアよりも、使いやすさとエコシステムのサポートに依存すると論じる。

  • オープンモデル市場は少数から多数の競合に成長したが、まだ大きな可能性を秘めている。
  • オープンモデルの評価には、性能、ライセンス、ツールサポート、ファインチューニング容易性などを考慮する必要がある。
サイト内本文

最新オープンアーティファクト(第20号):新しい組織!新しいタイプのモデル!Nemotron Super、Sarvam、Cohere Transcribeなど

今号は、OCR、RAG検索、音声文字起こし、コンピュータ使用、コード編集、数学定理証明など、多様なユースケースをカバーするさまざまなオープンモデルを取り上げています。NVIDIA、Cohere、Sarvam、Mistralなど、より幅広いビルダーからのモデルが含まれており、ドメイン固有でコスト効率の高いモデルへの業界の推進力を示しています。

  • NVIDIAがNemotron-3-Superをリリース。120Bパラメータ、12Bアクティブ、100万コンテキスト、事前学習でNVFP4を初めて使用。
  • CohereのTranscribeモデルはconformerベースで14言語対応、Apache 2.0ライセンス。
サイト内本文

ロッシー自己改善:AIの進歩は実在するが、急激な離陸には至らない

本稿は、再帰的自己改善(RSI)と実際の「ロッシー自己改善」(LSI)の違いを考察する。自動化可能な研究の狭さ、並列エージェントの収穫逓減、リソースのボトルネックなどの摩擦により、AIの進歩は指数関数的ではなく線形的であると主張する。

  • 再帰的自己改善(RSI)は閉ループ、自己増幅、無摩擦を前提とするが、現実には多様な摩擦により「ロッシー自己改善」(LSI)が生じる。
  • 自動化研究は狭い目標に限定され、複数指標のトレードオフを扱えない。
サイト内本文

GPT 5.4はCodexにとって大きな一歩

ベンチマークでは漸進的な改善に過ぎないが、Codex上のGPT 5.4は実用面でユーザビリティ、速度、コンテキスト管理において真の向上をもたらす。ただし、魅力ではClaudeが依然として勝る。

  • GPT 5.4はエージェントタスクにおいて、正確性、使いやすさ、速度、コストのすべてで意味のある進歩。
  • OpenAIのエージェントは以前「千もの小さな不満」に悩まされていたが、GPT 5.4はその問題を解消。
サイト内本文

全ソース