AI News HubLIVE
公開記事 11収集記事 12信頼度 87更新頻度 720 分
稼働状態 正常ソース種別 研究全文利用権限 全文利用可最終取り込み 2026-06-06ID ahead-of-ai状態 有効

Public Substack newsletter; free posts allowed.

最新公開記事

LLM研究論文:2026年リスト(1月~5月)

筆者は毎年の習慣に従い、2026年1月から5月までの注目すべきLLM研究論文を整理・分類。アーキテクチャ、トレーニング、推論効率、推論モデル、強化学習、エージェントシステムなど多岐にわたる方向性をカバーし、ハイブリッドアーキテクチャのトレンドやNemotron 3などの代表的な研究を紹介。

  • リストは推論モデル、強化学習、効率的推論、エージェントシステムなどホットな方向性を網羅
  • ハイブリッドアーキテクチャ(Mambaとアテンション層の交互配置)が2026年の重要なトレンド
サイト内本文

LLMアーキテクチャの最新動向:KV共有、mHC、圧縮注意機構

Gemma 4からDeepSeek V4まで、新しいオープンウェイトLLMがクロスレイヤーKV共有、レイヤー別埋め込み、注意予算、圧縮畳み込み注意、mHCなどを通じて長コンテキストコストを削減する方法を探る。

  • Gemma 4はクロスレイヤーKV共有を導入し、品質を維持しながらKVキャッシュサイズを半減。
  • レイヤー別埋め込み(PLE)は、計算オーバーヘッドを最小限に抑えながらモデル容量を向上。
サイト内本文

私のLLMアーキテクチャ理解のワークフロー

新しいオープンウェイトモデルのリリースを理解するための学習指向のワークフロー。公式のテクニカルレポートから始めるが、最近の論文は詳細が不足しているため、Hugging Faceの設定ファイルとリファレンス実装から情報を得る。

  • 公式のテクニカルレポートから始めるが、最近の論文は詳細が不足している
  • Hugging Faceの設定ファイルとリファレンス実装からアーキテクチャの詳細を調査できる
サイト内本文

コーディングエージェントの構成要素

コーディングエージェントを効果的にする6つの主要コンポーネント(ライブリポジトリコンテキスト、プロンプトの形状とキャッシュ再利用、ツールアクセスと使用、コンテキスト肥大化の最小化、構造化セッションメモリ、サブエージェントへの委任)を概説し、これらのハーネス機能がどのようにLLMのコーディングタスクにおけるパフォーマンスを向上させるかを説明します。

  • コーディングエージェントは、ライブリポジトリコンテキスト、構造化ツール、メモリ管理を提供するハーネスを通じてLLMのパフォーマンスを向上させる。
  • 6つのコンポーネントは、ライブリポジトリコンテキスト、プロンプトキャッシュ、ツールアクセス、コンテキスト削減、セッションメモリ、サブエージェント委任である。
サイト内本文

オープンウェイトLLMの春:2026年1月~2月の10のアーキテクチャ

2026年1月から2月にかけてリリースされた10のオープンウェイト大規模言語モデルのアーキテクチャ比較分析。Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5、Tiny Aya、そしてSarvamのアップデートをカバー。ハイブリッドアテンション、マルチトークン予測、Mixture-of-Expertsなどの技術トレンドに焦点を当てる。

  • 10個のオープンウェイトLLMをアーキテクチャ面から比較
  • ハイブリッドアテンションとマルチトークン予測が主流に
サイト内本文

LLM推論能力向上のための推論時スケーリングの分類

推論時スケーリングは、デプロイされたLLMの回答品質を向上させる最も効果的な方法の1つです。本記事では、チェーン・オブ・ソート、自己一貫性、ベスト・オブ・Nランキング、検証器付きリジェクションサンプリング、自己改良、解経路探索など、様々な推論時スケーリング手法を明確に分類し、最近の論文を概説します。著者は、関連する書籍の章を執筆する際に行った個人的な実験も共有しています。

  • 推論時スケーリングは、推論時に計算リソースと時間を追加することでモデル性能を向上させる
  • 主な手法には、チェーン・オブ・ソート、自己一貫性、ベスト・オブ・N、リジェクションサンプリングなどがある
サイト内本文

2025年のLLMの現状:進歩、問題、予測

2025年の大規模言語モデル(LLM)の重要な進展を包括的にレビュー。DeepSeek R1によるRLVR/GRPOを用いた推論の進化、推論時スケーリングとツール使用の台頭、ベンチマークの過剰最適化(benchmaxxing)問題、そして2026年への予測(拡散モデルやRLVRの拡大など)を扱います。

  • DeepSeek R1のオープンウェイト推論モデルがRLVR/GRPOで2025年を席巻し、訓練後スケーリングに焦点が移った。
  • 推論時スケーリングとツール使用が、従来の事前学習スケーリングを超えるLLM進歩の主要因となった。
サイト内本文

LLM研究論文:2025年版リスト(7月~12月)

著者が2025年7月から12月までの興味深い研究論文を厳選し、推論モデル、強化学習、アーキテクチャなどのカテゴリに分類して支援者に感謝の意を込めて共有します。

  • 支援者への感謝として、厳選された論文リスト
  • 推論モデル、強化学習、モデルリリースなどのカテゴリ
サイト内本文

DeepSeek V3からV3.2へ:アーキテクチャ、スパースアテンション、強化学習の更新

本稿では、DeepSeek V3.2の技術的進化について、アーキテクチャの変更(スパースアテンション機構DSAを含む)、強化学習の更新(GRPOの改良、自己検証と自己洗練)、およびハイブリッド推論モデルの開発を詳しく解説します。V3.2はGPT-5やGemini 3.0 Proに匹敵する性能を持ち、オープンウェイトモデルとして公開された重要なリリースです。

  • DeepSeek V3.2はV3.2-Expと同じスパースアテンション機構(DSA)を採用し、長文コンテキスト効率を大幅に向上。
  • DeepSeekMath V2の自己検証・自己洗練技術を統合し、数学的推論能力を大幅に強化。
サイト内本文

標準LLMを超えて

本稿では、従来の自己回帰型デコーダーTransformerに代わる大規模言語モデルの代替アーキテクチャを探ります。線形注意ハイブリッド、テキスト拡散モデル、コードワールドモデル、小型再帰Transformerを紹介し、効率性、推論能力、モデリング性能における利点と限界を分析します。

  • 線形注意ハイブリッド(Qwen3-Next、Kimi Linearなど)はGated DeltaNetで計算複雑性を低減するが、推論精度とのバランスが課題。
  • テキスト拡散モデルは並列生成が可能だが、品質低下やツール統合の問題があり、自己回帰モデルに取って代わるのは難しい。
サイト内本文

LLM評価の4つの主要アプローチ(スクラッチから):多肢選択、検証器、リーダーボード、LLMジャッジ

この記事では、大規模言語モデルを評価する4つの主要な方法を説明します:多肢選択ベンチマーク(MMLUなど)、自由形式の回答のための検証器、ユーザーの好みに基づくリーダーボード(Chatbot Arenaなど)、およびLLMをジャッジとして使う評価です。スクラッチからのコード実装を含み、各方法のトレードオフについて議論します。

  • 多肢選択ベンチマークは知識の想起をテストするが、実際の使用を反映しない。
  • 検証器は自由形式の回答を可能にするが、数学などの検証可能な領域が必要。
サイト内本文

全ソース