AI News HubLIVE
站内改写

Liquid AI、38Tトークンで学習した8B-A1B MoEを公開

Liquid AIは、エッジデバイス向け混合エキスパートモデルLFM2.5-8B-A1Bをリリースした。総パラメータ8B、アクティブパラメータ1Bで、38兆トークンで学習。128Kコンテキストウィンドウ、非ラテン言語向けの改良トークナイザー、推論専用のチェーン・オブ・ソートを特徴とする。ベンチマークで競争力のある性能を発揮し、CPU/GPUで高速動作、ローカルエージェントタスクに適する。

記事インテリジェンス

エンジニア上級

要点

  • LFM2.5-8B-A1Bは総パラメータ8B、アクティブ1BのMoEモデルで、38Tトークンで学習。
  • 128Kコンテキストウィンドウと語彙拡張(128K)により非ラテン言語のサポートが向上。
  • 高信頼なツール呼び出しとオンデバイスパーソナルアシスタントに焦点、幻覚率を低減。
  • CPU/GPUで高いスループットを達成し、主要推論フレームワークを初日からサポート。

重要な理由

このニュースが重要なのは、LFM2.5-8B-A1Bは総パラメータ8B、アクティブ1BのMoEモデルで、38Tトークンで学習ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Liquid AIは本日、コンシューマー向けハードウェア上で高速かつ信頼性の高いツール呼び出しを実現するエッジモデル、LFM2.5-8B-A1Bを公開した。本モデルは2025年10月にリリースされたLFM2-8B-A1Bの後継であり、コンテキストウィンドウを32,768トークンから128,000トークンに拡大、事前学習データを12Tトークンから38Tトークンにスケールアップし、大規模強化学習を導入した。また、語彙サイズを65,536から128,000に倍増し、非ラテン言語(ヒンディー語、タイ語、ベトナム語、インドネシア語、アラビア語など)のトークン化効率を大幅に改善している。

LFM2.5-8B-A1Bは推論専用モデルとして設計され、最終回答前に明示的な思考連鎖(チェーン・オブ・ソート)を生成する。MoEモデルは計算負荷が高い環境でアクティブパラメータが少ないため、推論トークンあたりのコストが低く、速度を犠牲にせず品質を向上できる。前世代と比較して、AA-Omniscience指数は-78.42から-24.70に改善、非幻覚率は7.46%から63.47%に向上、IFEval指示追従精度は79.44%から91.84%に、MATH500数学推論は74.80%から88.76%に、AIME25は20.00%から42.53%に上昇した。

訓練プロセスでは、語彙拡張は既存のBPEトークナイザーを拡張することで実施。元のマージを維持しながら多言語コーパスでBPEマージ学習を継続し、新しいトークンは元のサブトークンに決定論的に分解される。新しい埋め込み行はサブトークン分解の平均で初期化し、共有行はそのままコピー。その後、埋め込みのみの訓練と全モデル継続事前学習の2段階適応で品質を回復した。コンテキスト拡張は2段階で実施:まず2Tトークンの中間訓練で32Kに拡張、次にRoPEベース周波数を高めて400Bトークンの中間訓練で128Kに到達。長い推論トレースにおける「doom loop」(無限ループ)問題に対処するため、特定のコンテキストでループを誘発するトークンを特定し、確率を代替候補に再分配する選好最適化段階を追加。さらに、共通のループ誘発語(「Wait…」など)の過剰使用を抑制する軽量な形成報酬もRLに組み込んだ。

エッジモデルはパラメータが少ないため知識容量が限られ、幻覚が発生しやすい。これに対処するため、多様な知識データセット上でavg@kベースの報酬を用いたターゲットRL段階を追加し、信頼できる知識を超えるクエリに対しては回答を控えるよう強化。これにより知識境界が明確化され、不確実性の表現が改善された。

ベンチマークでは、LFM2.5-8B-A1Bは同程度の総パラメータ数の密モデルや、はるかに大規模なMoEモデルと競合する。例えば、IFBenchで56.47点を獲得し、Qwen3-30B-A3B(51.11点)やGemma-4-26B-A4B(47.25点)を上回った。BFCLv3/v4ツール呼び出しでは64.79点と49.73点、Tau²通信分野では88.07%と非常に高い精度を示した。数学・エージェントタスクではAIME25が42.53点、AIME26が50.00点と競争力がある。

推論性能において、LFM2.5-8B-A1Bは初日からllama.cpp(GGUF)、MLX(Apple Silicon)、vLLM、SGLang、ONNXなどの推論エコシステム全体でサポートされる。CPUでは、M5 Maxチップ上で253トークン/秒、Ryzen AI Max+ 395上で146トークン/秒の復号速度を達成し、メモリ使用量は6GB未満。スマートフォン上でも約30トークン/秒を維持する。GPUでは、NVIDIA H100 SXM5単体で高並行時に18,500出力トークン/秒のスループットを実現、1日あたり16億トークン以上を処理可能。

Liquid AIは、オープンソースのデスクトップエージェントデモ「LocalCowork」をLFM2.5-8B-A1B上で動作するようアップデート。1台のノートPC上で13のMCPサーバーを介して67のツールを呼び出し、クラウドやAPIキー不要でデータがデバイス外に出ない。ツール選択が高速化され、信頼性が向上、各ディスパッチは1秒未満で完了し、完全な監査証跡を保持する。

LFM2.5-8B-A1Bはオープンウェイトで提供され、ダウンロード、微調整、展開が自由に行える。Hugging FaceおよびLiquid AI Playgroundで利用可能であり、ローカル実行と微調整のためのドキュメントも提供されている。