Liquid AI、LFM2.5-8B-A1Bをリリース:デバイス向けMoEモデル、総パラメータ8.3B、アクティブパラメータ1.5B
Liquid AIは、ツール呼び出しに特化したデバイス向けMixture-of-Experts(MoE)モデルLFM2.5-8B-A1Bをリリースしました。総パラメータ数8.3B、トークンあたりアクティブなパラメータはわずか1.5Bで、コンシューマーハードウェア上で動作します。128Kのコンテキストウィンドウ、推論機能、9言語対応を備えています。前世代モデルと比較して、非幻覚率が7.46から63.47に向上するなど、ベンチマークで大幅な改善を示しています。
記事インテリジェンス
要点
- LFM2.5-8B-A1Bは、総パラメータ8.3Bのうちトークンあたり1.5Bのみをアクティブにし、エッジデバイスでの効率的な推論を実現。
- 128Kのコンテキスト長と9言語(アラビア語、中国語、日本語を含む)に対応。
- 非幻覚率が7.46から63.47に向上、IFEvalスコアは79.44から91.84に上昇。
- M5 Max CPU上で253 tok/s(メモリ6GB未満)、スマートフォン上で約30 tok/sを達成。
重要な理由
このニュースが重要なのは、LFM2.5-8B-A1Bは、総パラメータ8.3Bのうちトークンあたり1.5Bのみをアクティブにし、エッジデバイスでの効率的な推論を実現ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Liquid AIは、ツール呼び出し向けに構築されたデバイス向けMixture-of-Experts(MoE)モデルLFM2.5-8B-A1Bをリリースしました。このモデルは総パラメータ数8.3Bですが、トークンあたりアクティブなパラメータは1.5Bのみで、そのスパース性によりコンシューマーハードウェア上で動作可能です。
今回のリリースは、Liquid AIチームが以前公開したLFM2-8B-A1Bに続くものです。LFM2.5は、デバイス展開向けの新しいハイブリッドモデルファミリーです。このバージョンでは、128Kコンテキストウィンドウ、推論機能、そして大規模化されたトレーニングが追加されています。
LFM2.5-8B-A1Bとは このモデルはスパースMoE設計を採用し、前方パスごとに総パラメータ8.3Bのうち1.5Bをアクティブにします。これにより、生成される各トークンの計算コストが低く抑えられます。アーキテクチャは24層で構成され、うち18層が二重ゲートLIV畳み込みブロック、6層がGQA層です。MoE、GQA、ゲート付き短い畳み込みブロックを組み合わせています。コンテキスト長は131,072トークンで、アラビア語、中国語、日本語を含む9言語をカバーします。Liquid AIチームは、温度0.2、top_k 80、繰り返しペナルティ1.05を推奨しています。
前世代とは異なり、LFM2.5-8B-A1Bは推論専用モデルであり、最終回答の前に明示的な思考連鎖を生成します。Liquid AIチームは、MoEモデルが計算量に制約のある環境で動作するため、アクティブパラメータ数が少ないことで各推論トークンのコストが低くなることを理由にこの設計を選択しました。
LFM2-8B-A1Bからの変更点 Liquidはコンテキストウィンドウを32,768から128,000トークンに拡張しました。事前学習は12Tトークンから38Tトークンにスケールされました。語彙は65,536から128,000トークンに倍増しました。より大きな語彙により、非ラテン文字のトークン化が効率的になります。Liquid AIチームは、ヒンディー語、タイ語、ベトナム語、インドネシア語、アラビア語で最も高い圧縮率の向上を報告しています。アーキテクチャの他の部分はLFM2-8B-A1Bと同じです。
トレーニング方法 Liquid AIチームは、トークナイザをゼロから再トレーニングするのではなく、その場で拡張しました。元のマージから多言語コーパスでBPEマージトレーニングを継続しました。新しい埋め込み行は、サブトークン分解の平均として初期化されます。その後、短い2段階の適応で品質を回復します。コンテキスト拡張は2段階で行われました。2Tトークンの中間トレーニングフェーズで32Kに達し、推論、数学、ツール使用に焦点を当てました。RoPEベースθを上げ、さらに400Bトークンの段階を経て128Kに達しました。2つの強化学習段階が既知の故障モードを対象としています。嗜好最適化段階は、長い推論トレースにおける「ドゥームループ」を削減し、確率質量を妥当な代替案に再分配します。別のRL形状報酬は、「待って…」などのループ誘発再起動語を抑制します。もう1つのRL段階は、avg@kベースの報酬を使用して幻覚を削減し、信頼できる知識を超えるクエリについては棄権を目標としています。
ベンチマークの事例 LFM2.5-8B-A1Bは、前世代をすべての面で上回っています。AA-Omniscience非幻覚率は7.46から63.47に急上昇しました。IFEvalは79.44から91.84に、MATH500は74.80から88.76に、Tau² Telecomは13.60から88.07に向上しました。Liquid AIチームは、このモデルを高密度およびMoEの代替モデルと比較しました。指示追従では、IFEvalでGemma-4-26B-A4B-ITに匹敵し、アクティブパラメータ数ははるかに少ないです。Tau² Telecomでは88.07を記録し、はるかに大規模なモデルを上回っています。avg@k報酬により幻覚率が大幅に低下し、モデルサイズとしては妥当な精度を維持しています。エージェントベンチマークでは、より大きなモデルと競争力があります。
実行:CPU、GPU、ツール
このモデルは、推論エコシステム全体で初日からサポートされています。フレームワークにはllama.cpp、MLX、vLLM、SGLangが含まれます。ONNXとLiquidのLEAPエッジプラットフォームもサポートされています。CPUでは、M5 Maxで253トークン/秒、Ryzen AI Max+ 395で146トークン/秒を達成し、メモリは6GB未満です。スマートフォンでは約30トークン/秒です。単一のNVIDIA H100 SXM5では、出力スループットは18.5Kトークン/秒に達し、高同時実行時には1日あたり1.6Bトークン以上になります。ツール使用では、LFM2.5はデフォルトでPython的な関数呼び出しを記述し、<tool_call>と</tool_call>の特別トークン間に表示されます。システムプロンプトでJSONにオーバーライドできます。
強みと注意点 強み:アクティブパラメータが1.5Bのみで、エッジハードウェアでの推論コストが低い。サイズクラスで競争力のある指示追従とエージェントスコア。128Kコンテキストウィンドウと9言語対応。LFM1.0ライセンスのオープンウェイト、ベースとポストトレーニング済みチェックポイントを提供。注意点:アクティブパラメータ数が少ないため知識容量が限られる。重いプログラミングや検索なしの知識集約型QAには不向き。推論専用出力により、毎回のターンに思考連鎖トークンが追加される。テキストのみで、ビジョンやオーディオ入力はなし。
主要ポイント
- Liquid AIのLFM2.5-8B-A1Bは、総パラメータ8.3Bのうちトークンあたり1.5Bのみをアクティブにする。
- 推論専用で、128Kコンテキストウィンドウ、9言語対応。
- 非幻覚率が7.46から63.47に向上、IFEvalは91.84に到達。
- M5 Max上で253トークン/秒(メモリ6GB未満)、スマートフォン上で約30トークン/秒。
- llama.cpp、MLX、vLLM、SGLangを初日からサポート、ベースとポストトレーニング済みのオープンウェイトを提供。