AI News HubLIVE
サイト内リライト2 分で読了

Liquid AI、LFM2.5-230M をリリース:llama.cpp、MLX、vLLM、SGLang、ONNX 対応のオンデバイス推論

Liquid AI は最小モデル LFM2.5-230M(2.3億パラメーター、オープンウェイト)をリリース。オンデバイスで Galaxy S25 Ultra 上 213 tok/s、Raspberry Pi 5 上 42 tok/s を実現。LFM2 アーキテクチャーに基づき、ツール使用とデータ抽出に特化。命令追従性能で Qwen3.5-0.8B や Gemma 3 1B を凌駕する。

ソースMarkTechPost著者: Asif Razzaq

Liquid AI は、これまでで最小のモデル LFM2.5-230M をリリースしました。このモデルは、スマートフォン、ロボット、自動化デバイス上でのエージェントタスクを目的として設計されています。ベースモデルと命令チューニング済みモデルの両方がオープンウェイトとして Hugging Face で公開されています。

LFM2.5-230M はテキストのみのモデルで、LFM2 アーキテクチャーを採用し、2.3億のパラメーターを持ちます。14層のうち8層はダブルゲート LIV 畳み込みブロック、残り6層はグループ化クエリアテンション(GQA)ブロックで、高速 CPU 推論に最適化されています。コンテキスト長は32,768トークン、語彙サイズ65,536、知識カットオフは2024年中期で、英語、中国語、アラビア語、日本語を含む10言語をサポートします。

トレーニングは19兆トークンで事前学習され、32K コンテキスト拡張フェーズを含みます。事後トレーニングは3段階で行われます。まず、より大きな LFM2.5-350M からの蒸留による教師付きファインチューニング、次に直接選好最適化(DPO)、最後にマルチドメイン強化学習です。これにより、2.3億パラメーターモデルながら、より大きなモデルに対抗できる性能を実現しています。

ベンチマークでは、LFM2.5-230M は命令追従とデータ抽出で優れた結果を示しています。IFEval で71.71(Qwen3.5-0.8B の59.94、Gemma 3 1B IT の63.49を上回る)、IFBench で38.40、CaseReportBench で22.51を記録。一方、MMLU-Pro では20.25と、Qwen3.5-0.8B の37.42に劣り、汎用知識では弱みを見せます。また、エージェントツール使用の τ²-Bench Telecom では5.26と低スコアです。Liquid AI は、高度な数学、コード生成、創作文章などの推論負荷の高いタスクには推奨しないと明言しています。

主なユースケースは、大規模データ抽出パイプラインと軽量オンデバイスエージェントワークロードです。例えば、4ビット量子化で293–375 MB のメモリフットプリントで、一般 CPU 上で臨床レポートの構造化フィールド解析が可能です。また、スマートホームハブでの音声からツール呼び出し、スマートフォンアシスタントでのリクエストルーティングにも適用できます。初期事例として、Unitree G1 ヒューマノイドロボットに搭載され、NVIDIA Jetson Orin 上で自然言語命令をツール呼び出しシーケンスに変換するスキル選択層として機能しました。

モデルは関数呼び出しをサポートし、システムプロンプトで JSON ツールを定義し、モデルが Python 風の関数呼び出しを出力、実行後結果を返し、最後に平文で回答します。Transformers 5.0.0 以降で簡単に読み込め、推奨設定は temperature=0.1、top_k=50、repetition_penalty=1.05 です。Liquid AI は、SFT、DPO、GRPO の LoRA を用いたファインチューニングレシピも公開しており、Colab ノートブックで提供しています。ライセンスは lfm1.0 です。