Liquid AI釋出230M引數模型,最佳化用於手機、樹莓派和機器人
Liquid AI釋出了LFM2.5-230M,一款輕量級基礎模型,專為邊緣裝置最佳化。它在三星Galaxy S25 Ultra上達到213 tok/s的解碼速度,在樹莓派5上為42 tok/s。模型在工具使用和資料提取任務中表現出色,並已在Unitree G1人形機器人上成功部署作為技能選擇層。該模型遵循開放權重許可,支援多種推理框架。
Liquid AI今日釋出了其迄今為止最小的模型——LFM2.5-230M。這款模型基於LFM2架構,專為開發者快速微調並部署於智慧體工作流而設計。它具備極快的推理速度,能夠在從雲端GPU到低成本CPU的各種硬體上執行:在三星Galaxy S25 Ultra上達到213 tok/s的解碼速度,在樹莓派5上為42 tok/s。儘管體積小巧,該模型在工具使用和資料提取任務中表現驚人。
LFM2.5-230M的基礎版本(LFM2.5-230M-Base)和後訓練版本(LFM2.5-230M)現已可在Hugging Face上獲取。模型在19T令牌上進行了預訓練,包括32K上下文擴充套件階段。後訓練過程包含三個步驟:從LFM2.5-350M進行蒸餾的監督微調、直接偏好最佳化以及多領域強化學習。最終模型在開箱即用的能力與下游任務適應性之間取得了平衡,同時保持與更大模型的競爭力。
作為一項初步展示,Liquid AI將LFM2.5-230M部署在Unitree G1人形機器人上,完全在機載的NVIDIA Jetson Orin上執行。模型充當技能選擇層:接收自然語言指令,並將其分解為一系列工具呼叫,這些呼叫啟用NVIDIA SONIC框架提供的預訓練低層技能。經過快速微調後,模型能將諸如“保持靜止2秒,然後以每秒1米的速度向前走3米,保持單膝跪地5秒,再以每秒0.5米的速度向後走3米”這樣的自由形式命令轉化為結構化的多步計劃。儘管目前行為較為簡單,但這表明230M引數的模型能夠快速微調並部署在裝置上,作為人形機器人的自然語言控制介面。
在基準測試方面,LFM2.5-230M在十個基準上進行了評估,涵蓋核心能力和應用任務。儘管引數規模小,它常常擊敗規模兩倍以上的模型,特別是在GPQA Diamond、MMLU-Pro、IFEval、CaseReportBench和BFCLv3等方面。它在資料提取和工具使用方面表現尤為突出。由於其緊湊的尺寸,不建議用於推理密集型任務,如高階數學、程式碼生成或創意寫作。
該模型支援廣泛的推理生態系統,包括llama.cpp、MLX、vLLM、SGLang和ONNX。在CPU推理中,得益於LFM2架構,它在樹莓派5和驍龍Gen4(三星Galaxy S25 Ultra)上均實現了同類最佳的解碼和預填充速度,同時保持最小的記憶體佔用。對於企業級GPU推理,Liquid AI還開發了內部推理棧,實現了極低延遲的服務。
LFM2.5-230M以開放權重形式提供,可自由下載、微調和部署,無限制。它原生支援llama.cpp、NexaSDK、MLX和vLLM等框架,覆蓋蘋果、AMD、高通和輝達硬體。這一定位使LFM2.5-230M成為大規模資料提取管道或輕量級裝置端智慧體工作負載的理想解決方案。Liquid AI表示,邊緣AI的未來已經到來。