Cerebras在Cerebras推理上推出Multi-LoRA支持
Cerebras宣佈在Cerebras推理上推出Multi-LoRA(多適配器低秩適應)私人預覽版,允許團隊使用單個共享基礎模型部署多個LoRA適配器,實現針對不同領域、任務、客户和工作流的模型專業化,無需為每個變體維護獨立模型。
2026年5月6日,Cerebras宣佈在Cerebras推理平台上推出Multi-LoRA(多適配器低秩適應)支持,目前處於私人預覽階段。這一新功能允許團隊在單個共享基礎模型上部署多個LoRA適配器,從而為不同領域、任務、客户和工作流定製模型行為,進一步實現Cerebras推理成為運行專業化AI應用最快、最簡單方式的目標。
LoRA(低秩適應)是一種輕量級適配器,通過對基礎模型進行少量參數微調來實現專業化。與全面微調所有參數不同,團隊只需訓練一小部分適配權重,並在推理時應用。這種方法使得專業化既實用又成本高效,無需為每個變體保留完整的獨立模型。
在Cerebras推理上,Multi-LoRA的工作原理如下:Cerebras負責管理端點背後的服務基礎設施,包括基礎模型和適配器的服務路徑。團隊可以專注於構建應用邏輯,將每個請求路由到正確的專業化版本。用户可以通過每個請求選擇不同的LoRA適配器,實現細粒度的專業化。
一個典型的用例是編程助手。Multi-LoRA允許編程助手按語言、框架和任務進行專業化。例如,公司可以為Python後端服務、Rust、React、PyTorch、單元測試生成或文檔字符串生成分別設置適配器。這有助於編程助手生成更符合特定語言、框架和任務的代碼,甚至可以為每個客户的私有代碼庫、內部API、遺留系統或工程規範提供個性化適配器。
目前,Multi-LoRA支持作為Cerebras推理專用端點的私人預覽功能提供,無需額外費用。感興趣的團隊可以聯繫Cerebras客户代表以獲取訪問權限。