Cerebras在Cerebras推理上推出Multi-LoRA支援
Cerebras宣佈在Cerebras推理上推出Multi-LoRA(多介面卡低秩適應)私人預覽版,允許團隊使用單個共享基礎模型部署多個LoRA介面卡,實現針對不同領域、任務、客戶和工作流的模型專業化,無需為每個變體維護獨立模型。
2026年5月6日,Cerebras宣佈在Cerebras推理平臺上推出Multi-LoRA(多介面卡低秩適應)支援,目前處於私人預覽階段。這一新功能允許團隊在單個共享基礎模型上部署多個LoRA介面卡,從而為不同領域、任務、客戶和工作流定製模型行為,進一步實現Cerebras推理成為執行專業化AI應用最快、最簡單方式的目標。
LoRA(低秩適應)是一種輕量級介面卡,透過對基礎模型進行少量引數微調來實現專業化。與全面微調所有引數不同,團隊只需訓練一小部分適配權重,並在推理時應用。這種方法使得專業化既實用又成本高效,無需為每個變體保留完整的獨立模型。
在Cerebras推理上,Multi-LoRA的工作原理如下:Cerebras負責管理端點背後的服務基礎設施,包括基礎模型和介面卡的服務路徑。團隊可以專注於構建應用邏輯,將每個請求路由到正確的專業化版本。使用者可以透過每個請求選擇不同的LoRA介面卡,實現細粒度的專業化。
一個典型的用例是程式設計助手。Multi-LoRA允許程式設計助手按語言、框架和任務進行專業化。例如,公司可以為Python後端服務、Rust、React、PyTorch、單元測試生成或文件字串生成分別設定介面卡。這有助於程式設計助手生成更符合特定語言、框架和任務的程式碼,甚至可以為每個客戶的私有程式碼庫、內部API、遺留系統或工程規範提供個性化介面卡。
目前,Multi-LoRA支援作為Cerebras推理專用端點的私人預覽功能提供,無需額外費用。感興趣的團隊可以聯絡Cerebras客戶代表以獲取訪問許可權。