2026-05-15 10:39 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Cerebras在Cerebras推理上推出Multi-LoRA支援

Cerebras宣佈在Cerebras推理上推出Multi-LoRA（多介面卡低秩適應）私人預覽版，允許團隊使用單個共享基礎模型部署多個LoRA介面卡，實現針對不同領域、任務、客戶和工作流的模型專業化，無需為每個變體維護獨立模型。

2026年5月6日，Cerebras宣佈在Cerebras推理平臺上推出Multi-LoRA（多介面卡低秩適應）支援，目前處於私人預覽階段。這一新功能允許團隊在單個共享基礎模型上部署多個LoRA介面卡，從而為不同領域、任務、客戶和工作流定製模型行為，進一步實現Cerebras推理成為執行專業化AI應用最快、最簡單方式的目標。

LoRA（低秩適應）是一種輕量級介面卡，透過對基礎模型進行少量引數微調來實現專業化。與全面微調所有引數不同，團隊只需訓練一小部分適配權重，並在推理時應用。這種方法使得專業化既實用又成本高效，無需為每個變體保留完整的獨立模型。

在Cerebras推理上，Multi-LoRA的工作原理如下：Cerebras負責管理端點背後的服務基礎設施，包括基礎模型和介面卡的服務路徑。團隊可以專注於構建應用邏輯，將每個請求路由到正確的專業化版本。使用者可以透過每個請求選擇不同的LoRA介面卡，實現細粒度的專業化。

一個典型的用例是程式設計助手。Multi-LoRA允許程式設計助手按語言、框架和任務進行專業化。例如，公司可以為Python後端服務、Rust、React、PyTorch、單元測試生成或文件字串生成分別設定介面卡。這有助於程式設計助手生成更符合特定語言、框架和任務的程式碼，甚至可以為每個客戶的私有程式碼庫、內部API、遺留系統或工程規範提供個性化介面卡。

目前，Multi-LoRA支援作為Cerebras推理專用端點的私人預覽功能提供，無需額外費用。感興趣的團隊可以聯絡Cerebras客戶代表以獲取訪問許可權。