2026-05-15 10:39 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Cerebras在Cerebras推理上推出Multi-LoRA支持

Cerebras宣佈在Cerebras推理上推出Multi-LoRA（多適配器低秩適應）私人預覽版，允許團隊使用單個共享基礎模型部署多個LoRA適配器，實現針對不同領域、任務、客户和工作流的模型專業化，無需為每個變體維護獨立模型。

2026年5月6日，Cerebras宣佈在Cerebras推理平台上推出Multi-LoRA（多適配器低秩適應）支持，目前處於私人預覽階段。這一新功能允許團隊在單個共享基礎模型上部署多個LoRA適配器，從而為不同領域、任務、客户和工作流定製模型行為，進一步實現Cerebras推理成為運行專業化AI應用最快、最簡單方式的目標。

LoRA（低秩適應）是一種輕量級適配器，通過對基礎模型進行少量參數微調來實現專業化。與全面微調所有參數不同，團隊只需訓練一小部分適配權重，並在推理時應用。這種方法使得專業化既實用又成本高效，無需為每個變體保留完整的獨立模型。

在Cerebras推理上，Multi-LoRA的工作原理如下：Cerebras負責管理端點背後的服務基礎設施，包括基礎模型和適配器的服務路徑。團隊可以專注於構建應用邏輯，將每個請求路由到正確的專業化版本。用户可以通過每個請求選擇不同的LoRA適配器，實現細粒度的專業化。

一個典型的用例是編程助手。Multi-LoRA允許編程助手按語言、框架和任務進行專業化。例如，公司可以為Python後端服務、Rust、React、PyTorch、單元測試生成或文檔字符串生成分別設置適配器。這有助於編程助手生成更符合特定語言、框架和任務的代碼，甚至可以為每個客户的私有代碼庫、內部API、遺留系統或工程規範提供個性化適配器。

目前，Multi-LoRA支持作為Cerebras推理專用端點的私人預覽功能提供，無需額外費用。感興趣的團隊可以聯繫Cerebras客户代表以獲取訪問權限。