AI News HubLIVE
站内改写1 分钟阅读

Cerebras在Cerebras推理上推出Multi-LoRA支持

Cerebras宣布在Cerebras推理上推出Multi-LoRA(多适配器低秩适应)私人预览版,允许团队使用单个共享基础模型部署多个LoRA适配器,实现针对不同领域、任务、客户和工作流的模型专业化,无需为每个变体维护独立模型。

2026年5月6日,Cerebras宣布在Cerebras推理平台上推出Multi-LoRA(多适配器低秩适应)支持,目前处于私人预览阶段。这一新功能允许团队在单个共享基础模型上部署多个LoRA适配器,从而为不同领域、任务、客户和工作流定制模型行为,进一步实现Cerebras推理成为运行专业化AI应用最快、最简单方式的目标。

LoRA(低秩适应)是一种轻量级适配器,通过对基础模型进行少量参数微调来实现专业化。与全面微调所有参数不同,团队只需训练一小部分适配权重,并在推理时应用。这种方法使得专业化既实用又成本高效,无需为每个变体保留完整的独立模型。

在Cerebras推理上,Multi-LoRA的工作原理如下:Cerebras负责管理端点背后的服务基础设施,包括基础模型和适配器的服务路径。团队可以专注于构建应用逻辑,将每个请求路由到正确的专业化版本。用户可以通过每个请求选择不同的LoRA适配器,实现细粒度的专业化。

一个典型的用例是编程助手。Multi-LoRA允许编程助手按语言、框架和任务进行专业化。例如,公司可以为Python后端服务、Rust、React、PyTorch、单元测试生成或文档字符串生成分别设置适配器。这有助于编程助手生成更符合特定语言、框架和任务的代码,甚至可以为每个客户的私有代码库、内部API、遗留系统或工程规范提供个性化适配器。

目前,Multi-LoRA支持作为Cerebras推理专用端点的私人预览功能提供,无需额外费用。感兴趣的团队可以联系Cerebras客户代表以获取访问权限。