2026-05-15 10:39 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

Cerebras在Cerebras推理上推出Multi-LoRA支持

Cerebras宣布在Cerebras推理上推出Multi-LoRA（多适配器低秩适应）私人预览版，允许团队使用单个共享基础模型部署多个LoRA适配器，实现针对不同领域、任务、客户和工作流的模型专业化，无需为每个变体维护独立模型。

2026年5月6日，Cerebras宣布在Cerebras推理平台上推出Multi-LoRA（多适配器低秩适应）支持，目前处于私人预览阶段。这一新功能允许团队在单个共享基础模型上部署多个LoRA适配器，从而为不同领域、任务、客户和工作流定制模型行为，进一步实现Cerebras推理成为运行专业化AI应用最快、最简单方式的目标。

LoRA（低秩适应）是一种轻量级适配器，通过对基础模型进行少量参数微调来实现专业化。与全面微调所有参数不同，团队只需训练一小部分适配权重，并在推理时应用。这种方法使得专业化既实用又成本高效，无需为每个变体保留完整的独立模型。

在Cerebras推理上，Multi-LoRA的工作原理如下：Cerebras负责管理端点背后的服务基础设施，包括基础模型和适配器的服务路径。团队可以专注于构建应用逻辑，将每个请求路由到正确的专业化版本。用户可以通过每个请求选择不同的LoRA适配器，实现细粒度的专业化。

一个典型的用例是编程助手。Multi-LoRA允许编程助手按语言、框架和任务进行专业化。例如，公司可以为Python后端服务、Rust、React、PyTorch、单元测试生成或文档字符串生成分别设置适配器。这有助于编程助手生成更符合特定语言、框架和任务的代码，甚至可以为每个客户的私有代码库、内部API、遗留系统或工程规范提供个性化适配器。

目前，Multi-LoRA支持作为Cerebras推理专用端点的私人预览功能提供，无需额外费用。感兴趣的团队可以联系Cerebras客户代表以获取访问权限。