AI News HubLIVE
サイト内リライト2 分で読了

Cerebras、Cerebras InferenceでMulti-LoRAサポートを開始

Cerebrasは、Cerebras Inference上でMulti-LoRA(マルチアダプター低ランク適応)のプライベートプレビューを発表しました。これにより、チームは1つの共有ベースモデルで複数のLoRAアダプターをデプロイし、異なるドメイン、タスク、顧客、ワークフロー向けにモデルを専門化できます。

ソースCerebras Blog

2026年5月6日、CerebrasはCerebras Inferenceプラットフォーム上でMulti-LoRA(マルチアダプター低ランク適応)のサポートを開始し、現在プライベートプレビュー段階にあります。この新機能により、チームは単一の共有ベースモデル上に複数のLoRAアダプターをデプロイし、異なるドメイン、タスク、顧客、ワークフローに合わせてモデルの動作を専門化できます。これにより、Cerebras Inferenceが専門化されたAIアプリケーションを実行するための最速かつ最もシンプルな方法であるというミッションを前進させます。

LoRA(低ランク適応)は、ベースモデルを専門化するためにトレーニングされた軽量アダプターです。ベースモデルのすべてのパラメーターを微調整する代わりに、チームははるかに小さなアダプターウェイトをトレーニングし、推論時に適用します。これにより、各バリアントに個別のフルモデルを必要とせず、専門化が実用的かつコスト効率の高いものになります。

Cerebras Inference上でのMulti-LoRAの仕組み:Cerebrasはエンドポイント背後にあるサービングインフラストラクチャを管理します。ベースモデルとアダプターのサービングパスを管理するため、チームは各リクエストを適切な専門化にルーティングするアプリケーションロジックの構築に集中できます。ユーザーはリクエストごとに異なるLoRAアダプターを適用でき、きめ細かな専門化が可能です。

典型的なユースケースとして、コーディングアシスタントが挙げられます。Multi-LoRAを使用すると、コーディングアシスタントは言語、フレームワーク、タスクごとに専門化できます。例えば、Pythonバックエンドサービス、Rust、React、PyTorch、単体テスト生成、ドキュメント文字列生成などに特化したアダプターを用意できます。これにより、コーディングアシスタントは汎用的なコード生成から、言語、フレームワーク、タスクに適した出力へと進化します。さらに、顧客固有のコードベース、内部API、レガシーシステム、エンジニアリング規約向けのアダプターを提供することで、より個人化された支援が可能になります。

現在、Multi-LoRAはCerebras Inference専用エンドポイントユーザー向けに追加費用なしでプライベートプレビューとして提供されています。利用を希望するチームは、Cerebrasのアカウント担当者にお問い合わせください。