AI News HubLIVE
站内改写

Amazon SageMaker AI でアゼルバイジャン語モデルを訓練

アゼルバイジャンの通信事業者Azercellは、AWS Generative AI Innovation Centerと協力し、Amazon SageMaker AI上でアゼルバイジャン語LLMを構築。カスタムトークナイザー、FSDP、Liger Kernelの最適化により、トレーニングスループット23%向上、ピークGPUメモリ58%削減、トークン効率2倍を達成。

記事インテリジェンス

エンジニア上級

要点

  • AzercellがAmazon SageMaker AIでアゼルバイジャン語LLMの本番対応フレームワークを開発。
  • カスタムトークナイザーが1単語あたりのトークン数を3.22から1.59に削減し、効率が2倍に。
  • FSDPとLiger Kernelの最適化によりスループット23%向上、メモリ58%削減。
  • 3段階パイプライン:トークナイザー開発、継続事前学習、LoRA微調整。

重要な理由

このニュースが重要なのは、AzercellがAmazon SageMaker AIでアゼルバイジャン語LLMの本番対応フレームワークを開発ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

アゼルバイジャンの大手通信事業者Azercell Telecom LLCは、通信ユースケースと顧客向けチャットボット向けに、アゼルバイジャン語の大規模言語モデルをAmazon SageMaker AI上で構築したいと考えていました。課題は、形態論的に豊かな言語に基盤モデルを適応させること、訓練データが限られていること、そしてアゼルバイジャン語での効率的なLLM訓練の設計図が存在しないことでした。6週間の協業で、AzercellはAWS Generative AI Innovation Centerと共に、Amazon SageMaker AI上で本番運用可能なフレームワークを確立しました。このフレームワークは、ml.p5.48xlargeインスタンス上でカーネルレベルの最適化により、訓練スループットを23%向上させ、ピークGPUメモリを58%削減しました。また、カスタムトークナイザーにより1単語あたりのトークン数が2倍改善され、モデルのコンテキストウィンドウ内に収まるアゼルバイジャン語のテキスト量が実質的に倍増しました。

このフレームワークは3つの逐次段階を実装しており、各段階で生成された成果物が次の段階に供給されます。第1段階:トークナイザー開発——アゼルバイジャン語向けの効率的なトークナイザーを構築。3つのアプローチ(ベースラインの英語最適化トークナイザー、語彙拡張、カスタム単語トークナイザー)を評価し、カスタム単語トークナイザーが最も優れた結果を示し、ベースラインと比較して1単語あたりのトークン数を半減しました。第2段階:継続事前学習——分散訓練とLiger Kernel最適化をAmazon SageMaker AI訓練ジョブで使用し、基盤モデル(Llama 3.2 1B)をアゼルバイジャン語の理解に適応させます。第3段階:LoRAによる教師あり微調整——継続事前学習後、モデルはアゼルバイジャン語のトークンを予測できますが、対話には対応できません。LoRAはパラメータ効率の良い微調整手法で、訓練可能なパラメータを大幅に削減します。

トークナイザー開発では、バイトレベルのBPEアルゴリズムを使用して、アゼルバイジャン語テキストでカスタムトークナイザーを訓練しました。語彙サイズは10万トークンを選択しました。モデルの品質を検証するため、継続事前学習後のモデルをバイト単位のビット数で比較したところ、カスタムトークナイザーを使用したモデルは検証セットで0.5795を達成し、ベースラインの0.6830を上回りました。継続事前学習では、最初に埋め込み層のみを訓練し、次に全パラメータを訓練する2段階アプローチを採用しました。LoRA微調整では、ランク64、アルファ28で、注意層とフィードフォワード層に低ランク行列を注入し、訓練可能パラメータを約1%に削減しました。

このソリューションは、PyTorch、Hugging Face Transformers、Liger Kernelなどのオープンソースツールに基づいています。モジュール式アーキテクチャにより、各段階を独立して最適化できます。訓練ジョブはオンデマンドでEC2インスタンスをプロビジョニングし、完了後に終了するため、アイドルクラスターのコストは発生しません。