AI News HubLIVE
サイト内リライト3 分で読了

DoppelがModalでMLインフラ税を排除した方法

AIネイティブなサイバーセキュリティプラットフォームであるDoppelは、MLワークフローをModalに移行することで、実験の高速化と推論の簡素化を実現しました。トレーニング実験は並列化され、フィードバックループが短縮されました。推論ビルドは30分から1分未満に短縮され、トラフィックの急増に自動的にスケールします。

ソースModal Blog

Doppelは、ソーシャルエンジニアリング攻撃を検出し妨害するAIネイティブプラットフォームです。脅威の状況は常に変化しており、機械学習モデルも迅速に進化する必要があります。そのため、MLワークロードには2つの核となる要件があります。迅速な実験と、信頼性が高くスケーラブルな推論です。しかし、長い間、インフラストラクチャの摩擦が両方の場面で速度を低下させていました。トレーニング実験は逐次実行され、推論デプロイには重いコンテナパイプラインが必要であり、小さな運用上の詳細がスタック全体に蓄積されていました。

最近、DoppelはMLワークフローの大部分をModalに移行し、その結果、イテレーションの速度に大きな変化が生まれました。トレーニングにおいて、最大のボトルネックは実験のスループットでした。実験が逐次実行されると、新しい仮説は前回の実行が終了するまで待たなければならず、失敗するとフィードバックループが最初からやり直しになりました。各実行にはコストがかかるため、チームは複数のアイデアを1つの実験に詰め込むことが多く、その結果、どの変更が実際にパフォーマンスを向上させたのかを切り分けるのが困難になりました。Modalを使用することで、追加のオーケストレーションインフラを構築することなく、実験を並行して実行できるようになりました。例えば、K分割交差検証では、各分割は独立しているため、逐次ではなく同時に実行できます。コードは通常のPythonのままで、Modalが並列実行を処理します。このパターンはトレーニングワークフロー全体に現れ、チームは多くの仮説を同時に評価し、アイデアから結果へのフィードバックループを短縮できます。

また、Doppelはコーディングエージェントを活用して実験ループを改善しています。トレーニングワークフローは「変更を提案→実験を実行→結果を要約→証拠に基づいて次の変更を提案」という緊密な反復サイクルに従います。エージェントは実験の起動、メトリクスの収集、結果の要約といった機械的なステップを担当し、MLエンジニアはテストする価値のあるアイデアを決定します。ModalのCLIはこのワークフローに自然に適合し、エージェントはコマンドラインから直接実験を起動し、ログを確認し、出力を取得し、後続の実行をトリガーできます。Modalの並列処理能力と組み合わせることで、チームは同じ時間内にはるかに多くのアイデアを評価でき、ボトルネックはインフラから「次にどの実験を実行する価値があるか」という意思決定へと移ります。

推論において、Doppelのモデルはリアルタイム検出パイプラインを駆動し、低レイテンシと弾力的なスケーラビリティが重要です。攻撃トラフィックは本質的に予測不可能であり、モデルはしばらくアイドル状態になった後、フィッシングキャンペーンが発生すると突然リクエストの急増を受ける可能性があります。以前のGCP推論スタックでは、カスタムDockerコンテナへのモデルパッケージング、Cloud Runサービスのデプロイ、Flaskエンドポイントの公開が必要でした。大規模なモデルイメージのビルドには10〜30分かかることが多く、小さな設定変更でもデプロイとイテレーションが遅れました。Cloud Runの各インスタンスは単一GPUしかアタッチできず、GPU推論のスケーリングには通常、多数の単一GPUインスタンスを水平方向にスケーリングする必要がありました。トラフィックの急増は、新しいインスタンスがオンラインになる際のコールドスタートやプロビジョニングの遅延を引き起こす可能性もありました。さらに、各モデルデプロイでは、認証、シリアライゼーション、リクエストルーティングを処理するためにFlaskエンドポイントの周りにHTTPサービス層を構築する必要があり、これらの小さなピースが積み重なって進捗を遅らせました。

Modalはこのワークフローのいくつかの部分を簡素化しました。イメージレイヤーキャッシングとモデル重みの永続ボリュームにより、ビルド時間が最大10倍短縮され、複雑なモデルセットアップでもウォームビルドが1分未満になりました。スケーリング動作も簡素化され、Modalはサーバーレスアーキテクチャを介して推論ワークロードを需要に応じて自動的にスケーリングし、新しいキャンペーンが発生した際のトラフィックスパイクを吸収します。Modalはまた、以前各モデルの周りに構築していたHTTPサービス層を除去し、推論関数をHTTP経由で呼び出す代わりに、Modalの抽象化を介して直接呼び出せるようにします。その結果、デプロイフローはよりシンプルになり、保守する統合コードが大幅に減少しました。

結論として、ModalがDoppelのMLワークフローにもたらした最大の変化は、モデルに関する運用コストの削減でした。トレーニングでは、以前は逐次実行されていた実験を並列実行可能なワークロードに変えました。推論では、モデルサービスのパッケージ化、デプロイ、スケーリングに伴う手作業のオーバーヘッドの多くを排除しました。これらの機能は従来のクラウドインフラ上でも構築不可能ではありませんが、検出モデルを迅速に出荷することに焦点を当てた小規模なMLチームにとって、Modalはスケーラブルなアーキテクチャを簡単かつ明白に構築する手段を提供します。その結果、ワークフローの制限要因はもはやインフラではなく、次のアイデアを生成し評価する速度だけになっています。