2026-06-03 14:44 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

データ中心AI入門

このコースでは、データ中心AI（Data-Centric AI）を紹介します。これは、機械学習の性能を向上させるためにデータセットを体系的に改善する新興分野であり、ラベルエラー検出、クラス不均衡、データセットキュレーションなどの技術をカバーします。MIT IAP 2024で初めて開講されたコースで、Pythonのハンズオンラボが含まれています。

ソースHacker News AI著者: teleforce

データ中心AI（Data-Centric AI、DCAI）は、機械学習におけるデータセットを体系的に改善する新興の学問分野です。従来の機械学習コースでは、与えられたデータセットに対して効果的なモデルを構築する手法が教えられますが、実世界のアプリケーションではデータは不完全であり、モデルを改善するだけでは性能向上に十分ではありません。データセット自体を固定せずに改善することで、実用的なMLアプリケーションの性能を大幅に向上させることができます。DCAIは、これまで優れたデータサイエンティストが試行錯誤や直感で行ってきたデータ改善を、体系的なエンジニアリング分野として捉えます。

本コースは、DCAIに関する初めてのコースであり、MITのIAP 2024（2024年1月の独立活動期間）に開催されました。コースでは、分類などの教師あり学習タスクで使用されるデータの一般的な問題を発見・修正し、より良いデータセットを構築するためのアルゴリズムをカバーします。すべての教材は非常に実践的であり、特定のモデルの数学的詳細ではなく、実世界のMLアプリケーションの影響力のある側面に焦点を当てています。このコースを受講することで、多くのMLクラスではカバーされない実践的なテクニックを学び、多くの実世界MLアプリケーションを悩ませる「ゴミ入れゴミ出し」問題を緩和することができます。

シラバスは以下の通りです：1月16日：データ中心AI対モデル中心AI、1月17日：ラベルエラーと自信学習、1月18日：高度な自信学習、LLMおよびGenAI応用、1月19日：クラス不均衡、外れ値、分布シフト、1月22日：データセットの作成とキュレーション、1月23日：MLモデルのデータ中心評価、1月24日：LLMのデータキュレーション。また、過去の特別トピックとして、データセットの拡大・圧縮、解釈可能性、データ拡張とプロンプトエンジニアリング、データプライバシーとセキュリティなども含まれます。各講義には、Python/Jupyter Notebookを使用したハンズオンのプログラミング演習が付属しており、個人またはグループで取り組むことができます。単位は付与されないIAPクラスであるため、課題の提出は不要です。

コース期間は2024年1月16日から26日まで、講義は午後12時から1時まで2-190教室で行われます。講師はAnish、Curtis、Jonasです。受講には、基礎的な機械学習コース（6.036/6.390など）の修了と、Pythonおよび基本的なデータサイエンスエコシステム（pandas、NumPy、scikit-learn、Jupyter Notebook）に精通していることが推奨されます。コースは誰でも歓迎されており、事前知識がない場合でも受講可能ですが、上記の前提条件を満たしているとより効果的です。

このコースはMIT外でも共有されており、Reddit、Hacker News、LinkedIn、Twitterなどで議論されています。講義ビデオの録画を可能にしてくれたMIT Open LearningのElaine Mello氏、2024年提供を支援したEllen Reid氏とLisa Bella氏、2023年提供を支援したKate Weishaar氏、講義ビデオの編集と字幕を担当したAshay Athalye氏に感謝します。ソースコードはCC BY-NC-SAライセンスの下で提供されています。