2026-06-03 13:44 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

資料驅動AI導論

本課程介紹資料驅動AI（Data-Centric AI），這是一門新興學科，專注於系統性地改進資料集以提升機器學習效能，涵蓋標籤錯誤檢測、類別不平衡和資料整理等技術。這是該領域的首門課程，於2024年MIT IAP期間開設，包含Python實踐練習。

來源Hacker News AI作者: teleforce

資料驅動AI（Data-Centric AI）是一門新興的學科，旨在系統性地改進機器學習中的資料集，以提高模型效能。傳統的機器學習課程通常教導如何針對給定資料集構建有效的模型，但在實際應用中，資料往往存在噪聲和問題，而改進模型並非提升效能的唯一途徑。資料驅動AI主張，透過改善資料集本身——而非將其視為固定不變——往往能更有效地提升實際ML應用的效果。儘管優秀的資料科學家早已透過試錯和直覺手動實踐這一理念，但資料驅動AI將其提升為一門系統的工程學科。

這是MIT首次開設的資料驅動AI課程，於2024年1月獨立活動期（IAP）舉辦。課程內容覆蓋了監督學習任務（如分類）中常見的資料問題及其修復演算法，以及如何構建更好的資料集。所有教學內容高度實用，聚焦於實際ML應用中的關鍵問題，而非特定模型的數學細節。學員可以學到多數ML課程未曾涉及的實用技巧，有助於緩解實際應用中常見的“垃圾進，垃圾出”問題。

課程大綱包括：1月16日介紹資料驅動AI與模型驅動AI的對比；17日講解標籤錯誤與自信學習；18日深入自信學習及LLM/GenAI應用；19日討論類別不平衡、異常值和分佈偏移；22日涉及資料集建立與整理；23日介紹ML模型的資料中心評估；24日探討大語言模型的資料整理。此外，課程還包含往年專題，如資料集擴充套件/壓縮、可解釋性、資料增強與提示工程、資料隱私與安全等。每場講座都配有Python/Jupyter Notebook的動手程式設計練習，學員可自行或組隊完成，但無需提交作業。

課程時間為2024年1月16日至26日，中午12點至下午1點在2-190教室授課。由Anish、Curtis和Jonas共同講授。學員需具備基礎機器學習知識（如6.036/6.390）和Python資料處理技能（pandas、NumPy、scikit-learn、Jupyter Notebook）。課程免費面向所有人，無學分要求。

該課程還透過Reddit、Hacker News等平臺分享，旨在惠及更多學習者。特別感謝MIT開放學習、EECS等部門對課程的支援。課程原始碼採用CC BY-NC-SA許可，歡迎貢獻與翻譯。