AI News HubLIVE
站内改写2 分鐘閱讀

資料驅動AI導論

本課程介紹資料驅動AI(Data-Centric AI),這是一門新興學科,專注於系統性地改進資料集以提升機器學習效能,涵蓋標籤錯誤檢測、類別不平衡和資料整理等技術。這是該領域的首門課程,於2024年MIT IAP期間開設,包含Python實踐練習。

來源Hacker News AI作者: teleforce

資料驅動AI(Data-Centric AI)是一門新興的學科,旨在系統性地改進機器學習中的資料集,以提高模型效能。傳統的機器學習課程通常教導如何針對給定資料集構建有效的模型,但在實際應用中,資料往往存在噪聲和問題,而改進模型並非提升效能的唯一途徑。資料驅動AI主張,透過改善資料集本身——而非將其視為固定不變——往往能更有效地提升實際ML應用的效果。儘管優秀的資料科學家早已透過試錯和直覺手動實踐這一理念,但資料驅動AI將其提升為一門系統的工程學科。

這是MIT首次開設的資料驅動AI課程,於2024年1月獨立活動期(IAP)舉辦。課程內容覆蓋了監督學習任務(如分類)中常見的資料問題及其修復演算法,以及如何構建更好的資料集。所有教學內容高度實用,聚焦於實際ML應用中的關鍵問題,而非特定模型的數學細節。學員可以學到多數ML課程未曾涉及的實用技巧,有助於緩解實際應用中常見的“垃圾進,垃圾出”問題。

課程大綱包括:1月16日介紹資料驅動AI與模型驅動AI的對比;17日講解標籤錯誤與自信學習;18日深入自信學習及LLM/GenAI應用;19日討論類別不平衡、異常值和分佈偏移;22日涉及資料集建立與整理;23日介紹ML模型的資料中心評估;24日探討大語言模型的資料整理。此外,課程還包含往年專題,如資料集擴充套件/壓縮、可解釋性、資料增強與提示工程、資料隱私與安全等。每場講座都配有Python/Jupyter Notebook的動手程式設計練習,學員可自行或組隊完成,但無需提交作業。

課程時間為2024年1月16日至26日,中午12點至下午1點在2-190教室授課。由Anish、Curtis和Jonas共同講授。學員需具備基礎機器學習知識(如6.036/6.390)和Python資料處理技能(pandas、NumPy、scikit-learn、Jupyter Notebook)。課程免費面向所有人,無學分要求。

該課程還透過Reddit、Hacker News等平臺分享,旨在惠及更多學習者。特別感謝MIT開放學習、EECS等部門對課程的支援。課程原始碼採用CC BY-NC-SA許可,歡迎貢獻與翻譯。