2026-06-03 13:44 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

数据驱动AI导论

本课程介绍数据驱动AI（Data-Centric AI），这是一门新兴学科，专注于系统性地改进数据集以提升机器学习性能，涵盖标签错误检测、类别不平衡和数据整理等技术。这是该领域的首门课程，于2024年MIT IAP期间开设，包含Python实践练习。

来源Hacker News AI作者: teleforce

数据驱动AI（Data-Centric AI）是一门新兴的学科，旨在系统性地改进机器学习中的数据集，以提高模型性能。传统的机器学习课程通常教导如何针对给定数据集构建有效的模型，但在实际应用中，数据往往存在噪声和问题，而改进模型并非提升性能的唯一途径。数据驱动AI主张，通过改善数据集本身——而非将其视为固定不变——往往能更有效地提升实际ML应用的效果。尽管优秀的数据科学家早已通过试错和直觉手动实践这一理念，但数据驱动AI将其提升为一门系统的工程学科。

这是MIT首次开设的数据驱动AI课程，于2024年1月独立活动期（IAP）举办。课程内容覆盖了监督学习任务（如分类）中常见的数据问题及其修复算法，以及如何构建更好的数据集。所有教学内容高度实用，聚焦于实际ML应用中的关键问题，而非特定模型的数学细节。学员可以学到多数ML课程未曾涉及的实用技巧，有助于缓解实际应用中常见的“垃圾进，垃圾出”问题。

课程大纲包括：1月16日介绍数据驱动AI与模型驱动AI的对比；17日讲解标签错误与自信学习；18日深入自信学习及LLM/GenAI应用；19日讨论类别不平衡、异常值和分布偏移；22日涉及数据集创建与整理；23日介绍ML模型的数据中心评估；24日探讨大语言模型的数据整理。此外，课程还包含往年专题，如数据集扩展/压缩、可解释性、数据增强与提示工程、数据隐私与安全等。每场讲座都配有Python/Jupyter Notebook的动手编程练习，学员可自行或组队完成，但无需提交作业。

课程时间为2024年1月16日至26日，中午12点至下午1点在2-190教室授课。由Anish、Curtis和Jonas共同讲授。学员需具备基础机器学习知识（如6.036/6.390）和Python数据处理技能（pandas、NumPy、scikit-learn、Jupyter Notebook）。课程免费面向所有人，无学分要求。

该课程还通过Reddit、Hacker News等平台分享，旨在惠及更多学习者。特别感谢MIT开放学习、EECS等部门对课程的支持。课程源代码采用CC BY-NC-SA许可，欢迎贡献与翻译。