AI News HubLIVE
站内改写2 分钟阅读

数据驱动AI导论

本课程介绍数据驱动AI(Data-Centric AI),这是一门新兴学科,专注于系统性地改进数据集以提升机器学习性能,涵盖标签错误检测、类别不平衡和数据整理等技术。这是该领域的首门课程,于2024年MIT IAP期间开设,包含Python实践练习。

来源Hacker News AI作者: teleforce

数据驱动AI(Data-Centric AI)是一门新兴的学科,旨在系统性地改进机器学习中的数据集,以提高模型性能。传统的机器学习课程通常教导如何针对给定数据集构建有效的模型,但在实际应用中,数据往往存在噪声和问题,而改进模型并非提升性能的唯一途径。数据驱动AI主张,通过改善数据集本身——而非将其视为固定不变——往往能更有效地提升实际ML应用的效果。尽管优秀的数据科学家早已通过试错和直觉手动实践这一理念,但数据驱动AI将其提升为一门系统的工程学科。

这是MIT首次开设的数据驱动AI课程,于2024年1月独立活动期(IAP)举办。课程内容覆盖了监督学习任务(如分类)中常见的数据问题及其修复算法,以及如何构建更好的数据集。所有教学内容高度实用,聚焦于实际ML应用中的关键问题,而非特定模型的数学细节。学员可以学到多数ML课程未曾涉及的实用技巧,有助于缓解实际应用中常见的“垃圾进,垃圾出”问题。

课程大纲包括:1月16日介绍数据驱动AI与模型驱动AI的对比;17日讲解标签错误与自信学习;18日深入自信学习及LLM/GenAI应用;19日讨论类别不平衡、异常值和分布偏移;22日涉及数据集创建与整理;23日介绍ML模型的数据中心评估;24日探讨大语言模型的数据整理。此外,课程还包含往年专题,如数据集扩展/压缩、可解释性、数据增强与提示工程、数据隐私与安全等。每场讲座都配有Python/Jupyter Notebook的动手编程练习,学员可自行或组队完成,但无需提交作业。

课程时间为2024年1月16日至26日,中午12点至下午1点在2-190教室授课。由Anish、Curtis和Jonas共同讲授。学员需具备基础机器学习知识(如6.036/6.390)和Python数据处理技能(pandas、NumPy、scikit-learn、Jupyter Notebook)。课程免费面向所有人,无学分要求。

该课程还通过Reddit、Hacker News等平台分享,旨在惠及更多学习者。特别感谢MIT开放学习、EECS等部门对课程的支持。课程源代码采用CC BY-NC-SA许可,欢迎贡献与翻译。