2026-05-07 15:47 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

让AI系统更透明、更可信：专访温希明

在本期AAAI/SIGAI博士联盟系列访谈中，我们采访了正在研究透明可信AI系统的温希明。她分享了关于原型可解释模型、空间定位以及将可解释性应用于医疗AI和大型语言模型的研究工作。

来源AIhub作者: Lucy Smith

本期AAAI/SIGAI博士联盟系列访谈聚焦于温希明，一位致力于让AI系统更加透明和可信的研究者。我们深入了解了她的研究、实习经历以及投身AI领域的初衷。

关于博士研究

温希明是费城德雷塞尔大学信息科学专业的博士生。她的研究围绕如何让AI系统更透明、更可信展开。她指出，当前的语言模型能够给出看似自信的答案，但人们很难验证这些答案是否正确或源自何处。她致力于构建能够展示推理过程并指出输出依据的模型，尤其是在医疗和法律文件审查等关键领域，让用户真正信任AI。

研究进展

她的博士研究始于一个问题：能否构建出性能足够优秀、可实际应用的可解释模型？以往的可解释模型在准确性上总是落后于黑盒模型，难以被采用。她开发了一种基于原型的方法，成功缩小了这一差距——模型通过展示学习到的相似实例来解释决策，而性能并未降低。随后，她将该方法扩展到生成式模型，探索模型不仅能给出答案，还能精准指出答案来源的可能性。此外，她还将这些思想应用于医疗AI，开发出即使在训练数据极少的情况下也能运行的、可解释的诊断工具。

空间定位的突破

研究中最令她兴奋的莫过于空间定位工作。当她重新设计模型学习空间坐标的方式后，准确率从约65%跃升至85%以上。她解释说，之前的损失函数实际上忽略了文档中的小区域，导致模型直接忽略它们。引入尺度感知损失函数后，一切发生了改变。这一经历让她深刻认识到，教学方式与模型本身同样重要——这也是她整个论文的核心思想。

未来方向

温希明计划将原型可解释性扩展到更大的生成式模型中。目前，基于原型的方法大多仅适用于分类任务，而将这种基于案例的推理扩展到生成式模型仍是一项开放挑战。她正在探索的一个方向是分析模型不同层如何编码不同类型知识，并利用这种结构构建更丰富、更精细的模型输出解释。另一个方向是将原型推理整合到奖励模型中，使AI对齐过程本身更加透明——通过解释奖励模型为何偏好某一回答，可以构建更安全、更可信的AI系统。

行业研究经历

在位于山景城的三星美国研究院，她作为NLP研究实习生，在语言智能团队解决了一个看似简单却极具挑战的问题：AI能否阅读复杂文档、回答问题并精准定位答案来源？她开发了新的训练方法，教会模型理解文档中坐标之间的空间关系，显著提升了答案定位的准确性。该工作已被ACL 2025接收。

在亚马逊的应用科学家实习期间，她构建了一个自动生成产品类别定义的系统。亚马逊市场拥有数百万商品和数千类别，每个类别都需要清晰的定义来准确涵盖所有商品。此前，这些定义由人工编写，耗时数周且难以跟上新品和新兴类别的速度。她开发的系统自动生成定义，在准确性和清晰度上均超越了人工编写的版本。她认为，当任务涉及综合数百万条信息时，AI可以产生比人工更准确、更一致的结果——前提是输出被设计得清晰可信。

两个实习经历都强化了一个教训：仅构建强大的AI是不够的。如果人们无法理解或验证模型的输出，技术就无法发挥全部潜力。

研究AI的初衷

温希明对AI的兴趣始于本科毕业设计，当时她用MNIST数据集训练了一个简单的神经网络，发现即使是小模型也能达到95%以上的准确率。这一瞬间激发了她：如果简单网络能理解图像，能否理解人类语言？能否与人进行真实对话？她对这个问题充满热情。随着GPT和大型语言模型的出现，许多曾经的科幻想象已成为现实。但系统越强大，她越思考一个新的问题：我们能否让这些系统足够安全、可信，让人们真正依赖它们？她相信这是AI发挥全部潜力的关键，也是驱动她当前研究的动力。

工作之余

温希明喜欢亲近自然。她喜欢在费城费尔蒙特公园的河边散步，看日落；冬天在波科诺山滑雪；夏天划皮艇或漂流。自然是最好的充电方式，让她保持身心平衡。

关于温希明

温希明是德雷塞尔大学信息科学博士生，研究聚焦于使语言模型更可解释、更可信。她的工作涵盖基于原型的可解释文本分类模型和空间定位的文档问答架构。她在ACL、COLING、AAAI等顶级会议发表论文，并参与了NIH和DARPA资助的联邦研究项目。她还在三星美国研究院、亚马逊和平安科技积累了行业研究经验。研究之外，她喜欢划皮艇、滑雪和探索费城周边的自然风光。