为何不测量AI对人类的影响?
随着AI系统能力提升,大量资源用于衡量AI性能,但对其对人类认知、关系和行为的影响却缺乏系统测量。人道技术中心的Imran Khan指出,AI可能重塑人类基本能力,而当前评估体系忽视了最关键的指标——人类福祉。文章讨论了AI在社交、教育、情感支持等领域的潜在危害,并呼吁长期研究、数据共享和监管改革。
随着人工智能系统能力不断提升,大量资源和精力被投入到衡量其技术性能上。研究人员关注技术评估指标,对AI进行推理测试,追踪其吞吐量等等。然而,有一个关键指标常常被忽视,而这个指标可以说是最重要的:AI对人类做了什么?
非营利组织“人道技术中心”的心理社会评估负责人伊姆兰·汗在最近的一篇文章中指出,我们正在部署能够重塑认知、关系和行为的AI工具,但却几乎没有系统地衡量它们对我们的下游影响。这种对AI心理社会效应的关注,类似于社交媒体及其危害的讨论,但汗认为AI的影响可能更广泛、更亲密。
在IEEE Spectrum与汗的对话中,他解释了为何AI评估如此狭窄,如何有意义地衡量人类结果,以及AI行业是否有动力提出这些问题。汗表示,我们花费大量精力去测量AI在一些抽象任务上的表现,这些任务与大多数人的日常生活关系有限,但AI对人类福祉的影响却测量得少得多。这形成了一个奇怪的悖论:我们最应该关心的事情,却测量得最少。
汗提到了一些高调案例,他认为这些只是冰山一角——青少年自杀、AI精神病、人们花费大量时间或金钱与谄媚的AI聊天机器人互动。他认为这些危害已经存在,但由于公众压力,OpenAI已经调整了其聊天模型,这表明实验室会关注并回应审查。因此,我们有潜力改变技术方向,使其既有用又减少伤害。
然而,在社会层面的危害更难把握。汗担心如果不尽快开始测量这些现象,将会为时已晚。他批评了AI公司认为用户最看重便利性和生产力的说法,指出用户往往有矛盾的需求。我们需要理解的不只是用户在忙碌或高压力时做出的选择,而是他们希望与这项技术建立什么样的健康关系。
汗特别强调了几个关键领域:情感陪伴与支持,儿童与青少年使用,教育,以及危机响应。他认为,当人们孤独时,真正需要的是另一个人类,而AI无法真正关心你。在儿童与青少年身上,我们不知道移除认知任务或情感参与的门槛会对发育中的大脑产生什么长期影响。
为了衡量AI的社会影响,汗呼吁进行长期研究,类似于药品上市后的监测。他主张开放更多数据给外部研究人员,同时保护隐私。他还提到,行业整体有动力分享数据以建立信任,而责任制度是另一个杠杆。理想情况下,监管应包含责任,但不应完全依赖不稳定的政治环境。
展望五年后,汗认为成功将是汇聚AI实验室、政府、监管机构、大学和初创公司的专业知识,共同定义人类与AI之间的良好关系。他担心如果现在不开始了解这些技术的人类效应,我们将远远落后于曲线,无法评估未来的变化。