AI News HubLIVE
站内改写2 分钟阅读

视觉语言模型训练机器人读取人类情感

研究人员利用视觉语言模型训练协作机器人,通过结合面部表情和情境因素来读取人类情感。实验表明,VLM在情感识别上优于传统AI,个性化道歉虽受欢迎,但无法弥补机器人功能失误带来的信任损失。

来源IEEE Spectrum AI作者: Michelle Hampson

随着机器人在灵活性和其他物理能力方面的进步,人类与它们并肩工作的可能性越来越大。然而,如果这种情况发生,机器人需要具备怎样的情感能力才能成功与人协作?最近一项研究给出了部分答案。

研究人员训练协作机器人不仅通过面部表情,还通过互动中的情境因素来读取人类情感。该研究由澳大利亚墨尔本大学的Seung Chan Hong在其本科论文中领导,结果于5月18日发表在《IEEE机器人与自动化快报》上。

Hong指出,虽然机器人物理能力的进步备受关注,但这只是拼图的一部分。“我们还需要创新机器人与人类实际互动的方式,而不仅仅是它们的物理能力,”他说。这促使他深入探究人机交互中的情感方面。

研究团队决定使用视觉语言模型(VLM)来训练机器人读取人类情感。VLM类似于ChatGPT等大型语言模型,但还能处理视觉输入。为了训练VLM,研究人员让志愿者观看机器人向人类传递物体的视频(成功程度不同),并描述人类所表达的情感。重要的是,志愿者在标注视频时能够考虑更多的交互背景,而不仅仅是报告视频中人脸的面部表情。例如,一个人皱眉思考可能只是在专注于手头的任务,并不一定是愤怒。手指敲击、噘嘴等行为可以揭示皱眉的真正原因。

研究人员将VLM与依赖标准面部分析和物体跟踪的传统AI系统进行了比较。结果显示VLM表现更优:在0(与人类志愿者识别的情感意义无相似性)到1(完全匹配)的评分尺度上,传统AI得分为0.77,而VLM得分为0.86。Hong说:“我认为VLM能更好地与人类观察者的所见对齐,因为它不仅短暂地观察人脸,而是看到整个场景——人的位置、正在做什么以及如何与机器人互动。”

在第二项实验中,研究团队让40名志愿者与使用VLM的机器人互动,但特意让机器人犯错。随后机器人要么提供情感自适应道歉(根据对人类错误反应的感知调整),要么提供预先编写的道歉。参与者压倒性地偏好情感自适应回应,40人中有31人更喜欢这种而非标准道歉。

然而,调查回应表明,情感适应性远不如机器人的功能性重要。在完成失败的任务后,无论机器人如何道歉,许多参与者对机器人的信任度都降低了。“个性化道歉是一种社交润滑剂,但它无法修复机器人在物理任务失败中所损失的信任,”Hong说。

有趣的是,VLM对情感的分类与从第三方视角观察互动的志愿者相似。但在第二项实验中,当VLM的评估与人类自我报告的情感(最准确的真实情感描述)进行比较时,其准确预测能力显著下降。“虽然VLM是外部社会线索的良好观察者,但它不是读心者,”Hong说,“它与第三人称的人类观察者匹配良好,但并不总是与用户内部自我报告的感受一致。”

总的来说,这些结果表明机器人并不完美地解读人类情感。因此,尽管人们可能欣赏机器人的努力,但他们最终仍希望拥有称职的协作者。

视觉语言模型训练机器人读取人类情感 | AI News Hub