2026-06-13站内改写2 分钟阅读更新: 2026-06-13

视觉语言模型训练机器人读取人类情感

研究人员利用视觉语言模型训练协作机器人，通过结合面部表情和情境因素来读取人类情感。实验表明，VLM在情感识别上优于传统AI，个性化道歉虽受欢迎，但无法弥补机器人功能失误带来的信任损失。

来源IEEE Spectrum AI作者: Michelle Hampson

随着机器人在灵活性和其他物理能力方面的进步，人类与它们并肩工作的可能性越来越大。然而，如果这种情况发生，机器人需要具备怎样的情感能力才能成功与人协作？最近一项研究给出了部分答案。

研究人员训练协作机器人不仅通过面部表情，还通过互动中的情境因素来读取人类情感。该研究由澳大利亚墨尔本大学的Seung Chan Hong在其本科论文中领导，结果于5月18日发表在《IEEE机器人与自动化快报》上。

Hong指出，虽然机器人物理能力的进步备受关注，但这只是拼图的一部分。“我们还需要创新机器人与人类实际互动的方式，而不仅仅是它们的物理能力，”他说。这促使他深入探究人机交互中的情感方面。

研究团队决定使用视觉语言模型（VLM）来训练机器人读取人类情感。VLM类似于ChatGPT等大型语言模型，但还能处理视觉输入。为了训练VLM，研究人员让志愿者观看机器人向人类传递物体的视频（成功程度不同），并描述人类所表达的情感。重要的是，志愿者在标注视频时能够考虑更多的交互背景，而不仅仅是报告视频中人脸的面部表情。例如，一个人皱眉思考可能只是在专注于手头的任务，并不一定是愤怒。手指敲击、噘嘴等行为可以揭示皱眉的真正原因。

研究人员将VLM与依赖标准面部分析和物体跟踪的传统AI系统进行了比较。结果显示VLM表现更优：在0（与人类志愿者识别的情感意义无相似性）到1（完全匹配）的评分尺度上，传统AI得分为0.77，而VLM得分为0.86。Hong说：“我认为VLM能更好地与人类观察者的所见对齐，因为它不仅短暂地观察人脸，而是看到整个场景——人的位置、正在做什么以及如何与机器人互动。”

在第二项实验中，研究团队让40名志愿者与使用VLM的机器人互动，但特意让机器人犯错。随后机器人要么提供情感自适应道歉（根据对人类错误反应的感知调整），要么提供预先编写的道歉。参与者压倒性地偏好情感自适应回应，40人中有31人更喜欢这种而非标准道歉。

然而，调查回应表明，情感适应性远不如机器人的功能性重要。在完成失败的任务后，无论机器人如何道歉，许多参与者对机器人的信任度都降低了。“个性化道歉是一种社交润滑剂，但它无法修复机器人在物理任务失败中所损失的信任，”Hong说。

有趣的是，VLM对情感的分类与从第三方视角观察互动的志愿者相似。但在第二项实验中，当VLM的评估与人类自我报告的情感（最准确的真实情感描述）进行比较时，其准确预测能力显著下降。“虽然VLM是外部社会线索的良好观察者，但它不是读心者，”Hong说，“它与第三人称的人类观察者匹配良好，但并不总是与用户内部自我报告的感受一致。”

总的来说，这些结果表明机器人并不完美地解读人类情感。因此，尽管人们可能欣赏机器人的努力，但他们最终仍希望拥有称职的协作者。