2026-06-13站内改写2 分鐘閱讀更新: 2026-06-13

視覺語言模型訓練機器人讀取人類情感

研究人員利用視覺語言模型訓練協作機器人，透過結合面部表情和情境因素來讀取人類情感。實驗表明，VLM在情感識別上優於傳統AI，個性化道歉雖受歡迎，但無法彌補機器人功能失誤帶來的信任損失。

來源IEEE Spectrum AI作者: Michelle Hampson

隨著機器人在靈活性和其他物理能力方面的進步，人類與它們並肩工作的可能性越來越大。然而，如果這種情況發生，機器人需要具備怎樣的情感能力才能成功與人協作？最近一項研究給出了部分答案。

研究人員訓練協作機器人不僅透過面部表情，還透過互動中的情境因素來讀取人類情感。該研究由澳大利亞墨爾本大學的Seung Chan Hong在其本科論文中領導，結果於5月18日發表在《IEEE機器人與自動化快報》上。

Hong指出，雖然機器人物理能力的進步備受關注，但這只是拼圖的一部分。“我們還需要創新機器人與人類實際互動的方式，而不僅僅是它們的物理能力，”他說。這促使他深入探究人機互動中的情感方面。

研究團隊決定使用視覺語言模型（VLM）來訓練機器人讀取人類情感。VLM類似於ChatGPT等大型語言模型，但還能處理視覺輸入。為了訓練VLM，研究人員讓志願者觀看機器人向人類傳遞物體的影片（成功程度不同），並描述人類所表達的情感。重要的是，志願者在標註影片時能夠考慮更多的互動背景，而不僅僅是報告影片中人臉的面部表情。例如，一個人皺眉思考可能只是在專注於手頭的任務，並不一定是憤怒。手指敲擊、噘嘴等行為可以揭示皺眉的真正原因。

研究人員將VLM與依賴標準面部分析和物體跟蹤的傳統AI系統進行了比較。結果顯示VLM表現更優：在0（與人類志願者識別的情感意義無相似性）到1（完全匹配）的評分尺度上，傳統AI得分為0.77，而VLM得分為0.86。Hong說：“我認為VLM能更好地與人類觀察者的所見對齊，因為它不僅短暫地觀察人臉，而是看到整個場景——人的位置、正在做什麼以及如何與機器人互動。”

在第二項實驗中，研究團隊讓40名志願者與使用VLM的機器人互動，但特意讓機器人犯錯。隨後機器人要麼提供情感自適應道歉（根據對人類錯誤反應的感知調整），要麼提供預先編寫的道歉。參與者壓倒性地偏好情感自適應回應，40人中有31人更喜歡這種而非標準道歉。

然而，調查回應表明，情感適應性遠不如機器人的功能性重要。在完成失敗的任務後，無論機器人如何道歉，許多參與者對機器人的信任度都降低了。“個性化道歉是一種社交潤滑劑，但它無法修復機器人在物理任務失敗中所損失的信任，”Hong說。

有趣的是，VLM對情感的分類與從第三方視角觀察互動的志願者相似。但在第二項實驗中，當VLM的評估與人類自我報告的情感（最準確的真實情感描述）進行比較時，其準確預測能力顯著下降。“雖然VLM是外部社會線索的良好觀察者，但它不是讀心者，”Hong說，“它與第三人稱的人類觀察者匹配良好，但並不總是與使用者內部自我報告的感受一致。”

總的來說，這些結果表明機器人並不完美地解讀人類情感。因此，儘管人們可能欣賞機器人的努力，但他們最終仍希望擁有稱職的協作者。