視覺語言模型訓練機器人讀取人類情感
研究人員利用視覺語言模型訓練協作機器人,透過結合面部表情和情境因素來讀取人類情感。實驗表明,VLM在情感識別上優於傳統AI,個性化道歉雖受歡迎,但無法彌補機器人功能失誤帶來的信任損失。
隨著機器人在靈活性和其他物理能力方面的進步,人類與它們並肩工作的可能性越來越大。然而,如果這種情況發生,機器人需要具備怎樣的情感能力才能成功與人協作?最近一項研究給出了部分答案。
研究人員訓練協作機器人不僅透過面部表情,還透過互動中的情境因素來讀取人類情感。該研究由澳大利亞墨爾本大學的Seung Chan Hong在其本科論文中領導,結果於5月18日發表在《IEEE機器人與自動化快報》上。
Hong指出,雖然機器人物理能力的進步備受關注,但這只是拼圖的一部分。“我們還需要創新機器人與人類實際互動的方式,而不僅僅是它們的物理能力,”他說。這促使他深入探究人機互動中的情感方面。
研究團隊決定使用視覺語言模型(VLM)來訓練機器人讀取人類情感。VLM類似於ChatGPT等大型語言模型,但還能處理視覺輸入。為了訓練VLM,研究人員讓志願者觀看機器人向人類傳遞物體的影片(成功程度不同),並描述人類所表達的情感。重要的是,志願者在標註影片時能夠考慮更多的互動背景,而不僅僅是報告影片中人臉的面部表情。例如,一個人皺眉思考可能只是在專注於手頭的任務,並不一定是憤怒。手指敲擊、噘嘴等行為可以揭示皺眉的真正原因。
研究人員將VLM與依賴標準面部分析和物體跟蹤的傳統AI系統進行了比較。結果顯示VLM表現更優:在0(與人類志願者識別的情感意義無相似性)到1(完全匹配)的評分尺度上,傳統AI得分為0.77,而VLM得分為0.86。Hong說:“我認為VLM能更好地與人類觀察者的所見對齊,因為它不僅短暫地觀察人臉,而是看到整個場景——人的位置、正在做什麼以及如何與機器人互動。”
在第二項實驗中,研究團隊讓40名志願者與使用VLM的機器人互動,但特意讓機器人犯錯。隨後機器人要麼提供情感自適應道歉(根據對人類錯誤反應的感知調整),要麼提供預先編寫的道歉。參與者壓倒性地偏好情感自適應回應,40人中有31人更喜歡這種而非標準道歉。
然而,調查回應表明,情感適應性遠不如機器人的功能性重要。在完成失敗的任務後,無論機器人如何道歉,許多參與者對機器人的信任度都降低了。“個性化道歉是一種社交潤滑劑,但它無法修復機器人在物理任務失敗中所損失的信任,”Hong說。
有趣的是,VLM對情感的分類與從第三方視角觀察互動的志願者相似。但在第二項實驗中,當VLM的評估與人類自我報告的情感(最準確的真實情感描述)進行比較時,其準確預測能力顯著下降。“雖然VLM是外部社會線索的良好觀察者,但它不是讀心者,”Hong說,“它與第三人稱的人類觀察者匹配良好,但並不總是與使用者內部自我報告的感受一致。”
總的來說,這些結果表明機器人並不完美地解讀人類情感。因此,儘管人們可能欣賞機器人的努力,但他們最終仍希望擁有稱職的協作者。