2026-06-13站内改写3 分で読了更新: 2026-06-13

視覚言語モデルがロボットに人間の感情を読み取る訓練を行う

研究者らは視覚言語モデルを用いて協働ロボットに人間の感情を読み取る訓練を行い、表情だけでなく文脈要因も考慮することで従来のAIよりも優れた性能を示した。しかし、適応的な謝罪は好まれたものの、機能的な失敗による信頼損失は修復できなかった。

ソースIEEE Spectrum AI著者: Michelle Hampson

ロボットの器用さやその他の物理的能力が進歩するにつれて、人間がロボットと一緒に働く可能性が高まっています。もしそうなった場合、ロボットがうまく人間と協力するためには、感情能力をどのように発展させる必要があるでしょうか？最近の研究で、研究者らは協働ロボットに人間の感情を読み取る訓練を行いました。この訓練では、表情だけでなく、相互作用の文脈要因も考慮します。

この研究は、オーストラリアのメルボルン大学で学部論文の一環としてSeung Chan Hongが主導し、結果は5月18日に『IEEE Robotics and Automation Letters』に掲載されました。Hong氏は、ロボットの物理的能力の向上に多くの注目が集まっているが、これはパズルの一部に過ぎないと指摘します。「私たちは、物理的能力だけでなく、人間との実際の相互作用に関しても革新を起こす必要があります」と彼は述べています。

研究チームは、視覚言語モデル（VLM）を用いてロボットに感情読み取りを訓練することにしました。VLMはChatGPTのような大規模言語モデルに似ていますが、視覚入力も処理できます。VLMを訓練するために、研究者らはボランティアにロボットが物体を人間に手渡す（成功度はさまざま）ビデオを見せ、人間が表現している感情を説明させました。重要なのは、ビデオをラベル付けするボランティアが、相互作用のより多くの文脈を考慮できたことです。例えば、眉をひそめて考える人は単に手元の作業に集中しているだけで、必ずしも怒っているわけではありません。指をドラムのように叩く、唇をすぼめるなどの行動が、眉をひそめる本当の原因を示す可能性があります。

研究者らはVLMを、標準的な顔分析と物体追跡に依存する従来のAIシステムと比較しました。その結果、VLMが従来のアプローチを上回ることがわかりました。0（人間ボランティアが特定した感情と意味に類似性なし）から1（完全一致）のスケールで、従来のAIは0.77、VLMは0.86を達成しました。Hong氏は、「VLMは人間の観察者が見ているものとよりよく一致できたと思います。なぜなら、人の顔を短時間見るだけでなく、シーン全体——人の位置、何をしているか、ロボットとどのように相互作用しているか——を見ているからです」と述べています。

第2の実験では、研究チームは40人のボランティアにVLMを使用したロボットと対話させましたが、意図的にロボットにエラーを発生させました。ロボットはその後、人間のエラーに対する知覚反応を考慮した感情適応型の謝罪か、事前にスクリプト化された謝罪を提供しました。参加者は圧倒的に感情適応型の応答を好み、40人中31人が標準的な謝罪よりもこのアプローチを選びました。

しかし、調査回答からは、感情適応性はロボットの機能性よりもはるかに重要ではないことが明らかになりました。タスクに失敗したロボットと協力した後、多くの参加者は謝罪の方法に関係なく、ロボットへの信頼を低く評価しました。「パーソナライズされた謝罪は社会的潤滑油として機能しますが、ロボットが物理的タスクに失敗したことで失われた信頼を修復することはできません」とHong氏は述べています。

興味深いことに、VLMは第三者視点から相互作用を観察した人間のボランティアと同様に感情を分類しました。しかし、第2実験でVLMの評価を人間の自己報告感情（真の感情の最も正確な記述）と比較したところ、感情を正確に予測する能力は大幅に低下しました。「VLMは外部の社会的合図の良い観察者ですが、心を読むことはできません」とHong氏は言います。「第三者観察者とはよく一致しましたが、ユーザーの内部の自己報告感情とは必ずしも一致しませんでした。」

これらの結果は、ロボットが人間の感情を完璧に読み取ることができないことを示しています。したがって、人々はロボットの努力を評価するかもしれませんが、最終的には有能な協力者を求めています。