AI News HubLIVE
站内改写2 分で読了

ショッピング推論ベンチマーク:マルチターン会話型ショッピングアシスタントのための専門家作成ベンチマーク

ショッピング推論ベンチマーク(Shopping Reasoning Bench)は、小売ドメインの専門家によって作成された新しいベンチマークであり、525のミッション(シングルターン232、マルチターン293)と10,863の重要度加重バイナリルーブリックで構成されています。嗜好の洗練、トレードオフ分析、互換性評価などのマルチターン推論能力を評価します。GPT、Claude、Geminiなどのトップモデルの評価では、全体的な合格率はわずか57~77%であり、マルチターンタスクでは大幅に低下し、専門家レベルのアドバイスにはまだギャップがあることを示しています。

ソースarXiv Computational Linguistics著者: Shuxian Fan, Seonwoo Min, Youna Hu, Botao Xia, Jayakrishnan Unnikrishnan, Rowan Musselmann, Yifan Gao, Qingyu Yin, Priyanka Nigam, Bing Yin

会話型ショッピングアシスタントは現在、数億人の顧客にサービスを提供していますが、既存のベンチマークは実際のショッピング会話に必要なオープンエンドなマルチターン推論、ドメイン専門知識、および基準レベルの品質を同時に評価していません。ショッピング推論は言語モデルアプリケーションの中でも独特であり、事実に基づく質問応答や検証可能なコード生成とは異なり、主観的な嗜好、予算制約、および製品間のトレードオフをマルチターンの対話を通じてバランスさせる必要があります。これらの能力は従来のeコマースや汎用ベンチマークには欠けていました。

この課題に対処するため、研究チームはショッピング推論ベンチマーク(Shopping Reasoning Bench)を導入しました。これは小売ドメインの専門家によって作成されたベンチマークであり、525のミッション(シングルターン232、マルチターン293)と、専門家によって作成された10,863の重要度加重バイナリルーブリックで構成されています。これらの基準は、嗜好の洗練、トレードオフ分析、互換性評価などの多様な要求をカバーする5つの推論カテゴリと15のサブカテゴリの分類体系の下に整理されています。

3つのファミリー(GPT、Claude、Gemini)にわたる9つのモデルの評価では、全体的な合格率はわずか57~77%であることが示されました。マルチターンミッションでは、すべてのモデルで、オプションの追加基準でのスコアが必須基準より13~29ポイント低く、会話が進むにつれてパフォーマンスが4~18ポイント低下しました。これらのギャップは、現在のモデルが基本的なショッピングアシスタンスを処理できるものの、専門家レベルのアドバイスには程遠いことを示しています。ショッピング推論ベンチマークは、将来のショッピングアシスタント開発のための挑戦的なテストベッドとなっています。