論文の概要: When Robots Rate Their Own Interactions: Engagement Validity and the Strangeness Failure
- arxiv url: http://arxiv.org/abs/2606.23339v1
- Date: Mon, 22 Jun 2026 13:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:09:08.060144
- Title: When Robots Rate Their Own Interactions: Engagement Validity and the Strangeness Failure
- Title(参考訳): ロボットが自分のインタラクションを評価するとき:エンゲージメントの妥当性と奇妙な失敗
- Authors: Victor Lockwood, Hasan Mahmud, Mohammad Javad Khojasteh, Prabu David, Jamison Heard,
- Abstract要約: HRI(Human-robot Interaction)の評価は、ほぼ完全なアンケートにのみ依存する。
そこで本研究では,LLMを利用したロボットが自身の視点で同じ標準楽器を完成する,テキスト変換評価手法を提案する。
- 参考スコア(独自算出の注目度): 3.3336885015001365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-robot interaction (HRI) evaluation relies almost exclusively on human-completed questionnaires, leaving the robot's perspective unexamined. We propose an \textit{inverted evaluation}, in which LLM-powered robots complete the same standardized instruments from their own perspective, and test whether these ratings agree with human ground truth. In Study~1, five LLMs completed HRI-CUES, Godspeed, and RoSAS questionnaires for 25~interactions ($N = 1{,}522$ evaluations) from the HRI-CUES dataset. LLMs achieved moderate-to-strong agreement on engagement dimensions (satisfaction $r$ up to $.65$ and enjoyment $r$ up to $.72$) with excellent test-retest reliability (ICC $\geq .82$), but \textit{systematically inverted} the comfort/strangeness dimension ($r = -.44$ to $-.67$, all $p < .05$), conflating engagement with comfort. In Study~2, a Nao robot running Claude~Sonnet~4.5 replicated these patterns in live interactions ($N = 4$), including real-time turn-by-turn assessment. The strangeness failure persisted across five models, synthetic controls, and embodied deployment for two participants. We argue that current LLM-based robots lack access to the internal affective states needed to assess constructs like strangeness, and that inverted evaluation requires supplementary modalities (e.g., physiological signals, gaze, proxemics) to move beyond behavioral proxies. These findings establish boundary conditions for using LLMs as interaction evaluators in HRI.
- Abstract(参考訳): HRI (Human-robot Interaction) の評価は、人間の完全アンケートにのみ依存しており、ロボットの視点は未検討のままである。
そこで本研究では,LLMを動力とするロボットが同一の標準楽器を自視点で完成する「textit{inverted evaluation」を提案し,これらの評価が人間の根拠的真理に合致するかどうかを検証した。
Study~1では、HRI-CUESデータセットから25~インタラクション(N = 1{,}522$)の5つのLLMがHRI-CUES、Godspeed、RoSASのアンケートを完了した。
LLMは、エンゲージメントディメンション(satisfaction $r$ から $.65$ まで)と、優れたテスト-テスト信頼性(ICC $\geq .82$)を備えたエンゲージメントディメンション(satisfaction $r$ と enjoyment $r$ から $.72$ まで)について、中途半端な合意を達成したが、快適さとストレンジネスディメンション(satisfaction $r$ から $-.67$ まで、すべての $p < .05$)を融合させ、快適さとエンゲージメントを融合させた。
Study~2では、Claude〜Sonnet〜4.5が、リアルタイムのターンバイターンアセスメントを含む、これらのパターンをライブインタラクション(N = 4$)で再現した。
おかしな失敗は5つのモデル、合成制御、そして2人の参加者の体現された配置に留まった。
我々は,現在のLSMベースのロボットは,奇異性などの構造を評価するのに必要な内的情緒状態にアクセスできないこと,逆評価には,行動プロキシを越えるための補足的モダリティ(生理的信号,視線,プロキシなど)が必要であることを論じる。
これらの結果から,LLMをHRIの相互作用評価器として使用するための境界条件が確立された。
関連論文リスト
- DataLadder: A Simulation-Enabled Interconversion Toolchain for the Embodied Data Pyramid [63.45560198934907]
ジェネラリストロボットポリシーは、信頼できる評価とロボット使用可能なトレーニングデータを必要とする。
本稿では,人間ロボットによるモデル評価とデータ生成のためのシミュレーション可能な変換ツールチェーンであるDataLadderを提案する。
JD Cloud上のクラウドサービスとして、コア再構築、シミュレーション、レンダリング、リアリズム拡張モジュールをパッケージ化します。
論文 参考訳(メタデータ) (2026-06-15T14:21:35Z) - Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models [3.9351446512514947]
ユーザ・ターン・ジェネレーションはLLMの振る舞いやインタラクション・アウェアネスの次元を捉えており、現在のアシスタント・オンリー・ベンチマークでは探索されていない。
この結果から,ユーザターン生成はLLMの振る舞いやインタラクションの認識の次元を捉えていることがわかった。
論文 参考訳(メタデータ) (2026-04-02T17:57:29Z) - Lightweight Visual Reasoning for Socially-Aware Robots [41.776442767736604]
視覚言語モデル(VLM)におけるLLMとビジョンエンコーダのループを閉じる軽量な言語間フィードバックモジュールを提案する。
本研究では,シミュレーション環境におけるナビゲーション,シーン記述の逐次的記述,人間意図認識という,ロボット中心の3つのタスクに対して,このアプローチを評価する。
その結果,Qwen 2.5 (7B) を$3.3%(非距離),$+0.057$記述スコア,$+2.93%$精度で改善し,さらに$3%未満のパラメータが得られた。
論文 参考訳(メタデータ) (2026-03-04T11:08:44Z) - Knowing But Not Doing: Convergent Morality and Divergent Action in LLMs [18.492825007258656]
Redditから派生した3000のアドバイス検索シナリオのデータセットであるValAct-15kを提示する。
シナリオベースの決定では、ほぼ完全なクロスモデル一貫性が得られます。
人間と大言語モデルは、自己申告された値と実行された値の間の弱い対応を示す。
論文 参考訳(メタデータ) (2026-01-12T20:07:30Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants? [61.07963107032645]
大規模言語モデル(LLM)は、対話型アプリケーションでますます使われている。
人間の評価は、マルチターン会話におけるパフォーマンスを評価するためのゴールドスタンダードのままである。
我々は、909の注釈付き人間とLLMの会話を2つの対話タスクで行うベンチマークであるSimulatorArenaを紹介した。
論文 参考訳(メタデータ) (2025-10-06T23:17:44Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - Are Large Language Models Aligned with People's Social Intuitions for Human-Robot Interactions? [7.308479353736709]
大規模言語モデル(LLM)は、ロボット工学、特にハイレベルな行動計画にますます使われている。
本研究では,人間とロボットの相互作用のシナリオにおいて,LLMが人々の直感やコミュニケーションを再現するかどうかを検証する。
視覚モデルでは映像刺激の本質を捉えることができず、LLMは人よりもコミュニケーション行動や行動を評価する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-03-08T22:23:23Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。