論文の概要: Aligned but Not Partner-Specific: Distinguishing How Multimodal LLM Agents Succeed in Reference Games Without Human-Like Conventions
- arxiv url: http://arxiv.org/abs/2606.08081v1
- Date: Sat, 06 Jun 2026 10:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.765768
- Title: Aligned but Not Partner-Specific: Distinguishing How Multimodal LLM Agents Succeed in Reference Games Without Human-Like Conventions
- Title(参考訳): LLMのマルチモーダルなエージェントが、人間のような慣習を使わずに参照ゲームでいかに学んだか
- Authors: Po-Ya Angela Wang, Chinmaya Mishra, Aslı Özyürek, Paula Rubio-Fernández, Esam Ghaleb,
- Abstract要約: 我々はKTH Tangrams corpusのヒトダイアドと有能なマルチモーダルエージェントダイアドを比較した。
人間は、トレーニング、説明の圧縮、パートナーとのラベルアライメントの増大による労力を削減します。
エージェントは固定された作業レベルを維持し、ラウンド1から冗長な記述を生成する。
- 参考スコア(独自算出の注目度): 2.3410384770553154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repeated reference games test whether interlocutors replace their initially long descriptions with shorter, partner-specific conventions grounded in shared interaction history. Prior work shows that multimodal LLMs fail to become more efficient across rounds, although they align on the labels they use. How can we determine whether this alignment reflects partner-specific grounding rather than a shared task vocabulary? We address this question by comparing capable multimodal agent dyads with human dyads from the KTH Tangrams corpus. Our novel methodological contribution is a constrained pseudo-dyad baseline that matches the original referential task structure, but breaks partner history. This baseline enables us to test whether the observed label alignment depends on interaction with a specific partner. Across three analytic layers (task competence, description strategy, alignment dynamics), we find clear differences. Humans reduce effort through entrainment, compressing descriptions and increasing label alignment with partners. Agents instead maintain fixed effort levels, producing verbose descriptions from round one, with near-ceiling label overlap that is statistically indistinguishable between real and pseudo dyads. MLLMs thus achieve coordination without convention, succeeding by verbose description rather than by forming the compact, history-dependent referring expressions characteristic of human dialogue.
- Abstract(参考訳): 繰り返し参照ゲームは、インターロケータが初期の長い記述を、共有インタラクション履歴に基づくより短いパートナー固有の慣習に置き換えるかどうかをテストする。
以前の研究によると、マルチモーダル LLM は、使用するラベルに適合するが、ラウンド毎に効率が良くならない。
このアライメントが共有タスク語彙よりも,パートナ固有の接地を反映するかどうかをどうやって判断すればよいのか?
KTH Tangrams corpus の人間ダイアドと有能なマルチモーダルエージェントダイアドを比較し,この問題に対処する。
提案手法は,従来の参照タスク構造と一致するが,パートナー履歴を破る制約付き擬似ダイアドベースラインである。
このベースラインは、観測されたラベルアライメントが特定のパートナーとの相互作用に依存するかどうかをテストすることができる。
3つの分析層(タスク能力、説明戦略、アライメントダイナミクス)にまたがって、明らかな相違点を見出す。
人間は、トレーニング、説明の圧縮、パートナーとのラベルアライメントの増大による労力を削減します。
エージェントは固定された作業レベルを維持し、ラウンド1から冗長な記述を生成する。
MLLMは、人間の対話の特徴を持つコンパクトで歴史に依存した参照表現を形成するのではなく、冗長な記述によって、慣例なく協調する。
関連論文リスト
- A Simple Yet Strong Baseline for Long-Term Conversational Memory of LLM Agents [4.706565675142042]
LLMベースの会話エージェントは、多くのセッションにおいてコヒーレントでパーソナライズされたインタラクションを維持するのに依然として苦労している。
ニューダビッドソンのイベントセマンティクスに触発され、会話履歴を短く、イベントのような命題として表現するイベント中心の代替案を提案する。
我々の設計は、情報を非圧縮形式で保存し、より損失の多いものよりもアクセスしやすくすることを目的としています。
論文 参考訳(メタデータ) (2025-11-21T12:41:17Z) - Instance Relation Learning Network with Label Knowledge Propagation for Few-shot Multi-label Intent Detection [26.403716144346756]
MID(Multi-label Intent Detection)は対話システムにおいて重要であり,複数の発話意図を検出することを目的としている。
複数ラベルの連成学習手法をエンドツーエンドに提案する。
実験では、1ショットシナリオで平均9.54%のAUCと11.19%のMacro-F1で強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-10-09T04:47:06Z) - Multi-Label Classification for Implicit Discourse Relation Recognition [10.280148603465697]
暗黙的な談話関係認識のための多言語分類フレームワークについて検討する。
本研究では,複数ラベルの分類手法が単一ラベルの予測性能を低下させないことを示す。
論文 参考訳(メタデータ) (2024-06-06T19:37:25Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation [60.62039705180484]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。