論文の概要: Drawing with Strangers: Population Scaling Drives Zero-Shot Mutual Intelligibility in Emergent Sketching
- arxiv url: http://arxiv.org/abs/2606.10582v1
- Date: Tue, 09 Jun 2026 08:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.398793
- Title: Drawing with Strangers: Population Scaling Drives Zero-Shot Mutual Intelligibility in Emergent Sketching
- Title(参考訳): ストランガーによる描画:集団スケーリングは創発的スケッチにおけるゼロショット相互知能を駆動する
- Authors: Jooyeon Kim,
- Abstract要約: 創発的コミュニケーションの一般化は、新しい入力や言語構造に大きく焦点を絞っている。
我々は、この能力を、個別に訓練された集団間のコミュニケーションを成功させるために、テキセロ・ショット相互信頼(ZMI)として定式化する。
トレーニング人口のスケーリングは、独立したグループ間でZMIを大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 4.849672345901367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in emergent communication has largely focused on novel inputs or linguistic structures, yet the capacity for agents to communicate with strangers from strictly disjoint communities remains relatively unexplored. In this work, we formalize this capability as \textit{zero-shot mutual intelligibility (ZMI)}: successful communication between independently trained populations without prior exposure. Leveraging emergent sketching -- in which agents communicate through sets of drawn strokes -- as a visually grounded modality, we find that scaling the training population substantially improves ZMI across independent groups. Crucially, as we scale the population size, in-group communicative variation increases, preventing co-adaptation into homogeneity. Simultaneously, cross-group variation decreases, indicating a structural convergence toward a certain type of universality. Further analysis reveals that this universality is achieved through perceptual grounding: scaled populations increasingly anchor their emergent sketches on the objective visual resemblance of the target images. Together, these results position ZMI as a distinct axis of generalization in emergent communication and suggest a route toward socially interoperable artificial agents.
- Abstract(参考訳): 創発的コミュニケーションの一般化は、新しい入力や言語構造に主に焦点を合わせてきたが、エージェントが厳密に不随意なコミュニティから見知らぬ人とコミュニケーションする能力は、いまだに明らかにされていない。
本研究では,この能力を,事前曝露を伴わずに,個別に訓練された集団間のコミュニケーションを成功させる「textit{zero-shot mutual intelligibility (ZMI)」として定式化する。
エージェントが描画されたストロークのセットを通してコミュニケーションする創発的スケッチを視覚的に基礎づけたモダリティとして活用することで、トレーニング人口のスケーリングが独立したグループ間でZMIを大幅に改善することがわかった。
重要なことに、人口規模を拡大するにつれて、グループ内のコミュニケーションの変動が増加し、同種への共適応が防止される。
同時に、群間の変動は減少し、ある種類の普遍性に対する構造的収束を示す。
拡大した人口は、ターゲット画像の客観的な視覚的類似性に基づいて、創発的なスケッチを固定する傾向にある。
これらの結果から,ZMIは創発的コミュニケーションにおける一般化の新たな軸として位置づけられ,社会的に相互運用可能な人工エージェントへの道筋が示唆された。
関連論文リスト
- SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance [49.69016078147708]
密接な相互作用シナリオにおける人間の行動の正確な再構築は、拡張現実における現実的な仮想インタラクションの実現に不可欠である。
本稿では,これらの問題に効果的に対処するための意味的および幾何学的手がかりを統合する拡散ベースのフレームワークであるSocialMirrorを提案する。
SocialMirrorはインタラクティブなヒューマンメッシュを再構築する上で,最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-04-15T07:41:52Z) - Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。
社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文 参考訳(メタデータ) (2026-02-27T13:37:11Z) - Structural Divergence Between AI-Agent and Human Social Networks in Moltbook [1.4384704121470318]
我々は,AI社会が人間のネットワークのグローバルな構造的規則性を再現できることを示す。
人間の社会組織の主な特徴は普遍的ではなく、相互作用するエージェントの性質に依存している。
論文 参考訳(メタデータ) (2026-02-13T17:17:04Z) - Learning to Communicate Across Modalities: Perceptual Heterogeneity in Multi-Agent Systems [0.8594140167290095]
エージェントがモジュール性や知覚的グラウンドの欠如が異なる異種多段階のバイナリ通信ゲームについて検討する。
知覚的ミスアライメントにもかかわらず、マルチモーダルシステムは知覚的入力を基礎としたクラス一貫性メッセージに収束する。
この研究は、エージェントが不均一なモダリティを越えて表現を適応し、伝達する方法を研究するための枠組みとして、創発的なコミュニケーションを位置づけている。
論文 参考訳(メタデータ) (2026-01-29T17:45:41Z) - Learning Human-Object Interaction as Groups [52.28258599873394]
GroupHOIは、幾何学的近接性および意味的類似性の観点から文脈情報を伝播するフレームワークである。
これは、より困難な非言語間相互作用検出タスクにおいて、主要なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-21T07:25:10Z) - MINGLE: VLMs for Semantically Complex Region Detection in Urban Scenes [49.89767522399176]
公共空間におけるグループレベルの社会的相互作用は都市計画に不可欠である。
対人関係によって定義された視覚領域の推測と空間的接地を必要とする社会集団領域検出タスクを導入する。
本稿では,人間検出と深度推定を統合したモジュール型3段階パイプラインであるMINGLEと,ソーシャルアフィリエイトを相互に分類するVLMベースの推論と,ソーシャルに連結したグループを局所化する軽量な空間アグリゲーションアルゴリズムを提案する。
そこで本稿では,個人と社会的に相互作用するグループの両方に対して,境界ボックスとラベルを付加した100万の街路ビュー画像のデータセットを提案する。
論文 参考訳(メタデータ) (2025-09-16T19:31:40Z) - Decentralized Collective World Model for Emergent Communication and Coordination [7.039405984678893]
本稿では,コミュニケーションのためのシンボルの出現と協調行動の両方を可能にする,完全に分散化されたマルチエージェント世界モデルを提案する。
提案手法は,世界モデルと通信チャネルを統合し,エージェントが環境動態を予測し,部分的な観測結果から状態を推定し,重要な情報を共有できるようにする。
論文 参考訳(メタデータ) (2025-04-04T11:17:52Z) - Emergence of human-like polarization among large language model agents [79.96817421756668]
我々は、何千もの大規模言語モデルエージェントを含むネットワーク化されたシステムをシミュレートし、それらの社会的相互作用を発見し、人間のような偏極をもたらす。
人間とLLMエージェントの類似性は、社会的分極を増幅する能力に関する懸念を提起するだけでなく、分極を緩和するためのもっともらしい戦略を識別するための貴重なテストベッドとして機能する可能性も持っている。
論文 参考訳(メタデータ) (2025-01-09T11:45:05Z) - Referential communication in heterogeneous communities of pre-trained visual deep networks [10.084626547964389]
大規模なトレーニング済みの画像処理ニューラルネットワークは、自動運転車やロボットのような自律エージェントに組み込まれている。
提案手法は,対象対象物を参照するための共有プロトコルを,自己管理的に開発することができることを示す。
既存のコミュニティには含まれなかったビジュアルネットワークは、驚くほど簡単にコミュニティのプロトコルを学ぶことができる。
論文 参考訳(メタデータ) (2023-02-04T15:55:23Z) - SRNet: Improving Generalization in 3D Human Pose Estimation with a
Split-and-Recombine Approach [40.76785688422364]
局所的なポーズ分布は、視覚認識における長い尾の問題に苦しむ。
本手法では,身体を局所的に分割し,別々のネットワークブランチで処理する。
SRNetと呼ばれる提案された分割組換えアプローチは、単一画像モデルと時間モデルの両方に容易に適応できる。
論文 参考訳(メタデータ) (2020-07-18T10:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。