論文の概要: Slots, Transitions, Loops: Learning Composable World Models for ARC
- arxiv url: http://arxiv.org/abs/2606.12316v1
- Date: Wed, 10 Jun 2026 16:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.57494
- Title: Slots, Transitions, Loops: Learning Composable World Models for ARC
- Title(参考訳): スロット、トランジション、ループ:ARCのための構成可能な世界モデルを学ぶ
- Authors: Gege Gao, Bernhard Schölkopf, Andreas Geiger,
- Abstract要約: ARCルールは、オブジェクト、色、形状、空間関係のグリッド遷移として現れる。
構造化状態に対する構成可能な遷移としてこれらのルールを学習するオブジェクト中心の世界モデリングアーキテクチャであるLoop-OWMを紹介する。
- 参考スコア(独自算出の注目度): 68.3300299717344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ARC tests in-context rule induction: given a few input-output demonstrations, a model must infer the hidden rule and apply it to a new query. While many approaches express ARC rules through language, code, or symbolic programs, ARC itself is visual-symbolic: rules appear as grid transitions over objects, colors, shapes, and spatial relations. We introduce Loop-OWM, an object-centric world-modeling architecture that learns these rules as composable transitions over structured states. It combines color-prototype slots, demonstration-conditioned task summaries, and a looped transition model with dense propagation and slot-conditioned correction. On both ARC-1 and ARC-2, Loop-OWM outperforms non-looped and looped baselines with comparable or fewer parameters. These results suggest that ARC rules can be learned not only as language descriptions or searched programs, but also as transitions over visual-symbolic world states.
- Abstract(参考訳): ARCテスト コンテキスト内ルールの帰納: 入力出力のデモがいくつかある場合、モデルは隠れたルールを推論し、それを新しいクエリに適用しなければならない。
多くのアプローチが言語、コード、シンボリックプログラムを通じてARCルールを表現しているが、ARC自体が視覚的シンボリックであり、ルールはオブジェクト、色、形状、空間的関係のグリッド遷移として現れる。
構造化状態に対する構成可能な遷移としてこれらのルールを学習するオブジェクト中心の世界モデリングアーキテクチャであるLoop-OWMを紹介する。
カラープロトタイプスロット、デモコンディション付きタスクサマリー、高密度伝播とスロットコンディショニングによるループ遷移モデルを組み合わせる。
ARC-1 と ARC-2 では、Loop-OWM は非ループベースラインとループベースラインを同等または少ないパラメータで上回る。
これらの結果から,ARCルールは言語記述や検索プログラムだけでなく,視覚的象徴的世界状態への遷移としても学べることが示唆された。
関連論文リスト
- GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning [28.844098517315228]
グラフ構造化データの抽象的推論のためのベンチマークであるGraphARCを紹介する。
各タスクは、新しいテストグラフに適用する少数の入出力ペアから変換ルールを推論する必要がある。
我々はGraphARCの最先端言語モデルを評価し、明確な制限を観察する。
論文 参考訳(メタデータ) (2026-05-29T09:03:30Z) - Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and
the Importance of Object-based Representations [50.431003245201644]
GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないことを示す。
本稿では,外部ツールから得られるオブジェクトベース表現を提案する。これにより,解決されたARCタスクのパフォーマンスがほぼ倍増し,より簡単な1D-ARC上でのほぼ完璧なスコアが得られた。
論文 参考訳(メタデータ) (2023-05-26T16:32:17Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z) - Adaptive Recursive Circle Framework for Fine-grained Action Recognition [95.51097674917851]
ビデオにおける微粒な空間時間ダイナミクスのモデル化は、アクション認識にとって難しい問題である。
既存のほとんどのメソッドは、純粋なフィードフォワード方式でレイヤの特徴を生成する。
本稿では,純粋なフィードフォワード層のための微細なデコレータであるAdaptive Recursive Circleフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-25T14:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。