論文の概要: Language-Guided Abstraction for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2606.12847v1
- Date: Thu, 11 Jun 2026 03:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.559389
- Title: Language-Guided Abstraction for Visual Reasoning
- Title(参考訳): ビジュアル推論のための言語ガイドによる抽象化
- Authors: Xu-Jing Ye, Yuan-Gen Wang, Ruping Wang,
- Abstract要約: 本稿では,プライビレグド情報ブランチを用いた言語指導学習を通じて視覚的推論を強化する新しいフレームワークを提案する。
具体的には、DeepSeek-V3にタスクに依存しない統一的なプロンプトを供給することで、セマンティック圧縮モジュールを設計する。
また,視覚的特徴を意味的埋め込みと整合させるクロスアテンションプロジェクタを設計し,ARCモデルのトレーニングを指導することを目的とした。
- 参考スコア(独自算出の注目度): 8.097020439992205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Abstraction and Reasoning Corpus (ARC) is viewed as a critical avenue to Artificial General Intelligence (AGI), as it enables models to learn abstract transformation rules from few-shot examples and then generalize to new tasks. However, prevalent ARC methodology is either pure language or vision-only (i.e., VARC). The former depends heavily on LLMs, consuming billions of parameters. The latter often struggles to capture high-level semantics, leading to overfitting on pixel-level patterns. To bridge this gap, we propose L-VARC, a novel framework that enhances visual reasoning via a language-guided Learning Using Privileged Information (LUPI) branch. Specifically, we design a Semantic Compression Module by feeding a unified, task-agnostic prompt into DeepSeek-V3. In this way, the raw LARC (a crowd-sourced language description dataset) can be substantially refined and structured, fitting with the context length constraint of standard text encoders (e.g., CLIP). Moreover, we design a Cross-Attention Projector to align visual features with semantic embeddings, aiming to guide the training of the ARC model. Notably, the LUPI branch is taken in the training process and will be discarded during inference, thereby yielding a lightweight model with a mere 18 million parameters. Extensive experiments demonstrate that our L-VARC effectively leverages linguistic priors to boost visual reasoning and outperforms state-of-the-art. Ablation studies further confirm the contribution of the two new designs towards the L-VARC framework. The code is available at https://github.com/GZHU-DVL/L-VARC.
- Abstract(参考訳): 抽象推論コーパス(ARC)は、モデルがいくつかの例から抽象変換ルールを学習し、新しいタスクに一般化できるようにするため、人工知能(AGI)にとって重要な道であると見なされている。
しかし、一般的なARCの方法論は純粋言語か視覚のみ(すなわちVARC)である。
前者はLLMに大きく依存し、数十億のパラメータを消費する。
後者は高レベルのセマンティクスをキャプチャするのにしばしば苦労し、ピクセルレベルのパターンに過度に適合する。
このギャップを埋めるために,L-VARCを提案する。L-VARCは言語誘導学習(LUPI)ブランチを介して視覚的推論を強化する新しいフレームワークである。
具体的には、DeepSeek-V3にタスクに依存しない統一的なプロンプトを供給することで、セマンティック圧縮モジュールを設計する。
このようにして、生のLARC(クラウドソース言語記述データセット)は、標準テキストエンコーダ(例えば、CLIP)のコンテキスト長制約に適合して、大幅に洗練され、構造化される。
さらに,視覚的特徴を意味的埋め込みと整合させるクロスアテンションプロジェクタを設計し,ARCモデルのトレーニングを指導することを目的とした。
特に、LUPIブランチはトレーニングプロセスに取り入れられ、推論中に破棄されるため、わずか1800万のパラメータを持つ軽量モデルが生成される。
我々のL-VARCは、視覚的推論を向上し、最先端の成果を上げるために、言語的先行を効果的に活用することを示した。
アブレーション研究は、L-VARCフレームワークに対する2つの新しい設計の貢献をさらに確認した。
コードはhttps://github.com/GZHU-DVL/L-VARCで公開されている。
関連論文リスト
- Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - ARC Is a Vision Problem! [50.59206008530851]
視覚パラダイム内のARCを画像から画像への変換問題として定義する。
私たちのフレームワークであるVision ARCは、ARC-1ベンチマークで60.4%の精度を実現しています。
論文 参考訳(メタデータ) (2025-11-18T18:59:49Z) - Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects [31.926206783846144]
視覚変換器(ViT)は、タスク毎に100万のサンプルをトレーニングしても、ほとんどのARCタスクで劇的に失敗することを示す。
ARCに必要な視覚的推論能力のいくつかを解放する,ViTARC スタイルのアーキテクチャを提案する。
タスク固有のViTARCモデルは、400のパブリックARCタスクの半数以上において、100%に近い確率で解決できる。
論文 参考訳(メタデータ) (2024-10-08T22:25:34Z) - Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。
ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。
プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-06-27T12:05:55Z) - LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and
the Importance of Object-based Representations [50.431003245201644]
GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないことを示す。
本稿では,外部ツールから得られるオブジェクトベース表現を提案する。これにより,解決されたARCタスクのパフォーマンスがほぼ倍増し,より簡単な1D-ARC上でのほぼ完璧なスコアが得られた。
論文 参考訳(メタデータ) (2023-05-26T16:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。