論文の概要: Iterative Visual Thinking: Teaching Vision-Language Models Spatial Self-Correction through Visual Feedback
- arxiv url: http://arxiv.org/abs/2606.13156v1
- Date: Thu, 11 Jun 2026 10:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.724194
- Title: Iterative Visual Thinking: Teaching Vision-Language Models Spatial Self-Correction through Visual Feedback
- Title(参考訳): 反復的視覚思考:視覚フィードバックによる視覚言語モデルによる空間的自己補正
- Authors: Animesh Tripathy, Aswanth Krishnan,
- Abstract要約: 視覚言語モデル(VLM)は、強い単一ショット空間グラウンドを達成するが、自身の予測を観察し修正するメカニズムは欠如している。
本稿では,モデルが境界ボックスを予測するクローズドループフレームワークであるIterative Visual Thinking (IVT)を提案する。
すべてのトレーニングでは、単一のGPU上で2400のサンプルしか使用せず、空間的な自己補正が、適度なスケールで注入できる学習可能な能力であることを実証している。
- 参考スコア(独自算出の注目度): 0.023227405857540805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) achieve strong singleshot spatial grounding, yet lack any mechanism to observe and correct their own predictions. We find that naively prompting a VLM to iterate over rendered visualizations of its predictions causes catastrophic failure: Acc@0.5 on referring expression comprehension collapses from 79.6% to 48.7% (a 31 percentage point drop), revealing a fundamental gap between grounding capability and self-correction ability. We propose Iterative Visual Thinking (IVT), a closed-loop framework in which the model predicts a bounding box, observes the prediction rendered on the image, and iteratively refines through visual feedback. A two-phase training recipe closes the self-correction gap: first, we exploit the base model's own predictions as realistic errors and prompt a teacher VLM to generate corrective reasoning traces, yielding supervised data without human annotation; second, we apply Group Relative Policy Optimization (GRPO) with a simple IoU reward to stabilize multi-step refinement. On a mixed benchmark spanning RefCOCOg, Ref-Adv, and Ref-L4 (505 test samples), SFT warm-up with IVT surpasses the single-shot base model on every metric: Acc@0.5 rises to 82.0% (+2.4pp), Acc@0.7 to 74.1% (+3.2pp), and Acc@0.9 to 48.3% (+2.8pp). GRPO further reduces per-step IoU degradation by 5x, stabilizing the refinement trajectory. All training uses only 2,400 samples on a single GPU, demonstrating that spatial self-correction is a learnable capability that can be instilled at modest scale.
- Abstract(参考訳): 視覚言語モデル(VLM)は、強い単一ショット空間グラウンドを達成するが、自身の予測を観察し修正するメカニズムは欠如している。
Acc@0.5による表現理解の崩壊は79.6%から48.7%(31ポイント低下)となり、接地能力と自己補正能力の根本的なギャップが明らかになる。
本稿では,モデルが境界ボックスを予測するクローズドループフレームワークであるIterative Visual Thinking (IVT)を提案する。
まず,基本モデルの予測を現実的な誤りとして活用し,教師のVLMに修正的推論トレースを生成させ,人間のアノテーションを使わずに教師付きデータを生成する。
RefCOCOg、Ref-Adv、Ref-L4(505のテストサンプル)にまたがる混合ベンチマークでは、IVTによるSFTウォームアップは、すべてのメトリクスの単発ベースモデルを上回る: Acc@0.5は82.0%(+2.4pp)、Acc@0.7は74.1%(+3.2pp)、Acc@0.9は48.3%(+2.8pp)である。
GRPOはさらに、工程ごとのIoU劣化を5倍に低減し、精製軌道を安定化させる。
すべてのトレーニングでは、単一のGPU上で2400のサンプルしか使用せず、空間的な自己補正が、適度なスケールで注入できる学習可能な能力であることを実証している。
関連論文リスト
- Bridging the Generalization Gap in Adverse Weather Segmentation: A Training Recipe Perspective [9.751481477523956]
本稿では,5つの気象条件で劣化した屋外シーンのセマンティックセグメンテーションを目的とした第8回UG2ワークショップ(CVPR 2026)トラック2について述べる。
私たちが観察する中心的な課題は、厳密な一般化ギャップです -- 検証セットでうまく機能するモデルは、テストセットでしばしば崩壊します。
アーキテクチャの複雑さよりも、慎重に設計されたトレーニングレシピが、このギャップに対処できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-05-27T04:55:34Z) - CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models [7.489020109808801]
われわれは,クロスパラダイム・ビジョン・ランゲージ・アクション(VLA)のポストトレーニングに関する実証的研究であるCrossVLAを報告する。
i) 確率フローODE統合なしでDPOを連続動作バックボーンで操作できる代理フローマッチングログ確率推定器、(ii) VLA DPOのパラメータ係数層としてのLoRAとDoRAの頭と頭の比較、(iii) ノイズループを示す推論時間解剖学は、サンプル_actions遅延の78.6%、プレフィックス-K/Vキャッシングのラを支配している。
論文 参考訳(メタデータ) (2026-05-21T01:02:41Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling [60.341503853471494]
本稿では,新しいカメラ視点と視覚摂動の下で,視覚言語行動モデルが急激に劣化することを示す。
本稿では,軽量で学習可能な更新によって視覚表現を再分類するワンショット適応フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T16:16:13Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - Sherlock: Self-Correcting Reasoning in Vision-Language Models [27.122890248991556]
Reasoning Vision-Language Models (VLM) は複雑なマルチモーダルタスクにおいて有望な性能を示す。
推論エラーに非常に敏感で、大量の注釈付きデータや正確な検証が必要であり、一般化に苦慮している。
自己補正と自己改善のトレーニングフレームワークであるSherlockを紹介します。
Llama3.2-Vision-11Bモデルをベースにしたシャーロックは8つのベンチマークで顕著な結果を得た。
論文 参考訳(メタデータ) (2025-05-28T17:58:03Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。