論文の概要: Gen-VCoT: Generative Visual Chain-of-Thought Reasoning via Diffusion-Based RGB Intermediate Representations
- arxiv url: http://arxiv.org/abs/2606.16783v1
- Date: Mon, 15 Jun 2026 14:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.615836
- Title: Gen-VCoT: Generative Visual Chain-of-Thought Reasoning via Diffusion-Based RGB Intermediate Representations
- Title(参考訳): Gen-VCoT:拡散に基づくRGB中間表現による生成的視覚連鎖推論
- Authors: Zhiqiang Zhou, Junliang Dai, Xu ling,
- Abstract要約: 我々は、専門家の視覚モデルを用いてRGB画像を中間体として生成するフレームワークGen-VCoTを提案する。
Gen-VCoTは空間的(25%)と深さ(50%)の質問を改善するが、単純な事実クエリを損なう可能性がある。
Gen-VCoTは、解釈可能なマルチモーダル推論のための新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 4.131782714245991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) excel at visual reasoning but rely on text-based chain-of-thought (CoT), lacking interpretable visual intermediates. Existing methods use opaque tokens or external tools, missing key properties. We propose Gen-VCoT, a framework using expert vision models to generate RGB images as reasoning intermediates. It has three stages: visual grounding (SAM segmentation), geometric reasoning (Marigold depth maps), and semantic reasoning (Qwen2-VL integration). An adaptive router selects reasoning depth. Evaluations show Gen-VCoT improves spatial (25% better) and depth (50% better) questions, but may hurt simple factual queries. Text CoT outperforms visual intermediates on CLEVR (91.2% vs 62.5%), showing task-dependent optimal representations. Gen-VCoT establishes a new paradigm for interpretable multimodal reasoning.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚的推論において優れているが、解釈可能な視覚中間体を持たないテキストベースの連鎖(CoT)に依存している。
既存のメソッドでは、キープロパティが欠落している不透明なトークンや外部ツールが使用されている。
我々は、専門家の視覚モデルを用いてRGB画像を中間体として生成するフレームワークGen-VCoTを提案する。
視覚的接地(SAMセグメンテーション)、幾何学的推論(Marigold depth map)、意味的推論(Qwen2-VL Integration)の3段階がある。
適応ルータは推論深さを選択する。
Gen-VCoTは空間的(25%)と深さ(50%)の質問を改善するが、単純な事実クエリを損なう可能性がある。
Text CoTはCLEVRの視覚中間体(91.2%対62.5%)より優れており、タスク依存の最適な表現を示している。
Gen-VCoTは、解釈可能なマルチモーダル推論のための新しいパラダイムを確立する。
関連論文リスト
- TVI-CoT: Text-Visual Interleaved Chain-of-Thought Reasoning for Multimodal Understanding [10.402346011516423]
思考の連鎖(CoT)推論は、大規模言語モデルにおける問題解決の強化に有効であることが証明されている。
既存のCoTアプローチは基本的な制限に悩まされており、完全にテキストで推論を行う。
テキスト推論と視覚的特徴アクセスの明示的なインターリーブを実現するためのテキスト・ビジュアル・インターリーブド・チェーン・オブ・ワット(TVI-CoT)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-07T05:58:39Z) - LanteRn: Latent Visual Structured Reasoning [7.141402207573525]
本稿では,視覚的推論を潜在空間で直接実行可能にするフレームワークであるLanteRnを紹介する。
LanteRnは、推論中に連続的な視覚的思考の埋め込みを生成し、参加する能力を持つ視覚言語変換器を増強する。
我々はLanteRnを3つの知覚中心ベンチマーク(VisCoT, V*, Blink)で評価する。
論文 参考訳(メタデータ) (2026-03-26T16:41:59Z) - MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark [112.46338388724116]
このタスクでは、ターゲットオブジェクトをローカライズするだけでなく、推論パスを形成する中間オブジェクトを明示的に予測する必要がある。
この分野での研究を進めるために,(1)視覚的推論を評価するための人為的注釈付きベンチマークであるVRT-Bench,(2)推論トレースの質を評価するための新しい指標であるVRT-80k,(3)推論モデルトレーニングのための大規模データセットであるVRT-80kが提案されている。
論文 参考訳(メタデータ) (2025-12-04T18:55:34Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation [67.98487725287835]
VCoT-Graspは、視覚的連鎖推論を取り入れたエンドツーエンドの把握基盤モデルであり、把握生成のための視覚的理解を強化する。
トレーニングのために、我々は167Kの合成画像と1.36Mのグリップを含む大規模なデータセットVCoT-GraspSetを洗練、導入した。
本手法は, 達成率を大幅に向上させ, 未知の物体, 背景, 邪魔者に効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-07T11:50:26Z) - Latent Visual Reasoning [40.347006722601975]
視覚埋め込み空間に直接自己回帰推論を可能にする新しいパラダイムであるLatent Visual Reasoning(LVR)を紹介する。
その結果,LVRは細粒度視認と知覚を著しく改善し,MMVPでは71.67%,Qwen2.5-VLでは66.67%であった。
論文 参考訳(メタデータ) (2025-09-29T03:52:01Z) - LENS: Learning to Segment Anything with Unified Reinforced Reasoning [38.582392908238866]
LENSは拡張性のある強化学習フレームワークで、推論プロセスとセグメンテーションをエンドツーエンドで共同で最適化する。
LENSはRefCOCO、RefCOCO+、RefCOCOgのベンチマークで平均81.2%のcIoUを達成し、GLaMMという強力な微調整法を最大5.6%上回っている。
論文 参考訳(メタデータ) (2025-08-19T17:59:53Z) - Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization [69.29207684569695]
CoT推論は多モーダル大言語モデル(MLLM)の解釈可能性と問題解決能力を大幅に向上させる
既存のアプローチはテキストCoTに重点を置いており、視覚的手がかりを活用する能力を制限する。
本稿では、優先最適化による画像レベルのCoT推論のための新しいフレームワークであるUnsupervised Visual CoT (UV-CoT)を紹介する。
論文 参考訳(メタデータ) (2025-04-25T14:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。