論文の概要: The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2606.11918v2
- Date: Wed, 17 Jun 2026 09:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.020326
- Title: The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning
- Title(参考訳): インターロゲーションの技法--空間共振における相似性の増幅
- Authors: Theo Uscidda, Marta Tintore Gazulla, Maks Ovsjanikov, Federico Tombari, Leonidas Guibas,
- Abstract要約: 現在のLRM(Large Reasoning Models)は、空間推論タスクにおいて顕著な汎用性を示すが、性能は著しく劣る。
本研究では,内的推論プロセスを対象とした自己指導型強化学習フレームワークを提案する。
このラベルのない整合性トレーニングは,地道的な監督によって訓練されたモデルの精度にアプローチし,多様なタスクやデータ領域にまたがる同様の一般化を実現することを示す。
- 参考スコア(独自算出の注目度): 65.67266333751569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Large Reasoning Models (LRMs) exhibit remarkable general capabilities but significantly underperform in spatial reasoning tasks. Existing approaches treat this gap as a knowledge deficit, relying on supervised fine-tuning (SFT) to ingest labeled spatial data from external vision sources or synthetic engines. In contrast, we argue that for many tasks, spatial reasoning capabilities are already present in pre-trained LRMs but require alignment through logical coherence under geometric 2D and 3D constraints. In this work, we propose a self-supervised reinforcement learning (RL) framework that targets the internal reasoning process without requiring ground-truth annotations. By formalizing the notion of consistency verifiers -- reward functions that check for geometric and semantic consistency under transformations -- we demonstrate that models can improve their spatial reasoning abilities. We use both image transformations, like flipping, and textual transformations, like swapping the order of objects in the question, and propose a new optimal transport-based RL strategy, OT-GRPO, which is a minimal-matching variant of group relative policy optimization tailored to pairwise verifiers. We show that this label-free consistency training approaches the accuracy of models trained with ground-truth supervision and achieves similar generalization across diverse tasks and data domains.
- Abstract(参考訳): 現在のLRM(Large Reasoning Models)は、空間推論タスクにおいて顕著な汎用性を示すが、性能は著しく劣る。
既存のアプローチでは、このギャップを知識不足として扱い、外部視覚源や合成エンジンからラベル付き空間データを取り込み、監督された微調整(SFT)に依存している。
対照的に、多くのタスクにおいて、空間的推論能力は既に事前学習されたLEMに存在するが、幾何学的2Dおよび3D制約の下で論理的コヒーレンスを通したアライメントを必要とする。
本研究では,自己指導型強化学習(RL)フレームワークを提案する。
整合性検証(英語版)の概念を形式化し、変換の下で幾何的および意味的整合性をチェックする報酬関数により、モデルが空間的推論能力を改善することを実証する。
対象物の順序を切り替えるようなフリップやテキスト変換のような画像変換を併用し、ペア検証に適したグループ相対ポリシー最適化の最小整合型である新しい最適トランスポートベースのRL戦略OT-GRPOを提案する。
このラベルのない整合性トレーニングは,地道的な監督によって訓練されたモデルの精度にアプローチし,多様なタスクやデータ領域にまたがる同様の一般化を実現することを示す。
関連論文リスト
- Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency [53.28076739140119]
本稿では,視覚・言語モデル(VLM)における論理的一貫性を幾何学的・言語的双対性演算によって実現する枠組みを提案する。
SAGEは、従来のGRPO法に比べてモデルに依存しず、データ効率が良く、既存のVLMに軽量な後学習段階として適用することができる。
ビデオおよび空間推論ベンチマークの実験では、強いベースラインよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-05-18T10:05:21Z) - Large Vision-Language Models Get Lost in Attention [51.851592109135716]
本稿では,情報理論と幾何に基づく統合フレームワークを提案し,残差更新の幾何的およびエントロピー的性質を定量化する。
注意は再設定に焦点を当てたサブスペース言語演算子として機能し、FFNはセマンティックイノベーションを駆動するサブスペース言語演算子として機能します。
論文 参考訳(メタデータ) (2026-05-07T04:45:52Z) - SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning [18.3204772691015]
空間的推論には、入力に応じて異なる戦略を柔軟に調整する必要がある。
既存のアプローチのほとんどは、固定空間を暗黙的に学習する単一の推論パイプラインに依存している。
空間推論のための異種多エージェントフレームワークであるSpatiOを導入し、複数の視覚言語の専門家と相補的帰納バイアスを協調する。
論文 参考訳(メタデータ) (2026-04-23T01:19:37Z) - S-GRPO: Unified Post-Training for Large Vision-Language Models [11.901218794806796]
我々はLVLM(Large Vision-Language Models)適応のためのS-GRPO(Supervised Group Relative Policy Optimization)を提案する。
S-GRPOは、模擬学習の指導を選好最適化の多軌道探索に統合する。
監督ファインチューニング(SFT)と強化学習(RL)のギャップを優雅に埋める
論文 参考訳(メタデータ) (2026-04-17T08:39:07Z) - Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。
この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-01-12T05:43:20Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - RACE-Align: Retrieval-Augmented and Chain-of-Thought Enhanced Preference Alignment for Large Language Models [11.107932406541865]
本稿では,従来の選好アライメント手法の限界に対処する新しいフレームワークであるRAS-Alignを紹介する。
RACE-Alignは、外部知識サポートと明示的なChain-of-Thought(CoT)推論を組み込んだバイナリ優先データセットを体系的に構築する。
Qwen3-1.7Bをベースモデルとして用いた伝統的な中国医学(TCM)における実験的検証は、RAS-Alignが元のベースモデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-06-03T10:36:38Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。