論文の概要: Improving Multimodal Reasoning via Worst Dimension Optimization
- arxiv url: http://arxiv.org/abs/2606.07801v1
- Date: Fri, 05 Jun 2026 19:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.401913
- Title: Improving Multimodal Reasoning via Worst Dimension Optimization
- Title(参考訳): 最悪の次元最適化によるマルチモーダル推論の改善
- Authors: Haocheng Lv, Huaping Zhang, Qiuchi Li, Lei Li, Chunxiao Gao,
- Abstract要約: マルチモーダル推論は、幅広い制約に対して整合性を維持するパスを必要とする。
現在のプロセス・リワード・モデルは、これらの要因を等しく評価する報酬に焦点を合わせています。
- 参考スコア(独自算出の注目度): 12.588734949254372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal reasoning requires a path that retains integrity over a wide range of constraints, from visual grounding to logic consistency. However, the current Process Reward Models focus on heuristically defined rewards that equally weigh these factors, which may lead to the concealment of individual dimension failures by the dominating factors, without guaranteeing the validity of the reasoning process in general.
- Abstract(参考訳): マルチモーダル推論は、視覚的基盤から論理的整合性まで、幅広い制約に対して整合性を維持するパスを必要とする。
しかし、現在のプロセス・リワード・モデルは、これらの要因を等しく評価するヒューリスティックに定義された報酬に焦点を合わせており、一般に推論プロセスの妥当性を保証することなく、支配的要因によって個々の次元の失敗を隠蔽する可能性がある。
関連論文リスト
- Towards Robust Endogenous Reasoning: Unifying Drift Adaptation in Non-Stationary Tuning [20.73438231053258]
本稿では,マルチモーダルなコンセプトドリフトに適応した包括的フレームワークを提案する。
反ファクト推論とドメイン知識を統合し、思考と知覚をまたいだ制御された摂動を実行する。
これは、コヒーレンス、意思決定精度、および極端な干渉に対する固有の堅牢性を推論する上で、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-17T05:24:04Z) - Think 360°: Evaluating the Width-centric Reasoning Capability of MLLMs Beyond Depth [37.75493687006809]
推論幅は、広範囲な試行錯誤探索や多重制約最適化のためのモデルの能力に焦点を当てる。
難易度、質問タイプ、必要なスキルにまたがる12のモデルファミリーを評価した。
その結果、現在のモデルでは、一般的なVQAタスクや常識的なVQAタスクに強いパフォーマンスを示す一方で、深いシーケンシャルな思考連鎖と広い探索探索の組み合わせに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-24T01:29:24Z) - ORBIT: On-policy Exploration-Exploitation for Controllable Multi-Budget Reasoning [18.118494145061813]
ORBITは制御可能な多予算推論フレームワークであり、入力によって引き起こされるよく分離された推論モードを持つ。
ORBITは,(1)複数のモード上での制御可能な推論行動,(2)各モード内での競争的推論密度,(3)これらのフロンティアポリシーを単一統一学生モデルに統合することを示す。
論文 参考訳(メタデータ) (2026-01-13T07:57:48Z) - ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging [46.06799235021118]
本稿では,コントラシブ・グラディエント同定による推論領域の性能崩壊を解消する新たな統合フレームワークを提案する。
安全、バイオメディシン、ファイナンス領域での実験では、ReasonAnyは効果的に"Reasoning + X"機能を合成している。
論文 参考訳(メタデータ) (2026-01-09T06:19:00Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving [57.652356955571065]
最先端の大規模言語モデル(LLM)パイプラインは、ブートストラップの推論ループに依存している。
我々は、この設計選択が、推論経路上のモデルの分布の崩壊にどのように敏感であるかを分析する。
本稿では,分散創造推論(DCR)について紹介する。これは,解トレースの確率測定を通じて,トレーニングを勾配流としてキャストする,統一的な変分目的である。
論文 参考訳(メタデータ) (2026-01-02T17:10:31Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。