論文の概要: From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.09092v1
- Date: Mon, 08 Jun 2026 06:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.769469
- Title: From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning
- Title(参考訳): ショートカットから推論へ:強化学習による心の理論のロバストな後学習
- Authors: Jike Zhong, Yuxiang Lai, Ming Li, Yuheng Li, Wuao Liu, Behzad Dariush, Konstantinos Psounis, Shao-Yuan Lo,
- Abstract要約: 理論・オブ・マインド(Theory of Mind、ToM)は、現代の基礎モデルシステムにおいて必須のスキルである。
ポストトレーニングによるToMのホーニングについて最近の研究が進められている。
このような進歩は、広範囲にわたる「ショートカット」問題によって構築されていることを示す。
- 参考スコア(独自算出の注目度): 27.941974053779745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM) is a must-acquire skill for modern foundation model systems to operate effectively and safely in the real world. Recent works have explored honing ToM via post-training; however, we show that such progress is confounded by a pervasive "shortcut" issue: tasks can reach up to 99% accuracy by simply exploiting spurious causal correlations, leading to a false sense of ToM. Motivated by this, we first develop a framework to systematically examine ToM datasets for shortcuts and provide guidance for future development. We find that questions reducible to pure state tracking, such as "belief," are especially shortcut-prone compared to mind questions, such as "intention," where reasoning beyond tracking is required. Using four shortcut-free datasets across three ToM contexts, we then comprehensively study whether Reinforcement Fine-Tuning with verifiable rewards and explicit reasoning chains, called Thinking-RFT, elevates ToM beyond Supervised Fine-Tuning, or SFT. Our key findings are as follows. First, Thinking-RFT effectively improves ToM in all scenarios, with a 6% improvement over SFT, particularly in complex higher-order reasoning, with a 10% improvement over SFT, and multimodal cases, with a 7% improvement over SFT. It also generalizes notably better to unseen domains and higher-order queries while being more robust to counterfactuals. Second, ToM benefits specifically from the joint effect of reasoning and RL: Thinking-RFT outperforms Non-Thinking-RFT by 7% on average. Third, RFT works by learning to ground its reasoning on anchor cues, such as keywords and state changes, that correspond to causal factors. We believe our study is useful for developing effective and robust ToM post-training datasets and advancing critical ToM capabilities.
- Abstract(参考訳): 理論・オブ・マインド(Theory of Mind、ToM)は、現代の基礎モデルシステムにおいて、現実世界で効果的かつ安全に活動するために必要な技術である。
最近の研究は, ポストトレーニングによるToMのホーミングについて検討しているが, タスクは, 素早い因果相関を利用して最大99%の精度を達成でき, 誤ったToMの感覚を導き出すという, 広範囲な「ショートカット」問題によって, そうした進歩が確立されていることを示唆している。
そこで我々はまず,ショートカットのためのToMデータセットを体系的に検証し,今後の開発のためのガイダンスを提供するフレームワークを開発した。
我々は、純粋な状態追跡に再現可能な質問、例えば「信」は、特に、追跡以上の推論を必要とする「意図」のようなマインドの問題と比較して、ショートカット傾向にあることを発見した。
3つのToMコンテキストにわたる4つのショートカットフリーデータセットを使用して、検証可能な報酬と明確な推論チェーンであるThinking-RFTによる強化ファインチューニング(Reinforcement Fine-Tuning)が、監視ファインチューニング(Supervised Fine-Tuning, SFT)を超えてToMを上昇させるかどうかを総合的に研究する。
主な発見は以下の通りである。
まず、Thinking-RFTは全てのシナリオにおいてToMを効果的に改善し、SFTよりも6%改善し、特に複雑な高次推論において、SFTよりも10%改善し、マルチモーダルケースでは7%改善した。
また、非表示のドメインや高階のクエリに対して、反ファクトに対してより堅牢である点を特によく一般化する。
第二に、ToMは推論とRLの結合効果から特に恩恵を受ける:Thinking-RFTは非シンキングRFTを平均7%上回っている。
第三に、RFTはキーワードや状態変化など、因果的要因に対応するアンカーの手がかりに基づく推論を学習することで機能する。
我々の研究は、効果的でロバストなToMポストトレーニングデータセットの開発と、重要なToM機能の向上に有用であると信じている。
関連論文リスト
- Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning [30.751908700207185]
SFTはいくつかのシナリオで重要な役割を果たす。
2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。
より高い報酬は、RLの推論精度と相関しない。
論文 参考訳(メタデータ) (2025-12-14T13:46:42Z) - When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [26.835266813794316]
まず,MLLM画像分類のためのCRS-RLを提案する。
RFTにおける明示的な思考が常に必要かどうかを再考し、疑問を呈する。
No-Thinking-RL は単純な等式精度の報酬を導入することで、考えることなく RFT を探索する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。