論文の概要: Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.13680v1
- Date: Thu, 11 Jun 2026 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.987777
- Title: Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning
- Title(参考訳): Retrieval-Augmented Reinforcement Fine-Tuning を用いたアナロジーによる推論学習
- Authors: Zilin Xiao, Qi Ma, Chun-cheng Jason Chen, Xintao Chen, Avinash Atreya, Hanjie Chen, Vicente Ordonez,
- Abstract要約: Retrieval-augmented Generation (RAG) は、言語モデルを外部知識で基礎付けるための標準的なメカニズムとなっている。
本稿では,類似による推論を言語モデルに教えるフレームワークであるRetrieval-Augmented Reinforcement Fine-Tuning (RA-RFT)を提案する。
- 参考スコア(独自算出の注目度): 20.897370477958734
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) has become a standard mechanism for grounding language models in external knowledge, yet conventional retrieval based on lexical or semantic similarity is poorly suited for complex reasoning tasks: a semantically similar problem may demand an entirely different solution strategy, while a superficially different problem may share the same underlying reasoning pattern. We propose Retrieval-Augmented Reinforcement Fine-Tuning (RA-RFT), a post-training framework that teaches language models to reason by analogy. RA-RFT uses gold-relevance distillation to train a retriever that ranks contexts by expected reasoning benefit rather than semantic overlap, and then fine-tunes the policy model via reinforcement fine-tuning methods with retrieved analogous demonstrations, so the model learns to leverage reasoning traces under verifiable outcome rewards. We further analyze the diversity of retrieved contexts and find that reasoning-aware retrieval surfaces complementary solution strategies that provide distinct reasoning scaffolds for individual problems. Across challenging mathematical reasoning benchmarks, RA-RFT consistently outperforms standard reinforcement fine-tuning methods. For example, it improves AIME 2025 average@32 accuracy by 7.1 and 2.8 points over GRPO for Qwen3-1.7B and Qwen3-4B respectively -- suggesting that reasoning-aware retrieval is a complementary axis of improvement and orthogonal to advances in reward design or training curricula.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は言語モデルを外部知識で基礎づける標準的なメカニズムとなっているが、語彙的または意味的類似性に基づく従来の検索は複雑な推論タスクには適していない。
本稿では,言語モデルに類似による推論を教える後学習フレームワークであるRetrieval-Augmented Reinforcement Fine-Tuning (RA-RFT)を提案する。
RA-RFTはゴールドレバレンス蒸留を用いて、セマンティックオーバーラップよりも期待される推論利益によって文脈をランク付けする検索者を訓練し、次いで、類似の証明を検索した強化微調整手法を用いてポリシーモデルを微調整し、検証可能な結果報酬の下での推論トレースを活用することを学習する。
さらに,検索した文脈の多様性を解析し,推論を意識した検索が,個々の問題に対して個別の推論足場を提供する相補的な解戦略を提示することを見出した。
RA-RFTは、難解な数学的推論ベンチマーク全体にわたって、標準強化微調整法よりも一貫して優れている。
例えば、Qwen3-1.7B と Qwen3-4B でそれぞれ GRPO に対して AIME 2025 average@32 の精度を 7.1 と 2.8 ポイント向上させ、推論認識検索は改善の補完軸であり、報酬設計やトレーニングカリキュラムの進歩に直交していることを示唆している。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA [13.324231386098042]
CogRAG+は、検索強化生成パイプラインと人間の認知階層を分離、調整する、トレーニング不要のフレームワークである。
我々は,CagRAG+が,登録栄養士資格試験において汎用モデルと標準RAG法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-04-01T13:31:12Z) - Directional Attractors in LLM Reasoning: How Similarity Retrieval Steers Iterative Summarization Based Reasoning [0.0]
InftyThink with Cross-Chain Memoryは、以前成功した推論パターンの埋め込みベースのセマンティックキャッシュで反復推論を強化する拡張である。
実験により、意味補題検索は、不均一なドメインを含むテストにおいて、障害モードを露呈しながら、構造化ドメインの精度を向上させることが示された。
論文 参考訳(メタデータ) (2025-12-22T00:26:54Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文 参考訳(メタデータ) (2025-07-30T14:29:44Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。