論文の概要: TASR: Training-Free Adaptive Stopping for Iterative Retrieval
- arxiv url: http://arxiv.org/abs/2606.13814v1
- Date: Thu, 11 Jun 2026 18:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.574994
- Title: TASR: Training-Free Adaptive Stopping for Iterative Retrieval
- Title(参考訳): TASR:反復検索のための訓練不要適応停止
- Authors: Adrian Kieback, Uyiosa Philip Amadasun, Aman Chadha, Aaron Elkins,
- Abstract要約: 反復的検索拡張生成エージェントは、モデルが解答に収束した後も検索を続けることで、一般的にオーバースペンドされる。
TASR(Training-Free Adaptive Stopping Rule)は,モデルが前ラウンドの正規化を繰り返すと発火する一行述語である。
- 参考スコア(独自算出の注目度): 12.177557521540082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iterative retrieval-augmented generation agents commonly overspend by continuing to retrieve after the model has converged on an answer, incurring calls that change neither the prediction nor the supporting evidence. Existing remedies learn a stopping policy from labeled trajectories, tying the decision to a trained component that requires retraining for each new model or task. We propose TASR (Training-Free Adaptive Stopping Rule), a one-line predicate that fires when the model repeats its previous-round normalized answer and the isotonically calibrated logit margin exceeds 0.25. No classifier or value head is learned; the threshold is fixed across all twenty-four (model, retriever, corpus) configurations we evaluate. On a 3-model x 2-dataset distractor grid, TASR retains 94.8% of fixed-k=5's macro F1 at 62.6% of its calls and exceeds fixed-k=3 by +3.42 F1. The pattern holds on nine open-domain BM25 cells (55.01 F1 at 2.98 calls vs. 54.33 at 3.00 for fixed-k=3) and, with calibration locked from the distractor split, on nine dense-retrieval cells across two retriever families, with zero significant regressions in either extension. The rule was selected from an exhaustive enumeration of 381 candidate stopping rules; no alternative Pareto-dominates it on any evaluated configuration. A signal-quality analysis shows that verbalized 1-5 confidence collapses on RLHF-tuned models (96.5% of values equal 5, entropy 0.182 nats), while the logit margin achieves 44x better class-conditional separation, grounding the design in a measurable model pathology. TASR is an auditable, training-free Pareto baseline against which learned stopping controllers can be compared. Code is publicly available.
- Abstract(参考訳): 反復的な検索強化生成エージェントは、モデルが解答に収束した後も検索を続け、予測も支持証拠も変更しない呼び出しを発生させる。
既存の治療法はラベル付きトラジェクトリから停止ポリシーを学び、新しいモデルやタスクごとに再トレーニングを必要とするトレーニングされたコンポーネントに決定を結び付ける。
TASR(Training-Free Adaptive Stopping Rule)は,モデルがそれまでの正規化回答を繰り返すと発火する1行述語であり,等速校正されたロジットマージンは0.25を超えている。
閾値は、評価した24の(モデル、レトリバー、コーパス)構成すべてにわたって固定されます。
3モデル x 2-dataset インタプリタグリッドでは、TASR は固定k=5 のマクロ F1 の94.8% を62.6% の呼び出しで保持し、固定k=3 を +3.42 F1 で上回る。
このパターンは、9つのオープンドメインBM25細胞(55.01 F1 at 2.98 call vs. 54.33 at 3.00 for fixed-k=3)を担っている。
この規則は381の候補停止規則を総括的に列挙して選択された。
信号品質分析により、RLHFで調整されたモデル(96.5%の値が5,Entropy 0.182 Nats)で言語化された1-5の信頼度が崩壊することを示し、ロジットマージンは44倍良いクラス条件分離を実現し、測定可能なモデル病理において設計を基礎づけた。
TASRは、学習した停止コントローラを比較可能な、監査可能な、トレーニング不要なParetoベースラインである。
コードは公開されている。
関連論文リスト
- Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - FormInv: A Measurement Protocol for Semantic Invariance in Mathematical Reasoning Benchmarks [0.0]
MathCheckのパラフレーズ品質検査では, 19群で4つの意味的不正確なパラフレーズが検出された。
GPT-4oは2位から4位へと降格し、クロード・ハイクとディープ・シークV3が上昇する。
論文 参考訳(メタデータ) (2026-05-27T18:59:18Z) - Sequential Consensus for Multi-Agent LLM Debates: A Wald-SPRT compute governor with calibration-based failure detection [0.0]
マルチエージェントの議論は事実と推論を改善するが、ほとんどのレシピは固定されたラウンドカウントを選択する。
我々は,LLM討論のプラグイン計算として,Wald's Sequential Probability Ratio Test (SPRT)を適用した。
GSM8Kでは、ルールは1.01ラウンド(4.06 LLMコール)で97.0%の精度で終了するが、15回のコールで固定5の討論では99.0%の精度で終了する。
MMLUでは、キャリブレーションされたKLは約0に崩壊し、ルール上限は2.1倍のコストで99.5%となる。
論文 参考訳(メタデータ) (2026-05-18T23:43:12Z) - Step-wise Rubric Rewards for LLM Reasoning [72.17879367869503]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論を改善するために広く使われている。
正しい回答の18.2%は間違っているが、肯定的な報酬がある。
6つの数学的推論ベンチマークで、SRaRはRaRの平均精度を3.57ポイント改善した。
論文 参考訳(メタデータ) (2026-05-17T07:08:14Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - TEMPO: Scaling Test-time Training for Large Reasoning Models [87.61789183311856]
テストタイムトレーニング(TTT)は、推論時間中にラベルのないテストインスタンスにモデルパラメータを適用する。
TTTフレームワークであるTEMPOを提案する。これは、ラベル付きデータセット上で定期的な批評家の再検討を行い、ラベル付き質問に対するポリシー修正をインターリーブする。
論文 参考訳(メタデータ) (2026-04-21T10:01:04Z) - Relational Preference Encoding in Looped Transformer Internal States [0.0]
ループ変換器は内部の反復状態においてどのように人間の嗜好を符号化するかを検討する。
繰り返し洗練された2.6Bパラメータループ変換器であるOuro-2.6B-Thinkingを用いて,各ループ繰り返しから隠れた状態を抽出する。
我々は、HH-RLHFデータセット上で人間の嗜好を予測するために軽量評価器ヘッドを訓練する。
我々のペアワイズ評価器は8,552個の未確認例に対して95.2%の精度を達成し、ベースモデルは完全に凍結されている間に全バッチのL-BFGSプローブ(84.5%)を上回った。
論文 参考訳(メタデータ) (2026-04-10T20:00:49Z) - LatentAudit: Real-Time White-Box Faithfulness Monitoring for Retrieval-Augmented Generation with Verifiable Deployment [19.317475241300397]
オープン・ウェイト・ジェネレータから中~後期の残ストリームアクティベーションをプールするホワイトボックス監査機であるLatentAuditを紹介する。
残差ストリーム幾何は、使用可能な忠実度信号を持ち、この信号がアーキテクチャの変化を生き延び、同じ規則が公衆の検証にも適用可能であることを示す。
論文 参考訳(メタデータ) (2026-04-07T02:55:32Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。