論文の概要: BALTO: Balanced Token-Level Policy Optimization for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2606.15893v2
- Date: Mon, 22 Jun 2026 03:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.127379
- Title: BALTO: Balanced Token-Level Policy Optimization for Hallucination Mitigation
- Title(参考訳): BALTO:幻覚緩和のためのバランスの取れたトークンレベル政策最適化
- Authors: Ning Li, Zixuan Guo, Yan Xu, Wenbo Fei, Yifan Niu, Chang Luo, Yasheng Wang, Weiwen Liu, Yong Yu, Weinan Zhang,
- Abstract要約: 幻覚緩和のためのバランスドトークンレベルの政策最適化フレームワークを提案する。
BalTOはチェック可能な事実クレームを抽出し、参照コンテキストに対して検証し、トークンレベルのラベルに対するクレームレベルの判断をプロジェクトする。
ConFiQA、RAGTruth、FinLLM-Evalの実験では、BALTOは6つのモデルで最高の忠実さを達成している。
- 参考スコア(独自算出の注目度): 51.22170603236523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations remain a major obstacle to deploying large language models (LLMs) in knowledge-intensive settings, where generated responses must be faithfully grounded in provided evidence. Reinforcement learning (RL) is a promising direction for hallucination mitigation, but response-level faithfulness rewards suffer from a granularity mismatch: localized hallucinations can cause supported content to receive spurious penalties. Although recent work introduces fine-grained feedback such as claim-level verification and token-level rewards, unbalanced credit assignment can still induce length, verbosity, or optimization-noise biases. We propose BALTO, a Balanced Token-level Policy Optimization framework for hallucination mitigation. BALTO extracts checkable factual claims, verifies them against the reference context, and projects claim-level judgments to token-level labels. A balanced token-level credit assignment mechanism is introduced into the framework. This design redistributes probability mass from unsupported content toward faithful content, rather than suppressing the entire response. We systematically analyze the limitations of response-level rewards from a theoretical standpoint, and prove BALTO's advantages in training stability and optimization efficiency for hallucination mitigation. Experiments on ConFiQA, RAGTruth, and FinLLM-Eval show that BALTO achieves the highest faithfulness across all six model--benchmark settings and consistently outperforms existing post-training baselines in Q-Score, demonstrating a stronger faithfulness--informativeness trade-off.
- Abstract(参考訳): 幻覚は、大きな言語モデル(LLM)を知識集約的な環境にデプロイする上で、依然として大きな障害である。
強化学習(Reinforcement Learning, RL)は幻覚緩和のための有望な方向であるが、応答レベルの忠実度報酬は粒度ミスマッチに悩まされる。
最近の研究は、クレームレベルの検証やトークンレベルの報酬のようなきめ細かいフィードバックを導入しているが、バランスの取れていないクレジットの割り当ては、長さ、冗長性、最適化ノイズバイアスを誘導することができる。
本稿では,幻覚緩和のためのバランスの取れたトークンレベルの政策最適化フレームワークであるBALTOを提案する。
BALTOはチェック可能な事実クレームを抽出し、参照コンテキストに対して検証し、トークンレベルのラベルに対するクレームレベルの判断をプロジェクトする。
このフレームワークには、バランスの取れたトークンレベルの信用割当機構が導入されている。
この設計は、応答全体を抑圧するのではなく、サポートされていないコンテンツから忠実なコンテンツへ確率質量を再分配する。
理論的な観点から応答レベルの報酬の限界を体系的に分析し,BALTOの訓練安定性と幻覚軽減のための最適化効率の優位性を証明した。
ConFiQA、RAGTruth、FinLLM-Evalの実験では、BALTOは6つのモデルで最高の忠実さを達成している。
関連論文リスト
- Towards Lightweight Reliability: Using Soft Prompts for Hallucination Mitigation in Large Language Models [5.019869660665509]
大規模言語モデル(LLM)は様々な領域で広く採用されているが、その信頼性はしばしば幻覚によって損なわれている。
高リスク領域では、これらのエラーは信頼を減らし、現実世界のリスクをもたらす。
本稿では、ソフトプロンプトを用いて幻覚的コンテンツを緩和し、責任ある棄権を促進するパラメータ効率のアプローチを提案する。
論文 参考訳(メタデータ) (2026-05-30T23:02:33Z) - Verifiable Process Rewards for Agentic Reasoning [21.195739597726142]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を向上させる。
既存のアプローチのほとんどは、少ない結果レベルのフィードバックに依存しています。
本稿では,これらのオーラクルを強化学習のための高密度なターンレベルの監視に変換するフレームワークであるVerifiable Process Rewards (VPR)を提案する。
論文 参考訳(メタデータ) (2026-05-11T10:30:53Z) - I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation [2.688126466709795]
大規模言語モデル(LLM)は、自信はあるが誤った答えをしばしば生み出す。
モデルを変更することなく、即時のみの介入が幻覚リスクを低減できるかどうかを検討する。
結果から,本フレームワークは質問に対する選択的な回答を,再学習なしに改善できることが示された。
論文 参考訳(メタデータ) (2026-04-05T00:15:41Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models [59.6715047267181]
小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
論文 参考訳(メタデータ) (2026-02-05T17:15:12Z) - Step Potential Advantage Estimation: Harnessing Intermediate Confidence and Correctness for Efficient Mathematical Reasoning [25.562101968892833]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における長い連鎖推論を導く
既存のアプローチでは、トークンレベルのエントロピーやシーケンスレベルの長さ制御を通じてRLVRを改善するが、推論の進捗を意味的に基礎づけたステップレベルの尺度は欠如している。
本研究では,潜在的利得を増幅し,潜在的利得をペナルティ化し,飽和後のペナルティを適用してタイムリーな終了を促す,詳細な信用割当手法であるステップ電位アドバンテージ推定(SPAE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T11:36:01Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。