論文の概要: Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.17591v1
- Date: Tue, 16 Jun 2026 06:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.318254
- Title: Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning
- Title(参考訳): フィードバックループの閉鎖: 言語強化学習における経験抽出からインサイトガバナンスへ
- Authors: Yanwei Cui, Xing Zhang, Yulong Zhang, Li Shao, Xiaofeng Shi, Guanghui Wang, Peiyang He,
- Abstract要約: 訓練なしの言語強化学習は、LLMエージェントが世界からのフィードバックから学ぶことを可能にする。
フィードバック駆動型キュレーションループで接続された3層アーキテクチャ – ルール,エビデンス,スキル – を提案する。
また、ゼロショットベースライン以下の性能を低下させるか、精度とリスク調整されたリターンを劇的に向上させるかを示す。
- 参考スコア(独自算出の注目度): 11.366112232592592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training-free verbal reinforcement learning enables LLM agents to learn from world feedback -- objective signals such as dynamic task outcomes, market returns, or demand forecasts -- by extracting verbal rules from experience and injecting them as context, updating the agent's behavior without parameter changes. However, in non-stationary environments these agents face a retention-forgetting dilemma: retaining stale insights causes negative transfer, while discarding them causes catastrophic forgetting when conditions recur. We identify four requirements for navigating this dilemma -- outcome-driven evaluation, persistent structured evidence, non-monotonic knowledge lifecycle, and compositional governance -- and show that existing methods invest heavily in experience extraction while underinvesting in insight governance. We propose a three-layer architecture -- rules, evidence, and skills -- connected by a feedback-driven curation loop that closes the governance gap. Rules capture distilled experience from world outcomes; evidence logs track each rule's reliability across episodes; skills govern which rules to apply, how to resolve conflicts, and when to abstain. On financial forecasting as a case study, where world feedback is naturally abundant, noisy, and non-stationary, we show that the same accumulated experience either degrades performance below the zero-shot baseline or dramatically improves accuracy and risk-adjusted returns, depending on whether the curation loop is present.
- Abstract(参考訳): トレーニングなしの言語強化学習は、LLMエージェントが経験から言語ルールを抽出し、コンテキストとして注入し、パラメータの変更なしにエージェントの振る舞いを更新することによって、世界フィードバックから学習することを可能にする。
しかし、静止していない環境では、これらのエージェントは保持するジレンマに直面し、不安定な洞察を維持することは負の移動を引き起こす。
このジレンマをナビゲートするための4つの要件 - 結果駆動評価、永続的な構造化された証拠、非モノトニックな知識ライフサイクル、構成的ガバナンス -- を特定し、既存の手法が洞察的ガバナンスに過小評価しながら経験抽出に多大な投資をしていることを示す。
ガバナンスのギャップを埋めるフィードバック駆動のキュレーションループで繋がった3層アーキテクチャ(ルール、エビデンス、スキル)を提案します。
ルールは世界の成果から蒸留された経験を捉え、エビデンスログは各ルールの信頼性をエピソード全体で追跡し、スキルはどのルールを適用するか、どのように紛争を解決するか、いつ断念するかを規定する。
本研究は, 自然界のフィードバックが豊富で, ノイズが多く, 静止しないケーススタディとして, ゼロショットベースライン以下の性能低下や, キュレーションループが存在するかどうかに応じて, 精度とリスク調整リターンが劇的に向上することを示す。
関連論文リスト
- HERO: Hindsight-Enhanced Reflection from Environment Observations for Agentic Self-Distillation [50.53459634301361]
HEROは、次の環境観測を局所的に整列したフィードバックとして利用する、後向きの自己蒸留フレームワークである。
HEROはタスク成功を改善し、環境フィードバックのみの自己蒸留とGRPOに対する不要なターンを減らす。
論文 参考訳(メタデータ) (2026-06-10T01:35:34Z) - Tree-of-Experience: A Structured Experience-Management Solution for Self-Evolving Agents under Low-Repetition and Implicit-Reward Environments [7.400600301289333]
暗黙の報酬を伴う低繰り返しタスク、過去の経験を再利用するのが難しく、フィードバックが遅れ、うるさい、そして結果レベル。
本研究では,エージェント体験の整理,検索,検証,更新を行う構造化経験管理手法であるTree-of-Experience(ToE)を提案する。
論文 参考訳(メタデータ) (2026-06-05T06:39:16Z) - Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation [71.16738415436458]
本稿では、生の障害フィードバックを補正管理のアクティブソースに変換するフレームワークであるReflection-Enhanced Self-Distillation(RESD)を紹介する。
RESDは、局所的なエラーを診断するために振り返りリフレクションを生成し、持続的なグローバルなプレイブックをキュレートすることで、障害の軌跡を解釈する。
複数の連続学習課題に対する実証的な評価は、RESDが標準の自己蒸留ベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-12T20:46:05Z) - Internalizing Agency from Reflective Experience [20.650609947690196]
LEAFEは、リカバリエージェンシーをリフレクティブエクスペリエンスから内部化するフレームワークである。
ベースモデルよりも一貫してPass@1を改善し、結果駆動ベースラインよりも高いPass@kを実現している。
論文 参考訳(メタデータ) (2026-03-17T17:50:47Z) - Experiential Reinforcement Learning [22.545003569634982]
経験的強化学習(英語: Experiential Reinforcement Learning, ERL)は、学習プロセスに明示的な経験的回帰・統合のループを組み込む訓練パラダイムである。
ERLは、強い強化学習ベースラインよりも学習効率と最終性能を一貫して改善する。
これらの結果は、明示的な自己回帰を政策訓練に統合することは、フィードバックを耐久性のある行動改善に変換するための実践的なメカニズムをもたらすことを示唆している。
論文 参考訳(メタデータ) (2026-02-15T01:23:48Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。