論文の概要: Can the Environment Speak for Itself? $T^{2}$-GRPO: A Turn-Trajectory Group Relative Policy Optimization for Caregiver Agents
- arxiv url: http://arxiv.org/abs/2606.08875v1
- Date: Sun, 07 Jun 2026 23:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.50045
- Title: Can the Environment Speak for Itself? $T^{2}$-GRPO: A Turn-Trajectory Group Relative Policy Optimization for Caregiver Agents
- Title(参考訳): T^{2}$-GRPO: 介護者エージェントに対するターントラジェクトリグループ相対的政策最適化
- Authors: Yutong Song, Jiang Wu, Pengfei Zhang, Wenjun Huang, Honghui Xu, Nikil Dutt, Amir M. Rahmani,
- Abstract要約: textbfTurn-textbfTrajectory textbfGroup textbfRelative textbfPolicy textbfOptimizationを提案する。
textbfT$2$-GRPOは、介護者RLを2つの正規化された報酬水平線に分離し、バイナリハードベトを通じて安全性を強制するフレームワークである。
- 参考スコア(独自算出の注目度): 19.247232121307714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing large language models (LLMs) for long-horizon caregiver agents requires balancing delayed task objectives with immediate environment dynamics, such as patient distress and resistance. In dementia care, this balance is especially difficult: trajectory level rewards are too sparse for turn level credit assignment, while external LLM-based evaluators are costly and can misread fragmented or indirect patient responses. To address this issue, we propose \textbf{T}urn-\textbf{T}rajectory \textbf{G}roup \textbf{R}elative \textbf{P}olicy \textbf{O}ptimization (\textbf{T$^{2}$-GRPO}), a framework that decouples caregiver RL into two normalized reward horizons and enforces safety through a binary hard veto. $T^2$-GRPO derives dense turn-level rewards directly from environment state transitions, measuring changes in patient distress and resistance from a frozen dementia patient simulator. These environment-grounded rewards are combined with trajectory-level evaluations through independent centered-rank normalization, which preserves heterogeneous reward signals and mitigates reward collapse. Extensive experiments on dementia caregivers show that T $^{2}$-GRPO outperforms competitive baselines, indicating a substantial improvement for emotionally sensitive caregiver scenarios that effectively handles immediate patient feedback, long-term care outcomes, and safety constraints.
- Abstract(参考訳): 長期介護者エージェントのための大規模言語モデル(LLM)の最適化には、遅延タスク目標と患者の苦痛や抵抗といった即時環境のダイナミクスとのバランスが必要である。
認知症ケアにおいて、このバランスは特に困難である: 軌道レベルの報酬はターンレベルのクレジット代入には小さすぎるが、外部のLCMベースの評価器は高価であり、断片的または間接的な患者反応を誤読することができる。
この問題に対処するために、介護者RLを2つの正規化された報酬の地平線に分解し、二元的ハード・ベトを通して安全性を強制するフレームワークである、textbf{T}urn-\textbf{T}rajectory \textbf{G}roup \textbf{R}elative \textbf{P}olicy \textbf{O}ptimization (\textbf{T$^{2}$-GRPO})を提案する。
$T^2$-GRPOは、環境状態遷移から直接ターンレベルの報酬を導き、凍った認知症患者シミュレーターによる患者の苦痛と抵抗の変化を測定する。
これらの環境下での報酬は、不均一な報酬信号を保持し、報酬の崩壊を緩和する独立中心ランク正規化による軌道レベルの評価と組み合わせられる。
認知症介護者に対する大規模な実験により、T$^{2}$-GRPOは競争基準よりも優れており、即時患者のフィードバック、長期ケア結果、安全制約を効果的に扱える感情に敏感な介護者のシナリオが大幅に改善されていることが示されている。
関連論文リスト
- Ratio-Variance Regularized Policy Optimization [64.95520246570446]
ポリシ比の分散を明示的に制約することは、信頼領域の制約に対する原則的な局所近似をもたらすことを示す。
本稿では,この制約を実装したR2bf VPO$(Ratio-Variance Regularized Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2026-05-26T09:53:42Z) - ODRPO: Ordinal Decompositions of Discrete Rewards for Robust Policy Optimization [14.900223489465683]
大規模言語モデル(LLM)は、AIフィードバック(RLAIF)から強化学習(Reinforcement Learning)を利用する。
これらのドメインは、細粒度で多層的な報酬を提供するために、しばしばベースオートレーダに依存している。
これは、離散的な報酬を順序付きバイナリインジケータのシーケンスに分解することで、評価ノイズを構造的に分離するフレームワークです。
論文 参考訳(メタデータ) (2026-05-12T19:17:14Z) - RVPO: Risk-Sensitive Alignment via Variance Regularization [13.192921543523283]
本稿では, 利便集約時のリワード間分散をペナルティ化するリスクセンシティブなフレームワークであるReward-Variance Policy Optimization (RVPO)を提案する。
我々はTaylor拡張を通して、LogSumExp(SoftMin)オペレータがスムーズな分散ペナルティとして効果的に働くことを示す。
モデルがより簡単な目的を活かすために難しい制約を無視しないようにすることで、RVPOはHealthBenchの全体的なスコアを改善する。
論文 参考訳(メタデータ) (2026-05-07T06:43:05Z) - Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。
GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。
それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-11T08:41:34Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Potent but Stealthy: Rethink Profile Pollution against Sequential Recommendation via Bi-level Constrained Reinforcement Paradigm [44.622203626828345]
対話シーケンスを通じて動的ユーザインテントを利用するシークエンシャルリコメンダは、敵攻撃に対して脆弱である。
本報告では, ユーザインタラクションを微妙に汚染し, ターゲットの誤予測を誘発するプロファイル汚染攻撃について述べる。
本稿では,2段階の最適化フレームワークを多方向強化学習と相乗化して,対向効果とステルスネスのバランスをとる制約付き強化駆動攻撃 CREAT を提案する。
論文 参考訳(メタデータ) (2025-11-12T15:00:52Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。