論文の概要: Reward-Conditioned Attention: How Reward Design Shapes What Autonomous Driving Agents See
- arxiv url: http://arxiv.org/abs/2606.25127v1
- Date: Tue, 23 Jun 2026 20:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.133263
- Title: Reward-Conditioned Attention: How Reward Design Shapes What Autonomous Driving Agents See
- Title(参考訳): Reward-Conditioned Attention: Reward Designは自動運転エージェントが見ているものを形作る
- Authors: Mohamed Benabdelouahad, Ahmed Djalal Hacini, Nadir Farhi, Aissa Boulmerka,
- Abstract要約: 強化学習エージェントの内部的注意パターンをどう形成するかを検討する。
Open Motionから50のシナリオを分析します。
その結果,報酬関数が意図した行動システムを生成することが示唆された。
- 参考スコア(独自算出の注目度): 1.889930012459364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate how reward design shapes the internal attention patterns of reinforcement learning agents trained for autonomous driving. Using three Perceiver-based agents that share identical architectures and training data but differ only in their reward configurations$\unicode{x2014}$ranging from basic violation penalties to continuous proximity penalties$\unicode{x2014}$we analyze cross-attention allocation across 50 real-world scenarios from the Waymo Open Motion Dataset. A central methodological finding is that naïve pooling of timesteps across episodes substantially underestimates the attention$\unicode{x2013}$risk relationship; within-episode correlation with Fisher z-transform aggregation is the appropriate statistic and reveals a robustly positive link between collision risk and agent-directed attention. Building on this validated methodology, we demonstrate two reward-conditioned effects: agents trained with navigation rewards allocate up to $2.0\times$ more attention to GPS-path tokens than those trained with additional proximity penalties$\unicode{x2014}$and $4.7\times$ more than agents with no navigation incentive$\unicode{x2014}$revealing that reward content directly determines which scene elements the encoder prioritizes, and continuous time-to-collision penalties create a $\textit{learned vigilance prior}$$\unicode{x2014}$elevated resting agent surveillance maintained throughout collision-free phases. In several scenarios, the complete-reward and minimal-reward models exhibit opposite attention$\unicode{x2013}$risk correlation directions, demonstrating that reward design can qualitatively reverse attentional strategy rather than merely modulating its magnitude. These results suggest that attention analysis is a practical diagnostic for verifying that a reward function produces the intended representational behaviour in safety-critical RL systems.
- Abstract(参考訳): 本研究では,自律運転訓練のための強化学習エージェントの内部注意パターンを,報酬設計がどう形作るかを検討する。
同一のアーキテクチャとトレーニングデータを共有する3つのPerceiverベースのエージェントを使用するが、報酬設定でのみ異なる$\unicode{x2014}$ranging from basic violation penalties to continuous near penalties$\unicode{x2014}$we analyze cross-attention allocation across 50 real-world scenarios from the Waymo Open Motion Dataset。
中心的な方法論として、エピソード間のタイムステップのナイーブプールは、注意$\unicode{x2013}$risk関係を著しく過小評価している。
この検証された手法に基づいて、ナビゲーション報酬で訓練されたエージェントは、追加の近接ペナルティで訓練されたエージェントよりもGPSパストークンにもっと注意を払う$\unicode{x2014}$and $4.7\times$は、ナビゲーションインセンティブのないエージェントよりも多い$\unicode{x2014}$revealing that reward Contentは、エンコーダがどのシーン要素を優先するかを直接決定し、連続的な時間対衝突ペナルティは、衝突のないフェーズを通して監視される$\textit{learned vigilance prior}$\unicode{x2014}$elevated resting agent。
いくつかのシナリオでは、完全回帰モデルと最小回帰モデルは反対の注意($\unicode{x2013}$risk correlation direction)を示し、報酬設計はその大きさを単に調節するのではなく、質的に注意戦略を逆転できることを示した。
これらの結果は、注意分析が、安全クリティカルなRLシステムにおいて、報酬関数が意図した表現行動を生成することを検証するための実践的な診断であることを示している。
関連論文リスト
- LROO Rug Pull Detector: A Leakage-Resistant Framework Based on On-Chain and OSINT Signals [1.0382948833881696]
rug pullはスマートコントラクトベースのエコシステムにおける最も一般的な攻撃の1つです。
本稿では,早期のラグプル検出のためのリーク・アウェア・フレームワークを提案する。
オンチェーンの行動メトリクスと時間的に整合したオープンソースインテリジェンス(OSINT)信号を統合する。
論文 参考訳(メタデータ) (2026-03-11T21:35:53Z) - Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking [0.0]
監視を回避するためのプライベートプロトコルを開発するエージェントによるステガノグラフィーの共謀は、AIの安全性に重大な脅威をもたらす。
既存の防御は行動層や報酬層に限られており、潜伏する通信路での調整を検知できない。
本稿では,動的表現回路ブレーカ(DRCB)について紹介する。
論文 参考訳(メタデータ) (2026-03-07T04:14:38Z) - Learning Accurate Segmentation Purely from Self-Supervision [87.78965637247107]
Selfmentは完全に自己管理型のフレームワークで、人間のラベルなしでオブジェクトを生画像から直接分割する。
Selfmentは、複数のベンチマークで新しい最先端(SoTA)結果を設定する。
論文 参考訳(メタデータ) (2026-02-27T07:36:32Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection [51.59559387222532]
エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。
我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
論文 参考訳(メタデータ) (2026-01-15T18:58:33Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - Curb Your Attention: Causal Attention Gating for Robust Trajectory Prediction in Autonomous Driving [6.897286554827871]
自律走行における軌道予測モデルは、非因果エージェントの摂動に弱い。
過去のステップのウィンドウ上で、エージェント間の因果関係を特定するために、$textitCausal tRajecTory predICtion$ $textbf(CRiTIC)$を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:01:20Z) - Self-Localized Collaborative Perception [49.86110931859302]
我々は,新しい自己局在型協調認識システムであるMathttCoBEVGlue$を提案する。
$mathttCoBEVGlue$は、エージェント間の相対的なポーズを提供する新しい空間アライメントモジュールである。
$mathttCoBEVGlue$は任意のローカライゼーションノイズとアタックの下で最先端の検出性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T15:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。