論文の概要: Motion-Aware Reinforcement Learning For Object Localization
- arxiv url: http://arxiv.org/abs/2606.21764v1
- Date: Fri, 19 Jun 2026 21:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:24:01.222112
- Title: Motion-Aware Reinforcement Learning For Object Localization
- Title(参考訳): 物体位置認識のための運動認識強化学習
- Authors: Prithvi Raj Singh, Satyendra Singh,
- Abstract要約: 本稿では,PPOをベースとしたバウンディングボックス改善剤であるMARLNetについて述べる。
エージェントは268次元の観測を行い、座標調整を制御する5次元ポリシーとバイナリ終端トリガを学習する。
我々は,定速度偏差ペナルティと絶対IoU項を組み合わせた報酬干渉が引き金の崩壊を引き起こすことを解析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MARLNet (Motion-Aware Reinforcement Learning Network), a PPO-based bounding-box refinement agent that incorporates a constant-velocity motion prior into the observation state and an action smoothness penalty into the reward function. The agent operates on 268-dimensional observations encoding the current proposal, a kinematic prediction, the previous action, and a 256-dimensional EfficientNet-B0 crop feature, and learns a five-dimensional policy controlling coordinate adjustments and a binary termination trigger. Evaluated on Pascal VOC 2012 and VisDrone 2019, MARLNet trains stably across all regularization strengths tested and achieves consistent gains in detection success rate at $\text{IoU} \geq 0.5$: up to $+0.011$ on VOC ($λ_\text{phys}{=}0.10$), where the motion prior prevents the overshooting that causes plain PPO to regress on this metric, and $+0.007$ on VisDrone ($λ_\text{phys}{=}0.70$), where unconstrained PPO achieves a larger gain ($+0.025$) owing to the weaker base detector. Through reward design ablations and training dynamics analysis, we identify a reward interference in which combining a constant-velocity deviation penalty with an absolute IoU term causes trigger collapse, and show that replacing it with the action smoothness penalty resolves this failure. We further characterize a representational ceiling facing crop-feature refinement agents that share a backbone with their base detector, confirmed through a global-plus-local observation ablation. Project page: https://prithviraj97.github.io/marl-net
- Abstract(参考訳): 本稿では,PPOをベースとしたバウンディングボックスリファインメントエージェントであるMARLNet(Motion-Aware Reinforcement Learning Network)について述べる。
エージェントは、現在の提案を符号化した268次元の観察、キネマティック予測、前の動作、256次元の効率の良いNet-B0作物の特徴を演算し、座標調整を制御する5次元のポリシーとバイナリ終了トリガを学習する。
Pascal VOC 2012 と VisDrone 2019 で評価された MARLNet の列車は、試験されたすべての正規化強度に対して安定して安定して上昇し、検出成功率が $\text{IoU} \geq 0.5$: 最大$+0.011$ on VOC ($λ_\text{phys}{=}0.10$) で到達する。
報酬設計の短縮とトレーニングのダイナミクス分析を通じて、一定の速度偏差ペナルティと絶対IoU項を組み合わせた報酬干渉が引き金の崩壊を引き起こし、アクションスムースネスペナルティに置き換えることで、この失敗を解消することを示す。
さらに,背骨と背骨を共有できる作物改良剤に面した表象天井を特徴付け,グローバルな局部的観察アブレーションによって確認した。
プロジェクトページ:https://prithviraj97.github.io/marl-net
関連論文リスト
- Bug or Feature$^2$: Weight Drift, Activation Sparsity and Spikes [53.726365933748134]
標準損失と正に偏りのある活性化関数の相互作用によって引き起こされる負の重みのドリフトを解析する。
79の構成にまたがるスパシティ・精度のトレードオフを特徴付けるとともに、$sim$70%のアクティベーション・スパシティよりも高い精度の崖を識別する。
論文 参考訳(メタデータ) (2026-05-17T21:29:20Z) - TILT: Target-induced loss tilting under covariate shift [14.526961596109361]
我々は、教師なしドメイン適応のためのTarget-induced Loss Tilting(TILT)を紹介し、分析する。
ソース予測を$f+b$として分解する新しい客観的関数に基づいて、ラベル付きソースデータに$f+b$を適合させ、同時にラベルなしターゲット入力に補助コンポーネント$b$をペナル化する。
この標的側のペナルティは、人口レベルでの相対的な重み付けを暗黙的に引き起こすが、推定値として$b*_f$は、現在の誤差に自己局所化され、任意のソース・ターゲット対に対して均一に拘束される。
論文 参考訳(メタデータ) (2026-05-14T02:26:34Z) - Exactness Matters for Physical Rule Enforcement [4.230349220081444]
より強い物理ルールの執行がいつ信頼できるか、いつそれが流通シフトの源となるかは、まだ不明である。
この問題は作用素の正確性(すなわち、補修写像が対象多様体上の恒等写像であるかどうか)を通して研究する。
制御ミスマッチ、スクリーニングされたクリーンアップ、アダプティブゲーティング、および外部バックボーンチェックは、最適な近似登録操作ポイントが生またはほぼ同一であることを示す。
論文 参考訳(メタデータ) (2026-05-08T07:59:59Z) - Reinforcement Learning Trained Observer Control for Bearings-Only Tracking [0.9167082845109437]
本稿では、自律型ベアリングのみの移動目標追跡のための強化学習に基づくオブザーバ制御ポリシーを開発する。
報酬関数は、絶対目標位置推定誤差の最小化とCKF推定一貫性の維持という、2つの矛盾する目標に対処するように設計されている。
その結果、DQNの$0.7ドルのポリシーは、正確性と堅牢性の間の最良のトレードオフを達成していることがわかった。
論文 参考訳(メタデータ) (2026-05-04T00:55:14Z) - Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking [0.0]
監視を回避するためのプライベートプロトコルを開発するエージェントによるステガノグラフィーの共謀は、AIの安全性に重大な脅威をもたらす。
既存の防御は行動層や報酬層に限られており、潜伏する通信路での調整を検知できない。
本稿では,動的表現回路ブレーカ(DRCB)について紹介する。
論文 参考訳(メタデータ) (2026-03-07T04:14:38Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks [87.16809558673403]
スパイキングニューラルネットワーク(SNN)は離散スパイクで計算し、時間構造を利用する。
イベント駆動SNNにおけるスパイク数と振幅を保存しながら、既存のスパイクを繰り返すタイミングのみの敵について検討する。
論文 参考訳(メタデータ) (2026-02-03T09:06:53Z) - Latency and Ordering Effects in Online Decisions [0.0]
オンライン意思決定システムは遅延フィードバックと順序に敏感なダイナミクスの下で動作している。
ヘテロジニアスレイテンシ、非可換性、実装ギャップ効果を1つの下界ステートメントにパッケージ化する。
論文 参考訳(メタデータ) (2025-11-17T07:08:05Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。