論文の概要: NASDAQ: Normalized Observation Space Dynamics-Augmented Q-Learning
- arxiv url: http://arxiv.org/abs/2606.21297v1
- Date: Fri, 19 Jun 2026 10:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 14:34:59.174105
- Title: NASDAQ: Normalized Observation Space Dynamics-Augmented Q-Learning
- Title(参考訳): NASDAQ: 正常化された観測空間のダイナミクスによるQ-Learning
- Authors: Xinwei Liu, Junyuan Liang, Zicong Hong, Jianting Zhang, Wuhui Chen,
- Abstract要約: 観測力学予測(observation-predictive RL)を通して学習した表現によるモデルフリー強化学習(RL)の強化により,サンプル効率と性能が向上する。
低次元の観測を正規化し、その結果の損失と勾配のバランスをとるオンラインRLに適した新しい正規化法を提案する。
各種領域にまたがる観測予測RLのためのフレームワークである正規化観測空間ダイナミクス強化Q-ラーニング(NASDAQ)を紹介する。
- 参考スコア(独自算出の注目度): 13.486549278186928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting model-free reinforcement learning (RL) with representations learned through observation dynamics prediction (observation-predictive RL) can improve sample efficiency and performance, with minor modifications and limited additional computation. However, this approach still struggles in challenging tasks with low-dimensional observations. In this paper, we identify a key factor behind this problem: unbalanced reconstruction losses across observation dimensions, where dimensions with larger value ranges dominate the loss. This encourages the agent to neglect dimensions with relatively small ranges, leading to degraded performance. To address this issue, we propose a novel normalization method tailored to online RL, which normalizes low-dimensional observations and balances the resulting losses and gradients. Beyond balancing reconstruction losses, observation normalization enables dynamics prediction to be performed in a normalized observation space, thereby providing a unified treatment of low- and high-dimensional inputs (e.g., physical states and images). Building on this idea, we further introduce Normalized Observation Space Dynamics-Augmented Q-learning (NASDAQ), a framework for observation-predictive RL applicable across diverse domains. NASDAQ learns state-action representations by coupling value learning with two auxiliary tasks: short-term value prediction and next normalized observation prediction. Extensive experiments demonstrate that NASDAQ achieves competitive or superior performance compared with state-of-the-art model-based and self-predictive RL methods, while requiring significantly less training wall-time.
- Abstract(参考訳): 観測力学予測(observation-predictive RL)を通して学習した表現によるモデルフリー強化学習(RL)の強化は、小さな修正と限定的な追加計算により、サンプル効率と性能を向上させることができる。
しかし、このアプローチは低次元の観察を伴う挑戦的なタスクに依然として苦戦している。
本稿では,この課題の背景にある重要な要因として,より大きな値範囲を持つ次元が損失を支配している観測次元間の不均衡な再構成損失を同定する。
これにより、エージェントは比較的小さな範囲で次元を無視し、性能が低下する。
この問題に対処するために、オンラインRLに適した新しい正規化手法を提案し、低次元の観測を正規化し、その結果の損失と勾配のバランスをとる。
復元損失のバランスを保ちながら、観測正規化は正規化された観測空間でダイナミックス予測を可能にし、低次元および高次元の入力(例えば物理状態や画像)を統一的に処理する。
この考え方に基づいて、様々な領域にまたがる観測予測RLのフレームワークである正規化観測空間ダイナミクス強化Qラーニング(NASDAQ)についても紹介する。
NASDAQは、短期値予測と次回の正規化観測予測という2つの補助的タスクとを結合して、状態-行動表現を学習する。
大規模な実験により、NASDAQは最先端のモデルベースおよび自己予測型RL法と比較して、ウォールタイムのトレーニングを著しく少なくし、競争力や優れた性能を達成することが示された。
関連論文リスト
- Convergent Stochastic Training of Attention and Understanding LoRA [40.81245220414135]
トランスフォーマーは機械学習に革命をもたらし、モデルに注目層を配置することは、無数のアプリケーションでますます標準になっている。
大規模モデルではローランク適応(LoRA)を実装することが一般的であり、パラメータ化の因子化を訓練することで驚くほど精度の高いトレードオフを実現する。
軽度正規化の場合、注目層上の経験的回帰損失と浅いニューラルネットワーク上のLoRAは、対応するギブズ測度に対するポアンカレの不等式を誘導する。
論文 参考訳(メタデータ) (2026-05-08T16:22:08Z) - VIKING: Deep variational inference with stochastic projections [48.946143517489496]
変分平均場近似は、現代の過度にパラメータ化されたディープニューラルネットワークと競合する傾向がある。
パラメータ空間の2つの独立線型部分空間を考える単純な変分族を提案する。
これにより、オーバーパラメトリゼーションを反映した、完全に相関した近似後部を構築することができる。
論文 参考訳(メタデータ) (2025-10-27T15:38:35Z) - Abstain Mask Retain Core: Time Series Prediction by Adaptive Masking Loss with Representation Consistency [4.047219770183742]
時系列予測はエネルギー管理や金融市場といった重要な領域において重要な役割を担っている。
本研究は, 履歴データを適切に切り詰めることによって予測精度を向上させるという, 直感に反する現象を明らかにする。
本稿では,適応的マスキング・ロス(Adaptive Masking Loss)と表現整合性(Representation Consistency)を提案する。
論文 参考訳(メタデータ) (2025-10-22T19:23:53Z) - Towards the Training of Deeper Predictive Coding Neural Networks [44.14001498773255]
予測符号化ネットワーク(英: Predictive coding network)は、反復エネルギー最小化プロセスを通じて推論を行うニューラルネットワークである。
浅いアーキテクチャでは有効だが、5層から7層に留まらず、パフォーマンスが著しく低下する。
この劣化は,重み付け更新時の層間エラーの指数的不均衡と,より深い層内の更新を導くのに有効でない前の層からの予測が原因であることを示す。
論文 参考訳(メタデータ) (2025-06-30T12:44:47Z) - Neural Collapse Meets Differential Privacy: Curious Behaviors of NoisyGD with Near-perfect Representation Learning [36.954726737451224]
本稿では,表現学習における階層型モデルの設定について考察し,深層学習と伝達学習における学習特徴に関連する興味深い現象について考察する。
DPの微調整はDPのない微調整に比べ、特に摂動の存在下では堅牢性が低いことを示す。
論文 参考訳(メタデータ) (2024-05-14T19:18:19Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。