論文の概要: Formalizing Task-Space Complexity for Zero-Shot Generalization
- arxiv url: http://arxiv.org/abs/2606.20967v1
- Date: Thu, 18 Jun 2026 22:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 11:32:33.798161
- Title: Formalizing Task-Space Complexity for Zero-Shot Generalization
- Title(参考訳): ゼロショット一般化のための形式化タスク空間複素性
- Authors: Jung-Hoon Cho, Heling Zhang, Siqi Du, Roy Dong, Cathy Wu,
- Abstract要約: 文脈力学系におけるゼロショット一般化について検討する。
性能中心の指向性タスクの相似性(符号付き発散)を導入する。
グリーディ選択は、一様あるいはランダムなベースラインよりも少ないポリシーで、同じ$varepsilon$-coverageを達成することを示す。
- 参考スコア(独自算出の注目度): 7.546884601602012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policies must operate across diverse conditions, yet a single policy is often conservative while fully adaptive schemes can be complex. We study zero-shot generalization in contextual dynamical systems and introduce a performance-centric, directional task dissimilarity--the signed divergence--that upper bounds the generalization gap from a source context to a target context. The signed divergence induces $\varepsilon$-tolerance sets that certify when a source policy class generalizes, and it yields a concrete notion of task-space complexity: the minimum number of source contexts needed so that every target context incurs at most $\varepsilon$ generalization gap. Under a mild local smoothness assumption on performance, the induced tolerance sets admit certified inner/outer balls and instance-dependent volume bounds on task-space complexity. In the finite-oracle setting, source selection reduces to set cover; a greedy strategy inherits the standard $H(n)$ approximation guarantee. Using a Mass-Spring-Damper system with linear-quadratic regulator (LQR) controllers and a nonlinear CartPole system with deep reinforcement learning controllers, we show that greedy selection achieves the same $\varepsilon$-coverage with fewer policies than uniform or random baselines. Our approach delivers a performance-based task similarity measure and practical certificates for building generalizable control with simple policies.
- Abstract(参考訳): 政策は様々な条件にまたがって運営されなければならないが、単一の政策はしばしば保守的であり、完全な適応スキームは複雑である。
本研究では、文脈力学系におけるゼロショット一般化について検討し、性能中心の方向性タスクの相似性(符号付き発散)を導入し、ソースコンテキストからターゲットコンテキストへの一般化ギャップを上限とする。
符号付き発散は、ソースポリシークラスが一般化されたときに証明する$\varepsilon$-tolerance集合を誘導し、タスク空間の複雑さという具体的な概念を生み出す。
性能上の緩やかな局所滑らかさの仮定の下では、誘導許容セットは、認定された内外球と、タスク空間の複雑さに関するインスタンス依存ボリューム境界を許容する。
有限オークル設定では、ソース選択は被覆に還元され、greedy戦略は標準の$H(n)$近似保証を継承する。
リニアクワッドラティック・レギュレータ(LQR)コントローラを備えたMass-Spring-Damperシステムと、深い強化学習コントローラを備えた非線形CartPoleシステムを用いて、greedy選択は同じ$\varepsilon$-coverageを均一あるいはランダムなベースラインよりも少ないポリシーで達成することを示す。
提案手法は,単純なポリシで汎用的な制御を構築するための,パフォーマンスベースのタスク類似度尺度と実用的な証明書を提供する。
関連論文リスト
- POETS: Uncertainty-Aware LLM Optimization via Compute-Efficient Policy Ensembles [35.88280776565273]
POETSは不確実性定量化と政策最適化を橋渡しする新しいフレームワークである。
我々のアプローチは、KL(Kulback-Leibler)正規化で訓練されたポリシーが、基礎となる報酬関数を暗黙的にエンコードするという知見に基づいている。
我々はPOETSが様々な科学的発見領域にまたがって最先端のサンプル効率を実現することを実証する。
論文 参考訳(メタデータ) (2026-05-08T14:16:32Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL [6.224756774400233]
本研究では, 平均回帰MDPにおけるオフライン強化学習について検討し, 分散シフトと非一様カバレッジの観点から, さらなる課題を提示する。
対象とする政策,特にバイアススパンと新しい政策が半径を超えることのみに基づき,平均逆オフラインRLに束縛された最初の完全単一政治サンプルの複雑性が生じる。
論文 参考訳(メタデータ) (2025-06-26T00:22:39Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Reward-Free Policy Space Compression for Reinforcement Learning [39.04317877999891]
強化学習では,環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーにエンコードする。
我々は、政策空間の報酬のない圧縮を、代表政策の有限集合に求めている。
政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。
論文 参考訳(メタデータ) (2022-02-22T18:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。