論文の概要: Efficient Adaptive Data Acquisition via Pretrained Belief Representations
- arxiv url: http://arxiv.org/abs/2606.25197v1
- Date: Tue, 23 Jun 2026 21:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.151462
- Title: Efficient Adaptive Data Acquisition via Pretrained Belief Representations
- Title(参考訳): 事前制約された信念表現による適応的効率的なデータ取得
- Authors: Daolang Huang, Zhuoyue Huang, Conor Hassan, Luigi Acerbi, Samuel Kaski, Tom Rainforth,
- Abstract要約: 信条表現を用いた政策学習(POLAR)を紹介する。
POLARは、事前訓練された予測基盤モデルを信念状態エンコーダとして活用することにより、政策学習からの表現学習を分離する。
POLARは様々なタスクにまたがって、最先端のアモートされたメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 35.0706688594896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning effective policies for adaptive data acquisition remains challenging: posterior-based methods rely on surrogate models and posterior approximations that can be misspecified or biased, while direct policy-learning methods map from historical observations and fail to exploit available model representations, making learning harder. We introduce policy learning with belief representations (POLAR), based on the insight that optimal data acquisition depends on the observation history only through a sufficient belief state. Specifically, POLAR decouples representation learning from policy learning by leveraging pretrained predictive foundation models as belief-state encoders, training a policy head on top of their representations. This yields a simple, unified amortised policy learning framework for Bayesian experimental design, Bayesian optimisation, and active learning, differing only in the task-specific utility used to train the policy. Empirically, we find that POLAR outperforms state-of-the-art amortised methods across diverse tasks while requiring far fewer training samples, demonstrating a significant step in the scalability and efficiency of amortised data acquisition.
- Abstract(参考訳): 後進的な手法は、誤った特定や偏見の可能なモデルや後進近似に依存し、直接的なポリシー学習法は、過去の観測からマップされ、利用可能なモデル表現を活用できないため、学習が難しくなる。
我々は、最適なデータ取得は、十分な信念状態を通してのみ観察履歴に依存するという知見に基づいて、信念表現(POLAR)を用いた政策学習を導入する。
特に、POLARは、事前訓練された予測基盤モデルを信念状態エンコーダとして活用し、表現の上にポリシーヘッドを訓練することにより、政策学習からの表現学習を分離する。
これにより、ベイズ実験設計、ベイズ最適化、アクティブラーニングのためのシンプルで統一されたアモート化されたポリシー学習フレームワークが得られ、ポリシーの訓練に使用されるタスク固有のユーティリティでのみ異なる。
経験的に、POLARは様々なタスクにまたがる最先端のアモールト化手法よりも、はるかに少ないトレーニングサンプルを必要とし、アモールト化されたデータ取得のスケーラビリティと効率において重要なステップを示す。
関連論文リスト
- Data-dependent Exploration for Online Reinforcement Learning from Human Feedback [50.34161049551627]
人的フィードバックからのオンライン強化学習(RLHF)は、トレーニング中に新たな嗜好フィードバックを継続的に収集することにより、大規模言語モデル(LLM)を整合させるための有望なパラダイムとして登場した。
既存の調査戦略は、しばしば政治上の期待を通じてボーナスを導き出すが、これは訓練中に利用できる限られた歴史的嗜好データから確実に見積もることが難しい。
高不確実性領域に対する余分な不確実性ボーナスを構築するために、履歴データを活用するシンプルでスケーラブルなデータ依存型選好最適化法(DEPO)を提案する。
論文 参考訳(メタデータ) (2026-05-06T03:56:45Z) - Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。
提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。
提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2~3倍向上する。
論文 参考訳(メタデータ) (2025-06-09T07:32:52Z) - From Demonstrations to Rewards: Alignment Without Explicit Human Preferences [55.988923803469305]
本稿では,逆強化学習原理に基づく学習アライメントの新たな視点を提案する。
大規模な選好データに頼る代わりに、デモデータから報酬モデルを直接学習する。
論文 参考訳(メタデータ) (2025-03-15T20:53:46Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。