論文の概要: Can In-Context Learning Support Intrinsic Curiosity?
- arxiv url: http://arxiv.org/abs/2606.19476v1
- Date: Wed, 17 Jun 2026 18:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.475929
- Title: Can In-Context Learning Support Intrinsic Curiosity?
- Title(参考訳): インテクスト学習は本質的好奇心を養うことができるか?
- Authors: Eric Elmoznino, Sangnie Bhardwaj, Johannes von Oswald, Rajai Nasser, Blaise Agüera y Arcas, João Sacramento, Rif A. Saurous, Guillaume Lajoie,
- Abstract要約: 本稿では,このボトルネックを解消できるかどうかを考察する。
具体的には,学習の進展を最大化するために,探索政策を訓練できるかどうかを評価する。
非時間的設定の幅広いサブクラスに対して肯定的な結果を示す。
- 参考スコア(独自算出の注目度): 25.43664318918942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective machine learning depends not only on how we model data, but also on what data we choose to collect. While large sequence models have revolutionized data modeling, the problem of automated data selection, or "intrinsic curiosity", remains a significant challenge. Classic approaches incentivize exploration by rewarding an agent based on its "learning progress", which measures how much a newly acquired observation improves a world model's predictive ability. However, evaluating these rewards traditionally requires expensive inner loops of gradient descent updates within each trajectory, rendering them computationally impractical at scale. In this work, we investigate whether the emergent in-context learning (ICL) capabilities of sequence models can eliminate this bottleneck by serving as immediate, update-free world models. Specifically, we evaluate whether an exploration policy can be trained to maximize learning progress, using solely the prediction errors and counterfactual context manipulations of an in-context learner. We first prove that in general Markov decision processes, this is in fact impossible in an unbiased way: the resulting intrinsic rewards either suffer from nuisance terms that bias their estimation of true learning progress, or they cannot be implemented using an in-context learner's prediction errors. Conversely, we prove a positive result for a broad subclass of non-temporal settings, encompassing active learning and Bayesian Experimental Design: here, ICL-derived rewards successfully bound and asymptotically converge to the true learning progress. We corroborate our theory with controlled experiments across continuous and symbolic environments, demonstrating that our ICL-driven framework successfully trains curious data-collection policies that explore optimally.
- Abstract(参考訳): 効果的な機械学習は、データのモデリング方法だけでなく、収集するデータにも依存します。
大規模シーケンスモデルはデータモデリングに革命をもたらしたが、自動データ選択の問題は「本質的な好奇心」であり、依然として大きな課題である。
古典的なアプローチは、その「学習進歩」に基づいてエージェントに報酬を与えることで探索のインセンティブを与える。
しかし、伝統的にこれらの報酬を評価するには、各軌道における勾配降下更新の高価な内部ループが必要であり、大規模に計算的に非現実的である。
本研究では,シーケンスモデルの創発的インコンテキスト学習(ICL)能力が,即時かつ更新不要な世界モデルとして機能することで,このボトルネックを解消できるかどうかを検討する。
具体的には,学習の進捗を最大化するための探索政策を,文脈内学習者の予測誤差と対実的文脈操作のみを用いて評価する。
結果として得られる本質的な報奨は、真の学習過程の予測をバイアスするニュアンス項に悩まされるか、文脈内学習者の予測誤差を用いて実施できないかのいずれかである。
逆に、アクティブラーニングとベイズ実験設計を含む幅広い非時間的設定のサブクラスに対して、正の結果が証明される: ここでは、ICL由来の報酬が、真のラーニングの進行にうまく束縛され、漸近的に収束する。
我々は、連続的および象徴的な環境における制御された実験と理論を相関させ、ICL駆動のフレームワークが最適なデータ収集ポリシーを学習することに成功したことを実証した。
関連論文リスト
- How Far Can Unsupervised RLVR Scale LLM Training? [57.44753418846446]
検証可能な報酬を伴う教師なし強化学習(URLVR)は、監督ボトルネックを越えてLLMトレーニングをスケールするための経路を提供する。
最近の研究は、モデル固有の信号を活用し、期待できる早期の利得を示しているが、その可能性と限界は未だ不明である。
我々は、URLVRメソッドを報酬源に基づく固有対外部に分類し、統一された理論的枠組みを確立する。
論文 参考訳(メタデータ) (2026-03-09T17:38:11Z) - Learning-Augmented Moment Estimation on Time-Decay Models [55.06256430461023]
私たちは、多くの基本的な問題に対して学習強化アルゴリズムを提供するために、データセットのヘビーヒッターにオラクルを使用します。
提案手法は,実データおよび合成データセット上でのアルゴリズムの実用的効率を実証する実験的な評価によって理論的結果を補完するものである。
論文 参考訳(メタデータ) (2026-03-03T00:42:34Z) - Value from Observations: Towards Large-Scale Imitation Learning via Self-Improvement [19.883973457999282]
Imitation Learning from Observation (IfO)は、大規模に振る舞いを学ぶ強力な方法を提供する。
本稿では,主にバイモーダル品質のデータ分布を用いた理想的なシナリオについて検討し,そのようなデータから学習する方法を提案する。
提案手法は,専門家データと非専門家データ間の情報伝達に値関数を用いて,アクションフリーな実演にRLに基づく模倣学習を適用した。
論文 参考訳(メタデータ) (2025-07-09T09:55:23Z) - Continuous Visual Autoregressive Generation via Score Maximization [69.67438563485887]
本稿では,ベクトル量子化なしで直接視覚的自己回帰生成を可能にする連続VARフレームワークを提案する。
このフレームワークの中で必要なのは、厳密な適切なスコアを選択し、最適化のトレーニング目標として設定することだけです。
論文 参考訳(メタデータ) (2025-05-12T17:58:14Z) - An Information Theoretic Approach to Machine Unlearning [43.423418819707784]
AIやデータ規則に従うためには、トレーニングされた機械学習モデルからプライベートまたは著作権のある情報を忘れる必要性がますます高まっている。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
モデルの幾何に基づいて、単純だが原則化されたゼロショットアンラーニング法を導出する。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - A Wholistic View of Continual Learning with Deep Neural Networks:
Forgotten Lessons and the Bridge to Active and Open World Learning [8.188575923130662]
オープンデータセット認識による顕著な教訓,観測データセット外の統計的逸脱したデータの識別,および近接するアクティブラーニングの分野は,深層学習時代においてしばしば見過ごされる。
我々の結果は、これは個々のパラダイムに利益をもたらすだけでなく、共通のフレームワークにおける自然なシナジーを強調していることを示している。
論文 参考訳(メタデータ) (2020-09-03T16:56:36Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。