論文の概要: Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR
- arxiv url: http://arxiv.org/abs/2606.25178v1
- Date: Tue, 23 Jun 2026 21:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.145941
- Title: Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR
- Title(参考訳): 一般推論のための転送可能性:マルチドメインRLVRのための自動カリキュラム
- Authors: Yongjin Yang, Jiarui Liu, Yinghui He, Lezhen Zhang, Bernhard Schölkopf, Zhijing Jin,
- Abstract要約: Transfer-Aware Curriculumは、トレーニングスイートの他の部分にとって大きなメリットがあるドメインを優先する。
Qwen3-1.7BとLlama3.2-3Bで最高のマクロ平均精度を達成する。
学習性のみのカリキュラムが支配的なドメインに過剰にコミットされる不均衡なトレーニングミックスでは、依然として堅牢である。
- 参考スコア(独自算出の注目度): 56.0458893958343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has been extended from single-domain training to multi-domain reasoning suites spanning mathematics, programming, and science. However, the training curriculum (how often each domain is sampled) is typically fixed or hand-tuned, even though reasoning skills transfer unevenly across domains. Existing learnability-based curricula adapt to where the policy is currently improving, but are blind to whether a gradient step on the selected domain benefits the remaining domains. In this paper, we propose Transfer-Aware Curriculum (TAC), a bandit-style online curriculum that prioritizes domains whose updates broadly benefit the rest of the training suite. TAC repurposes signals already produced by RL training: per-domain advantages capture local learnability, and projected gradients, taken from the GRPO step being computed, estimate cross-domain transferability via gradient-geometry alignment, at negligible cost (<1% wall-clock overhead). Across a six-domain reasoning suite, TAC achieves the best macro-averaged accuracy on both Qwen3-1.7B and Llama3.2-3B, outperforming proportional random sampling, a hand-designed schedule, and a learnability-only bandit, and improving over the last of these by up to 2.8 points (10% relative). Ablations show performance degrades sharply when the transferability term is removed, and TAC remains robust on imbalanced training mixtures where learnability-only curricula over-commit to dominant domains. Our findings establish cross-domain transferability as a key signal for curriculum design in multi-domain RLVR.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、単ドメイントレーニングから、数学、プログラミング、科学にまたがる多ドメイン推論スイートまで拡張されている。
しかし、訓練カリキュラム(各ドメインがどの程度サンプリングされるか)は、典型的には、ドメイン間で不均一に移動する推論スキルにもかかわらず、固定または手動で調整される。
既存の学習可能性に基づくカリキュラムは、現在ポリシーが改善されている場所に適応するが、選択されたドメインの勾配ステップが残りのドメインに利益をもたらすかどうかに盲目である。
本稿では,トレーニングスイートの他の部分に対して広く恩恵を受けるドメインを優先する,バンディットスタイルのオンラインカリキュラムであるTransfer-Aware Curriculum (TAC)を提案する。
TACは、既にRLトレーニングによって生成された信号を再利用する: ドメインごとのアドバンテージは、局所的な学習可能性と、GRPOステップから取得した投影された勾配を捉え、グラデーション・ジオメトリアライメントによるクロスドメイン転送可能性を、無視可能なコスト(壁面オーバーヘッド(1%))で見積もる。
6つのドメインの推論スイート全体で、TACはQwen3-1.7BとLlama3.2-3Bの両方で最高のマクロ平均精度を達成し、比例的なランダムサンプリング、手書きのスケジュール、学習可能性のみのバンディットを上回り、最後の2.8ポイント(10%の相対値)で改善した。
そしてTACは学習性のみのカリキュラムが支配的ドメインに過剰にコミットされる不均衡なトレーニングミックスに対して頑健なままである。
本研究は,多領域RLVRにおけるカリキュラム設計の鍵信号としてクロスドメイン転送性を確立した。
関連論文リスト
- Target-Aligned Bellman Backup for Cross-domain Offline Reinforcement Learning [7.282517489507499]
クロスドメインオフライン強化学習は、ソースドメインから収集したデータを活用することにより、ターゲットドメインにおけるポリシー学習を改善することを目的としている。
既存の研究は通常、ソース・ドメインデータの転送可能性を評価し、ターゲット・ドメインの遷移と類似度を測定し、暗黙的に遷移レベルの選択を行う。
本稿では、ターゲット領域における正確なベルマン目標推定への寄与を計測し、ソースドメインデータを選択的に活用するTarget-Aligned Bellman Backup (TABB) を提案する。
論文 参考訳(メタデータ) (2026-05-21T12:09:11Z) - Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs [21.190823331753464]
VLM(Vision-Language Models)は、優れた汎用能力を示すが、専門領域では不足することが多い。
本稿では,カリキュラム対応のプログレッシブ・変調機構を導入したポストトレーニングパラダイムであるReinforced Curriculum Pre-Alignment (RCPA)を提案する。
論文 参考訳(メタデータ) (2026-02-11T11:04:37Z) - Contrastive Adversarial Training for Unsupervised Domain Adaptation [2.432037584128226]
様々なドメイン適応タスクにおいて、ドメイン逆行訓練がうまく採用されている。
大規模なモデルでは、敵のトレーニングがソースドメインに偏りやすく、ターゲットドメインにはほとんど適応しない。
本稿では、ラベル付きソースドメインのサンプルを利用して、ターゲットドメインの機能生成を強化・調整するコントラッシブ・逆行訓練(CAT)手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T17:59:21Z) - FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous
Self-Supervised Learning [54.9235160379917]
FusDomはSSLベースの継続事前トレーニングのためのシンプルで斬新な方法論である。
FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
論文 参考訳(メタデータ) (2023-12-20T13:50:05Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Transferrable Contrastive Learning for Visual Domain Adaptation [108.98041306507372]
Transferrable Contrastive Learning (TCL) はドメイン適応に適した自己教師型学習パラダイムである。
TCLは、クリーンで斬新な対照的な損失を通じて、ソースとターゲット間のドメイン内ドメイン間の相違を罰する。
無料のランチは、対照的な学習が組み込まれているため、TCLは、ターゲットデータのための擬似ラベルの時間的にアンサンブルされたバージョンを自然に達成する、移動平均キーエンコーダに依存している。
論文 参考訳(メタデータ) (2021-12-14T16:23:01Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z) - Physically-Constrained Transfer Learning through Shared Abundance Space
for Hyperspectral Image Classification [14.840925517957258]
本稿では、ソースとターゲットドメイン間のギャップを埋める新しい転送学習手法を提案する。
提案手法は,共有空間を経由した物理制約付き移動学習と呼ばれる。
論文 参考訳(メタデータ) (2020-08-19T17:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。