論文の概要: Representation Curriculum: Stagewise Training for Robust Ranking and Allocation
- arxiv url: http://arxiv.org/abs/2606.09891v1
- Date: Wed, 03 Jun 2026 19:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.015693
- Title: Representation Curriculum: Stagewise Training for Robust Ranking and Allocation
- Title(参考訳): 表現カリキュラム:ロバストランキングとアロケーションの段階的トレーニング
- Authors: Ehsan Ebrahimzadeh, Sina Baharlouei, Abraham Bagherjeiran,
- Abstract要約: 本稿では、時間的特徴利用を段階的に行う訓練時間介入であるRepresentation Curriculum(RC)を提案する。
RCは最初、コンテンツに基づく有益シグナルを予測し、露光依存的な信条信号を導入する。
RCは、歴史的信念信号からコンテンツに基づく有益信号への信頼度を計測的にシフトさせる。
- 参考スコア(独自算出の注目度): 3.2899076454203064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ranking in digital marketplaces is a dynamic exposure-allocation mechanism: displayed items shape discovery trajectories and success events logged by the platform to update future allocation policies. Modern ranking systems rely heavily on exposure-confounded signals (e.g. popularity estimates, CTR/CVR aggregates, and ID-based representation), because they are highly predictive under stationary demand. Yet this predictive power can become a learning shortcut: early access to exposure-dependent belief signals steers optimization toward over-reliance on them and away from exposure-independent merit signals (e.g., content-based competitiveness and semantic affinity). Consequently, the learned policy tends to entrench incumbents and degrade cold-start generalization and robustness under distribution shift. We propose Representation Curriculum (RC), a training-time intervention that temporally stages feature utilization. RC foregrounds content-based merit signals initially, then introduces exposure-dependent belief signals while anchoring the content pathway near the learned merit representation, curbing shortcut reliance on historical signals and mitigating gradient starvation on content signals. We formalize RC independently of task and hypothesis class and provide ranking-specific instantiations. In a Gaussian linear ridge setting, we derive closed-form solutions and sufficient conditions under which RC strictly reduces population risk on a cold-start target distribution, with a quantified Pareto tradeoff against source performance. Experiments on public learning-to-rank and recommendation benchmarks, and randomized online experiments in a large-scale e-commerce search system, show that RC measurably shifts reliance from historical belief signals toward content-based merit signals and yields consistent gains on cold populations with a controlled trade-off in head performance.
- Abstract(参考訳): デジタルマーケットプレースにおけるランク付けは、ダイナミックな露出割り当てメカニズムである。表示項目の形状発見トラジェクトリと、プラットフォームがログした成功イベントによって、将来のアロケーションポリシが更新される。
現代のランキングシステムは、定常的な需要下で高い予測性を持つため、露光合成信号(例えば、人気予測、CTR/CVRアグリゲーション、IDベースの表現)に大きく依存している。
しかし、この予測力は学習のショートカットとなり得る: 露出に依存しない信条信号への早期アクセスは、露出に依存しないメリット信号(例えば、コンテンツベースの競争力とセマンティック親和性)から遠ざかって、露出に依存しない信条信号への最適化を促進する。
その結果、学習方針は、分布シフトの下で、既存勢力を巻き込み、コールドスタート一般化とロバストネスを低下させる傾向にある。
本稿では、時間的特徴利用を段階的に行う訓練時間介入であるRepresentation Curriculum(RC)を提案する。
RCは、まず、コンテンツに基づくメリットシグナルをフォアグラウンドし、学習したメリット表現の近くにコンテンツ経路を固定し、履歴信号へのショートカット依存を抑え、コンテンツ信号への勾配飢餓を緩和しながら、露出依存の信念信号を導入する。
タスククラスと仮説クラスとは独立にRCを定式化し、ランキング固有のインスタンスを提供する。
ガウス線形尾根の設定では、閉形式解と十分条件を導出し、RCが冷間開始目標分布の集団リスクを厳格に低減し、パレートとのトレードオフを定量化する。
大規模eコマースサーチシステムにおける一般学習とレコメンデーションベンチマークの実験およびランダム化オンライン実験により、RCは歴史的信念信号からコンテンツに基づく有益信号への信頼度を測定可能にシフトし、ヘッドパフォーマンスのトレードオフが制御された冷民に一貫した利益をもたらすことを示した。
関連論文リスト
- Self-evolving LLM agents with in-distribution Optimization [60.05867547965365]
大規模言語モデル(LLM)は最近、複雑な環境で対話的なエージェントのための強力なコントローラとして登場した。
本稿では,自動プロセス・リワードラベリングとポリシー学習を統一するLDMエージェントの自己進化フレームワークであるQ-Evolveを提案する。
我々は,AlfWorld,WebShop,ScienceWorldの手法を評価し,Q-Evolveがサンプル効率,堅牢性,全体的なタスク性能において高いベースラインを達成していることを示す。
論文 参考訳(メタデータ) (2026-06-05T15:09:52Z) - On Distributional Reinforcement Learning in Chaotic Dynamical Systems [6.932921577765093]
カオス力学系は強化学習(RL)に根本的な課題をもたらす
軽度の統計的安定性仮定の下では、1ドル=ワッサーシュタイン計量で測定すると、回帰分布は個々の軌道よりも周期的に進化する。
カオスシステムにおける分散手法の利点とカオス下でのRL目標の最適化について、原理的な説明を提供する。
論文 参考訳(メタデータ) (2026-05-28T16:17:32Z) - PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning [80.94559742826083]
Reinforcement Learning with Verifiable Rewards (RLVR) は伝統的に、粗末で結果に基づく信号に依存している。
近年の研究では,高コストな外部モデルを必要としないステップレベルのガイダンスを提供することで,詳細なモデル固有の信号を提供することで,言語推論のトレーニングを効果的に向上することが示された。
一助文には有効であるが,この大域的な報酬を視覚言語推論(V-L)に適用することは準最適戦略である。
本稿では、報酬構造とタスクの不均一な性質を整合させることにより、この問題を解決するフレームワークであるパーセプション分解信頼回復(PDCR:Perception-Decomposed Confidence Reward)を提案する。
論文 参考訳(メタデータ) (2026-05-13T12:55:18Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - How Far Can Unsupervised RLVR Scale LLM Training? [57.44753418846446]
検証可能な報酬を伴う教師なし強化学習(URLVR)は、監督ボトルネックを越えてLLMトレーニングをスケールするための経路を提供する。
最近の研究は、モデル固有の信号を活用し、期待できる早期の利得を示しているが、その可能性と限界は未だ不明である。
我々は、URLVRメソッドを報酬源に基づく固有対外部に分類し、統一された理論的枠組みを確立する。
論文 参考訳(メタデータ) (2026-03-09T17:38:11Z) - Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation [23.667292152163068]
本報告では,不公平を意識した推薦を潜在状態浄化問題として再定義するフレームワークである textbfDSRM-HRL を提案する。
DSRM-HRLは「リッチ・ゲット・リッチ・フィードバック・ループ」を効果的に破り、レコメンデーションユーティリティーと露出エクイティとの間に優れたフロンティアを達成できることを示す。
論文 参考訳(メタデータ) (2026-03-04T08:14:21Z) - On Swarm Leader Identification using Probing Policies [2.707154152696381]
この研究は、対話型Swarm Leader Identification問題を導入している。
相手探索エージェントは、メンバーと物理的に相互作用することで、Swarmのリーダーを特定する。
我々は、犯人の政策を訓練するためにDeep Reinforcement Learningを採用している。
論文 参考訳(メタデータ) (2025-12-20T00:02:58Z) - Towards Agentic Self-Learning LLMs in Search Environment [36.158823302039195]
自己学習が人間の計算したデータセットや事前定義されたルールベースの報酬に頼ることなく、LSMベースのエージェントをスケールできるかどうかを検討する。
生成的リワードモデル(GRM)の報酬は、オープンドメイン学習のための厳密なルールベースの信号より優れている。
完全閉ループ・マルチロール強化学習フレームワークである textbfAgentic Self-Learning (ASL) を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:11:56Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。