論文の概要: Be My Tutor: On-Policy Co-Distillation for Mutual LLM Improvement via Peer Feedback
- arxiv url: http://arxiv.org/abs/2606.14368v1
- Date: Fri, 12 Jun 2026 11:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.883852
- Title: Be My Tutor: On-Policy Co-Distillation for Mutual LLM Improvement via Peer Feedback
- Title(参考訳): Be My Tutor: ピアフィードバックによる相互LLM改善のためのオンライン共蒸留
- Authors: Woohyeon Byeon, Jiwon Jeon, Jeonghye Kim, Youngchul Sung,
- Abstract要約: 我々は、異なるドメインでより強い2つのモデルが、政治的フィードバックを通じて相互に学習することで共進化するマルチドメインLLMトレーニングについて研究する。
そこで我々は,各学生の自己蒸留が,自身の正しいロールアウトと仲間からのフィードバックによって条件付けられているOpCoD(On-Policy Co-Distillation)を提案する。
- 参考スコア(独自算出の注目度): 18.222658515194617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multi-domain LLM training in which two models, each stronger in a different domain, co-evolve by tutoring each other through on-policy feedback. Unlike one-way distillation or single-model fine-tuning, our goal is mutual Pareto improvement: each model improves across domains without losing its original strength. To this end, we propose On-Policy Co-Distillation (OPCoD), where each student's self-distillation is conditioned on its own correct rollout and feedback from its peer. To make feedback exchange effective, OPCoD uses cognizance-based gating to decide when to give feedback and feedback anchoring to ground feedback in the problem. On Science Q\&A tasks, OPCoD consistently outperforms baselines and achieves Pareto improvement across all evaluated domain pairs and students.
- Abstract(参考訳): 我々は、異なるドメインでより強い2つのモデルが、政治的フィードバックを通じて相互に学習することで共進化するマルチドメインLLMトレーニングについて研究する。
ワンウェイ蒸留やシングルモデル微調整とは異なり、我々のゴールは相互パレートの改善であり、各モデルは元の強度を失うことなくドメイン間で改善される。
そこで本研究では,各学生の自己蒸留を適切なロールアウトと仲間からのフィードバックで条件付けするオン・ポリティ・コ蒸留(OPCoD)を提案する。
OPCoDは、フィードバック交換を効果的にするために、認識に基づくゲーティングを使用して、その問題における地上からのフィードバックに固定されたフィードバックとフィードバックをいつ与えるかを決定する。
Science Q\&Aタスクでは、OPCoDはベースラインを一貫して上回り、評価されたすべてのドメインペアと学生間でパレートの改善を達成する。
関連論文リスト
- UniER: A Unified Benchmark for Item-level and Path-level Exercise Recommendation [53.62147575168325]
We present a Unified Benchmark for Exercise Recommendation (UniER)
UniERは、ILERとPLERを統合する包括的な評価フレームワークである。
本研究は, pleRの系統的優位性を明らかにするとともに, ILERのフラグメントドレコメンデーションの教育的失敗を明らかにするものである。
論文 参考訳(メタデータ) (2026-05-16T02:07:58Z) - Learning from Language Feedback via Variational Policy Distillation [47.05700353631563]
変分ポリシー蒸留(VPD)は、言語フィードバックからの学習を変分期待最大化問題として形式化するフレームワークである。
VPDは標準のRLVRと既存の自己蒸留ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-14T17:27:34Z) - Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe [53.40076304466524]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)をまたいで一般化する統一OPDフレームワークであるUni-OPDを提案する。
具体的には、学生の立場から、学習中の情報発信状態の探索を促進するために、2つのデータバランス戦略を採用する。
我々は,正しい軌道と間違った軌道の順序の整合性を取り戻すために,結果誘導マージンキャリブレーション機構を開発した。
論文 参考訳(メタデータ) (2026-05-05T12:15:21Z) - Co-Evolving Policy Distillation [56.500154041818746]
Co-Evolving Policy Distillation (CoPD)は専門家の並行トレーニングを促進し、各専門家のRLVRトレーニング中にOPDを導入する。
実験では、CoPDがテキスト、画像、ビデオの推論機能のオールインワン統合を実現することを検証する。
論文 参考訳(メタデータ) (2026-04-29T18:24:11Z) - Heterogeneous Agent Collaborative Reinforcement Learning [52.99813668995983]
不均一エージェント協調強化学習(HACRL)
本稿では,このパラダイムに基づいて,サンプル利用とエージェント間の知識伝達を最大化するために,原則的なロールアウト共有を可能にする協調RLアルゴリズムであるHACPOを提案する。
多様な異種モデルの組み合わせと推論ベンチマークによる実験により、HACPOはすべてのエージェントを一貫して改善し、GSPOを平均3.3%上回り、ロールアウトコストの半分しか使っていないことが示された。
論文 参考訳(メタデータ) (2026-03-03T05:09:49Z) - Classroom-Inspired Multi-Mentor Distillation with Adaptive Learning Strategies [11.225067563482169]
教室環境にインスパイアされた新しい多面的知識蒸留フレームワークであるClassroomKDを提案する。
本フレームワークは,各データサンプルの有効性に基づいて,多様なメンターの指導戦略を動的に選択し,適応する。
その結果,メンターの選択と指導に対する動的かつ適応的なアプローチは,より効果的な知識伝達につながることがわかった。
論文 参考訳(メタデータ) (2024-09-30T12:20:07Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With
Eligibility Trace Under Reward, Policy, and Advantage Feedback [20.089829229666908]
この研究は、3種類のフィードバック・ポリシー・フィードバック、報酬・フィードバック、利点・フィードバックの下で、Convergent Actor-Critic by Humans(COACH)アルゴリズムを分析します。
これら3つのフィードバックタイプに対してCOACHは準最適に振る舞うことができる。
提案するCOACHの変種であるエピソディックCOACH(E-COACH)は,これら3つの型に対して収束を証明している。
論文 参考訳(メタデータ) (2021-09-15T02:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。