Fugu-MT 論文翻訳(概要): Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

論文の概要: Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.08735v1
Date: Sun, 07 Jun 2026 17:08:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.420648
Title: Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning
Title（参考訳）: 品質多様性強化学習のための構造記述型アクタークリティカルブランチ
Authors: Lianrong Zuo, Peilan Xu, Yong Liu, Wenjian Luo,
Abstract要約: 品質多様性強化学習(QD-RL)は、ハイパフォーマンスかつ行動学的に多様な政策を含む政策レパートリーを構築することを目的としている。本稿では,各候補を構造条件付きアクター批判分岐として表現する構造値結合フレームワークSV-QD-RLを提案する。 MuJoCo連続制御タスクの実験では、SV-QD-RLは強力なアーカイブ品質と行動学的に有用な多様性を持つポリシーレパートリーを構築している。
参考スコア（独自算出の注目度）: 12.039066580069017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quality-diversity reinforcement learning (QD-RL) aims to construct policy repertoires that contain both high-performing and behaviorally diverse policies. Existing QD-RL methods mainly diversify policy instances after rollout evaluation or use learned value information to improve policy quality and behavior targeting, while the learning branches that generate candidate policies remain less explored. This paper proposes SV-QD-RL, a structure-value coupled framework that represents each candidate as a structure-conditioned actor-critic branch. Each branch contains an actor, a structural mask, a branch-specific critic, a replay state, and evaluation attributes including behavior, return, sparsity, and value profile. The structural mask defines the actor subspace in which the branch learns, while the branch-specific critic and replay state shape its value-learning trajectory. A branch-aware QD archive then evaluates and retains branches according to behavioral quality, structural footprint, and value-profile information. Experiments on MuJoCo continuous-control tasks show that SV-QD-RL constructs policy repertoires with strong archive quality and behaviorally useful diversity. Ablation and diagnostic analyses further indicate that structural conditioning, critic differentiation, and memory-consistent refinement make complementary contributions to behavioral specialization. Schedule-aware repertoire evaluation shows that the learned archive provides selectable policy alternatives under changing behavior-level requirements. These results suggest that coupling actor structure with branch-specific value learning is an effective mechanism for generating diverse QD-RL policy repertoires.
Abstract（参考訳）: 品質多様性強化学習(QD-RL)は、ハイパフォーマンスかつ行動学的に多様な政策を含む政策レパートリーを構築することを目的としている。既存のQD-RL手法は主に、ロールアウト評価後のポリシーインスタンスを多様化し、学習価値情報を用いて政策品質と行動ターゲティングを改善する。本稿では,各候補を構造条件付きアクター批判分岐として表現する構造値結合フレームワークSV-QD-RLを提案する。各ブランチにはアクタ、構造マスク、ブランチ固有の批評家、リプレイ状態、振る舞い、リターン、スパーシリティ、値プロファイルを含む評価属性が含まれている。構造マスクは、分岐が学習するアクター部分空間を定義し、分岐固有の批判と再生状態はその価値学習軌跡を形成する。ブランチ対応のQDアーカイブは、行動品質、構造的フットプリント、および価値に注目する情報に基づいて、ブランチを評価し、保持する。 MuJoCo連続制御タスクの実験では、SV-QD-RLは強力なアーカイブ品質と行動学的に有用な多様性を持つポリシーレパートリーを構築している。アブレーションと診断分析は、構造的条件付け、批判的分化、記憶に一貫性のある洗練が行動特化に相補的な貢献をすることを示している。スケジュールアウェアなレパートリー評価は、学習したアーカイブが行動レベルの要求の変化の下で選択可能な政策代替手段を提供することを示している。これらの結果から, 分岐固有値学習とアクター構造を結合させることが, 多様なQD-RLポリシーレパートリーを生成する効果的なメカニズムであることが示唆された。

関連論文リスト

From Holistic Evaluation to Structured Criteria: Rubrics Across the Evolving LLM Landscape [79.30826980815927]
ルーブリックは、複雑な品質判断を構造化され、実行可能な標準に変換する明示的な基準セットです。我々は,既存のルーリックデザインを体系的に整理し,その構築と最適化を検証し,評価と訓練をまたいだ役割を解析する。
論文参考訳（メタデータ） (2026-06-07T13:34:55Z)
EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning [77.47708145025832]
EvoTrainerは、ポリシーとトレーニングサイドハーネスを共同開発した、自律的なトレーニングフレームワークである。ロールアウトレベルの証拠を診断し、診断を見直し、介入をバックテストし、再利用可能なスキルを蓄積する。
論文参考訳（メタデータ） (2026-06-02T03:47:48Z)
RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards [76.17893114021757]
長い形式のレポートを計画し、調査し、エビデンスを評価し、合成する深層研究システムには、根本的な答えがなく、多くのツール強化された決定にまたがる。本研究では,ルーブリックは最終回答評価者だけでなく,ポリシーの実行,判断フィードバック,エージェントメモリを構成する共有インターフェースとして機能すべきである,と論じる。我々は、段階的な政策分解とリフレクションに基づくメタ政治進化を組み合わせたルーリック誘導強化学習フレームワークEMを導入する。
論文参考訳（メタデータ） (2026-05-11T17:40:38Z)
Q-DeepSight: Incentivizing Thinking with Images for Image Quality Assessment and Refinement [58.15004031934379]
我々は、この人間のようなプロセスをエミュレートする思考とイメージのフレームワークであるQ-DeepSightを提案する。 Q-DeepSightは、自然、復元、AI生成コンテンツなど、さまざまなベンチマークで最先端のパフォーマンスを実現している。本稿では,Q-DeepSight の診断が反復画像強調を導くトレーニングフリーフレームワークであるPerceptual-in-Generation (PiG) を用いて,その実用的価値を示す。
論文参考訳（メタデータ） (2026-04-18T06:10:57Z)
ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning [17.98540130851038]
ARISE(Agent Reasoning via Intrinsic Skill Evolution)は階層的な強化学習フレームワークである。共有ポリシを使用して、ハイレベルなスキルを管理し、低レベルなレスポンスを生成する。階層的な報酬設計は、推論能力と図書館品質の共進化を導く。
論文参考訳（メタデータ） (2026-03-17T02:03:17Z)
OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。 OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文参考訳（メタデータ） (2025-10-12T13:46:28Z)
Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization [6.408943565801689]
潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
論文参考訳（メタデータ） (2025-07-25T17:08:16Z)
KAQG: A Knowledge-Graph-Enhanced RAG for Difficulty-Controlled Question Generation [0.0]
本研究は知識強化質問生成(KAQG)を紹介する。項目応答理論(IRT)、ブルームの分類学、知識グラフをマルチエージェント検索拡張生成システムに統合する。提案手法は, 項目難易度, 心理測定校正, 認知アライメントのきめ細かい制御を可能にすることによって, 既存の手法の限界を克服する。
論文参考訳（メタデータ） (2025-05-12T14:42:19Z)
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文参考訳（メタデータ） (2020-01-18T15:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。