論文の概要: Towards Pareto-Optimal Tool-Integrated Agents with Pareto Ranking Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.16111v1
- Date: Mon, 15 Jun 2026 01:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.031994
- Title: Towards Pareto-Optimal Tool-Integrated Agents with Pareto Ranking Policy Optimization
- Title(参考訳): Pareto-Optimal Tool-Integrated Agents with Pareto Ranking Policy Optimization に向けて
- Authors: Junyi Li, Xiaowei Qian, Yingyi Zhang, Wenlin Zhang, Guojing Li, Sheng Zhang, Xiao Han, Yichao Wang, Xiangyu Zhao,
- Abstract要約: ツールを用いた大規模言語モデル(LLM)を競合する目的の下で整列するための2段階多目的最適化フレームワークを提案する。
この設計は、複数の矛盾する目的に対してきめ細かいアクションレベルの最適化を可能にする。
- 参考スコア(独自算出の注目度): 54.855135506924775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in tool-integrated language agents have significantly improved their ability to solve complex reasoning tasks. However, existing alignment methods predominantly focus on maximizing task accuracy, while overlooking auxiliary objectives such as tool-use efficiency, which are essential for practical deployment. To address this gap, we introduce ParetoPO, a two-stage multi-objective optimization framework for aligning tool-using large language models (LLMs) under competing objectives. In the first stage, ParetoPO leverages hypervolume-guided dynamic scalarization to adapt reward weights based on global Pareto frontier progress. In the second stage, it replaces scalarized learning signals with Pareto-ranking-based advantage computation, promoting nondominated trajectories through dominance-aware credit assignment. This design enables fine-grained, action-level optimization across multiple conflicting objectives. Experimental results on mathematic reasoning and multi-hop QA tasks show that ParetoPO consistently discovers policies with superior accuracy-efficiency trade-offs compared to static and heuristic baselines.
- Abstract(参考訳): ツール統合言語エージェントの最近の進歩は、複雑な推論タスクを解く能力を大幅に改善した。
しかし,既存のアライメント手法は主にタスクの精度の最大化に重点を置いている。
このギャップに対処するために,ツールを用いた大規模言語モデル(LLM)を競合する目的の下で整合させる2段階多目的最適化フレームワークParetoPOを紹介した。
第1段階では、パレートPOはパレートフロンティアのグローバルな進歩に基づいて報酬重みを適応するために超体積誘導動的スカラー化を利用する。
第2段階では、スカラー化された学習信号をPareto-level-based advantage computingに置き換え、支配的信用代入を通じて非支配的軌道を促進させる。
この設計は、複数の矛盾する目的に対してきめ細かいアクションレベルの最適化を可能にする。
数学的推論とマルチホップQAタスクの実験結果から,ParetoPOは静的およびヒューリスティックベースラインに比べて精度・効率のトレードオフが優れているポリシーを一貫して発見することが示された。
関連論文リスト
- DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning [4.844785181175473]
グループ相対ポリシー最適化は、プロキシポリシー最適化に代わる効率的で価値のない代替手段を提供する。
Reward CombinationやAdvantage Combinationのような標準的なスカラー化のプラクティスは、重大な欠点に悩まされている。
本研究では,各目的の報酬分散に基づく組み合わせ重み付けを動的に調整する動的変数適応型アドバンテージ最適化(DVAO)を提案する。
論文 参考訳(メタデータ) (2026-05-25T08:55:16Z) - MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment [6.301256425456381]
幾何学に基づく多目的最適化アルゴリズムMGDA-Decoupledを導入する。
それぞれの目的の収束ダイナミクスを明示的に説明しながら、共通の降下方向を見つける。
UltraFeedbackデータセットの実験では、MGDA-Decoupledがゴールデンレスポンスに対して最高勝利率を達成した。
論文 参考訳(メタデータ) (2026-04-22T15:33:45Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。
既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。
本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T03:59:51Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting [48.87957020168614]
マルチリワード学習における以前の研究は、通常、固定重み付き線形スカラー化を使用しており、効果的なオンライン学習を捉えることができない。
目的整合性を高めるための2つのアプローチ、オンライン学習のためのもの、宇宙探査のためのものを紹介する。
論文 参考訳(メタデータ) (2025-09-14T21:56:35Z) - Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models [19.559468441956714]
Reinforcement Learning from Human Feedbackは、大きな言語モデルと人間の好みを整合させる強力なテクニックとして登場した。
人的価値アライメントは多目的最適化問題であり、潜在的な競合する対象の集合を最大化することを目的としている。
我々は,LLMを様々な好み分布に整合させるために,多段降下を用いた新しい微調整パラダイムであるGAPOを紹介した。
論文 参考訳(メタデータ) (2025-07-02T17:25:26Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。