Fugu-MT 論文翻訳(概要): Bayesian Anytime Pareto Set Identification for Multi-Objective Multi-Armed Bandits

論文の概要: Bayesian Anytime Pareto Set Identification for Multi-Objective Multi-Armed Bandits

arxiv url: http://arxiv.org/abs/2606.18785v1
Date: Wed, 17 Jun 2026 07:56:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-18 17:16:51.053128
Title: Bayesian Anytime Pareto Set Identification for Multi-Objective Multi-Armed Bandits
Title（参考訳）: 多目的マルチアーメッドバンドに対するベイズ的随時パレートセット同定
Authors: Lennert Saerens, Bram Silue, Eleni Litsa, Peter Vrancx, Pieter Libin,
Abstract要約: パレート・セット同定問題に対する最初のマルチオブジェクト・マルチアーメッド・バンドイットアルゴリズムを提案する。我々は、その実用性を、挑戦的な多目的分子発見環境で実証する。これらの経験的発見を,アルゴリズムの正確性の理論的証明で補完する。
参考スコア（独自算出の注目度）: 0.37515646463759694
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identifying Pareto optimal solutions is critical to support multi-objective decision-making. We introduce the first anytime Multi-Objective Multi-Armed Bandit algorithm for the Pareto Set Identification problem, taking a Bayesian approach: Top-Two Pareto Front Thompson Sampling (TTPFTS). We benchmark TTPFTS against state-of-the-art fixed-budget Pareto Set Identification algorithms on synthetic environments. Next, we demonstrate its practical utility in a challenging multi-objective molecular discovery setting by efficiently exploring an ultra-large synthesis-on-demand molecular library. Furthermore, we introduce a novel uncertainty quantification metric that estimates our algorithm's confidence in the predicted Pareto set. We demonstrate that this metric effectively proxies true performance, yielding a robust methodology for monitoring learning progress in complex settings. Finally, we complement these empirical findings with a theoretical proof of the algorithm's asymptotic correctness.
Abstract（参考訳）: Paretoの最適解を特定することは、多目的意思決定をサポートするために重要である。本稿では,Palreto Setの同定問題に対して,Pop-Two Pareto Front Thompson Sampling (TTPFTS) を用いた最初のマルチオブジェクトマルチArmed Banditアルゴリズムを提案する。我々は,TTPFTSと最先端の固定予算型Pareto Set識別アルゴリズムを合成環境上でベンチマークした。次に,超大規模合成オンデマンド分子ライブラリーを効率的に探索し,その実用性を示す。さらに,予測されたパレート集合に対するアルゴリズムの信頼度を推定する新しい不確実量化指標を導入する。この指標が真の性能を効果的にプロキシし、複雑な環境下での学習の進捗をモニタリングするための堅牢な方法論が得られたことを実証する。最後に、これらの経験的発見をアルゴリズムの漸近的正確性の理論的証明で補完する。

関連論文リスト

Split the Differences, Pool the Rest: Provably Efficient Multi-Objective Imitation [49.86232017439639]
マルチ出力拡張行動クローン(MA-BC)について紹介する。 MA-BCは、振る舞いの衝突が観測されない状態-動作ペアをプールしながら、専門家データを分離する。我々は,MA-BCが極小であることを示す,多目的模倣学習のための新しい下位境界を確立する。
論文参考訳（メタデータ） (2026-05-12T11:49:08Z)
Constrained Pareto Set Identification with Bandit Feedback [10.967572582187014]
意味不明の$Kの武器が与えられた場合、平均が他の腕よりも一様でない腕のセットを特定することが目的である。我々は固定信頼度同定に重点を置いており、レースのようなアルゴリズムを著しく上回るアルゴリズムを導入している。
論文参考訳（メタデータ） (2025-06-09T18:29:28Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Divide and Conquer: Provably Unveiling the Pareto Front with Multi-Objective Reinforcement Learning [5.897578963773195]
反復パレート参照最適化(IPRO)を導入する。 IPROはParetoフロントを制約付き単目的問題の列に分解する。問題固有の単目的解法を利用することで、本手法は多目的強化学習を超える応用を約束する。
論文参考訳（メタデータ） (2024-02-11T12:35:13Z)
Adaptive Algorithms for Relaxed Pareto Set Identification [12.326452468513228]
多目的多武装バンディットモデルにおけるパレート最適セットの固定信頼度同定を再検討する。そこで我々は,Adaptive Pareto Exploration (Adaptive Pareto Exploration) と呼ばれる単一サンプリング手法を提案する。我々はこれらの組み合わせのサンプルの複雑さを分析し、特にサンプルの複雑さの減少を定量化する。
論文参考訳（メタデータ） (2023-07-01T20:43:12Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文参考訳（メタデータ） (2020-06-12T00:32:21Z)
The Simulator: Understanding Adaptive Sampling in the Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文参考訳（メタデータ） (2017-02-16T23:42:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。