論文の概要: Indexed Bellman Information Complexity
- arxiv url: http://arxiv.org/abs/2606.11171v2
- Date: Thu, 18 Jun 2026 16:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 16:09:18.983091
- Title: Indexed Bellman Information Complexity
- Title(参考訳): インデクシングベルマン情報複雑性
- Authors: Yunbei Xu,
- Abstract要約: 本稿では,情報指標と参照履歴に着目した対話的意思決定の表現レベル理論を開発する。
我々は、DECは、普遍的に厳密な変換機構ではなく、インデックス付きベルマン情報複雑性の一段階緩和とみなすのが最適であることを示す。
- 参考スコア(独自算出の注目度): 5.082462420126421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop indexed Bellman information complexity, a representation-level theory of interactive decision making centered on information indices and reference histories. The representation strips away problem-specific syntax and retains only the ingredients needed for dynamic programming and information accounting, thereby unifying the earlier framework of indexed algorithmic information ratios (AIR). On the upper-bound side, regret is controlled by Bellman supersolutions or potential identities whose gradient bracket is paid for by indexed information. Upper-confidence-bound (UCB), estimation-to-decision/decision-estimation-coefficient (E2D/DEC), and adaptive-minimax-sampling or exploration-by-optimization (AMS/EBO) methods appear as three relaxations of this same identity. On the lower-bound side, the posterior-reference trajectory supplies both the information telescope and the ghost quantile of small-regret trajectories. The resulting critical radius in the lower bound is an effective-dimension-scale quantity, as in Fano and local-prior-mass lower bounds, rather than the constant radius of a two-point Le Cam argument. The examples show that DEC is best viewed as a one-step relaxation of indexed Bellman information complexity, not as a universally tight conversion mechanism. We illustrate the framework through several applications, with particular emphasis on kernel bandits. In this setting, the active action marginal provides a concrete basis for comparing UCB, E2D, and AMS/EBO.
- Abstract(参考訳): 本稿では,情報指標と参照履歴を中心とした対話的意思決定の表現レベル理論である,インデクシングされたベルマン情報複雑性を開発する。
この表現は問題固有の構文を排除し、動的プログラミングや情報会計に必要な要素のみを保持するため、インデックス化されたアルゴリズム情報比(AIR)の以前のフレームワークを統一する。
上行側では、後悔はベルマン超解法または勾配ブラケットがインデックス情報によって支払われる潜在的なアイデンティティによって制御される。
上信頼結合(UCB)、推定・決定・推定・係数(E2D/DEC)、適応最小サンプリング・探索・最適化(AMS/EBO)の3つの手法は、同じアイデンティティの3つの緩和として現れる。
下界側では、後縁軌道は情報望遠鏡と小軌道のゴースト量子の両方を供給している。
下界における結果として生じる臨界半径は、2点ル・カムの議論の定数半径ではなく、ファノや局所主質量下界のような有効次元スケールの量である。
これらの例は、DECが普遍的に厳密な変換機構ではなく、指数付けされたベルマン情報複雑性の1段階緩和とみなすのが最適であることを示している。
いくつかのアプリケーションを通じてフレームワークを説明し、特にカーネルの帯域に重点を置いている。
この設定では、アクティブアクション限界は、UCB、E2D、およびAMS/EBOを比較するための具体的な基盤を提供する。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Efficient Convex Algorithms for Universal Kernel Learning [46.573275307034336]
カーネルの理想的な集合: 線形パラメータ化(トラクタビリティ)を認める; すべてのカーネルの集合に密着する(正確性)。
従来のカーネル最適化アルゴリズムは分類に限られており、計算に複雑なセミデフィニティプログラミング(SDP)アルゴリズムに依存していた。
本稿では,従来のSDP手法と比較して計算量を大幅に削減するSVD-QCQPQPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-15T04:57:37Z) - Clustering with minimum spanning trees: How good can it be? [0.6883078440438425]
低次元分割データクラスタリングタスクにおいて、最小分散木が意味のある範囲を定量化する。
我々は、既存の最先端のMSTベースの分割スキームをレビューし、研究し、拡張し、一般化する。
全体として、Genieと情報理論の手法は、MST以外のアルゴリズムよりも優れていることが多い。
論文 参考訳(メタデータ) (2023-03-10T03:18:03Z) - Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文 参考訳(メタデータ) (2023-02-05T18:22:29Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Efficient Consensus Model based on Proximal Gradient Method applied to
Convolutional Sparse Problems [2.335152769484957]
我々は、勾配近似(PG)アプローチに基づく効率的なコンセンサスアルゴリズムの理論解析を導出し、詳述する。
提案アルゴリズムは、異常検出タスクに対する別の特別な畳み込み問題にも適用できる。
論文 参考訳(メタデータ) (2020-11-19T20:52:48Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。