論文の概要: Support sufficiency as action-sufficient compression: a single-cycle rate-regret formulation
- arxiv url: http://arxiv.org/abs/2606.09858v1
- Date: Thu, 28 May 2026 14:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.814966
- Title: Support sufficiency as action-sufficient compression: a single-cycle rate-regret formulation
- Title(参考訳): アクション充足圧縮としての支持充足性:単一サイクル速度-回帰定式化
- Authors: Mark Walsh,
- Abstract要約: 本稿では,アクション・サフィシエント・圧縮としてサポート・サフィシエントを定式化する。
固定$Z$の場合、厳密なアクション十分圧縮はポリシー等価性によるサポート空間の商である。
行動の正確性は、再構築の忠実さ、情報・ブートネック予測、合理的な意図と区別される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust decision-making requires compression. A system that forms a rich support state cannot usually preserve its full structure at the point of action. It must retain only those distinctions needed to act, verify, abstain, or defer under the current consequence geometry. This paper formalizes support sufficiency as action-sufficient compression. Let $H$ denote a full support state, $\mathcal{A}$ a finite action set, and $Z$ a consequence geometry specifying payoff structure. For fixed $Z$, the coarsest exactly action-sufficient compression is the quotient of support space by policy equivalence. Two support states may be merged exactly when they require the same optimal action. This clarifies why content-only and scalar-confidence-only arbitration fail whenever their induced partitions cross action boundaries. Approximate sufficiency is then defined by bounded expected policy regret. In the finite single-cycle setting, this yields a rate-regret problem with source $H$, reproduction alphabet $\mathcal{A}$, and distortion given by consequence-sensitive regret. The optimal stochastic action channel inherits the standard rate-distortion Gibbs form, applied here to support states with regret distortion. The contribution is interpretive: action adequacy is distinguished from reconstruction fidelity, information-bottleneck prediction, and rational inattention. Robust single-cycle arbitration does not require preserving all support, but it does require preserving the distinctions that consequence geometry makes action-relevant.
- Abstract(参考訳): ロバストな意思決定には圧縮が必要です。
豊かな支持状態を形成するシステムは、通常行動の時点でその完全な構造を維持できない。
それは、現在の結果幾何学の下で行動し、検証し、棄却し、延期するために必要な区別のみを保持する必要がある。
本稿では,アクション・サフィシエント・圧縮としてサポート・サフィシエントを定式化する。
H$ はフルサポート状態、$\mathcal{A} は有限アクション集合、$Z$ はペイオフ構造を指定する結果幾何学を表す。
固定$Z$の場合、厳密なアクション十分圧縮はポリシー等価性によるサポート空間の商である。
2つのサポート状態は、同じ最適なアクションを必要とするときに正確にマージされる。
これは、引き起こされたパーティションがアクション境界を越えると、コンテントのみとスカラーのみの仲裁が失敗する理由を明確にする。
近似の十分性は、制限された期待されたポリシーの後悔によって定義される。
有限個の単サイクル設定では、これはソース$H$、再生アルファベット$\mathcal{A}$、結果に敏感な後悔によって与えられる歪みによるレート-回帰問題をもたらす。
最適確率的作用チャネルは、標準速度歪曲ギブズ形式を継承し、ここでは、後悔した歪みのある状態をサポートするために適用される。
その貢献は解釈的であり、行動の妥当性は再構築の忠実さ、情報・ブートネック予測、合理的な意図と区別される。
ロバストな単一サイクル仲裁はすべてのサポートを保存する必要はないが、結果として幾何学がアクション関連性をもたらす区別を保存する必要がある。
関連論文リスト
- A Mathematical Theory of Value: a synthesis on goal-directed agency under resource constraints [6.057587531186626]
目的指向エージェントが生成し、破壊し、交換する価値は、情報と同じカテゴリの法的構造量であることを示す。
価格がフレームに依存していない間、価値はフレーム相対的であり、そのリソースをプールし、その知覚を融合する艦隊が天井を継承する。
論文 参考訳(メタデータ) (2026-06-10T16:11:04Z) - Exact Structural Abstraction and Tractability Limits [0.0]
正確な正確性は、誘導されたクラス $s sim_R simation' iff MathrmAdm_R(s)$ にのみ依存する。
決定、探索、近似、統計的、ランダム化された地平線、分布保証は全て同じ商-回復問題に還元される。
論文 参考訳(メタデータ) (2026-04-08T17:59:47Z) - Support Sufficiency as Consequence-Sensitive Compression in Belief Arbitration [0.0]
システムが仮説にコミットすると、そのコミットメントの背後にある明らかな構造の多くは圧縮に失われます。
標準アカウントは、選択されたコンテンツとスカラーの信頼度が下流制御に十分であると仮定する。
本研究では,実効性制約場が候補に対する仮説幾何を共同で決定する再帰的仲裁アーキテクチャを開発する。
論文 参考訳(メタデータ) (2026-04-06T18:28:45Z) - Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - A conversion theorem and minimax optimality for continuum contextual bandits [64.9814493154015]
本研究では,学習者が側情報ベクトルを逐次受信し,凸集合内の行動を選択する,文脈連続帯域幅問題について検討する。
目標は、受信したコンテキストのすべての基盤関数を最小化することです。
サブ線形の静的な後悔を達成するアルゴリズムを拡張して、サブ線形の文脈的後悔を実現することができることを示す。
論文 参考訳(メタデータ) (2024-06-09T10:12:08Z) - Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning [56.23358327635815]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。