論文の概要: Evaluating AI Investment Strategies
- arxiv url: http://arxiv.org/abs/2606.08791v1
- Date: Sun, 07 Jun 2026 19:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.450186
- Title: Evaluating AI Investment Strategies
- Title(参考訳): AI投資戦略の評価
- Authors: Irene Aldridge,
- Abstract要約: 我々は、観測可能な入力と出力のみからブラックボックスのアルゴリズム決定を監査する問題について検討する。
厳密な条件下では、動的ポリシーの累積的表現は、コストベクトルとポリシーの決定の間の周期毎の共分散の和と等しい。
我々は、そのアイデンティティがコストと平均偏見のないマルコフポリシーの真下にあることを証明し、非定常および時変ケースに対する閉形式バイアス補正を導出し、割引された水平アナログを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of auditing a black-box algorithmic decision-maker from observable inputs and outputs alone. Our main result is an exact decomposition: under precisely characterized conditions, the cumulative \emph{regret} of a dynamic policy equals the sum of per-period covariances between the cost vector and the policy's decision. This extends the single-period identity of Aldridge~(2026) to the full multi-period setting of stochastic dynamic programming. We prove the identity holds exactly under i.i.d. costs and mean-unbiased Markov policies, derive closed-form bias corrections for non-stationary and time-varying cases, and establish the discounted-horizon analog. A Bellman recursion for the covariance regret functional connects the result to standard reinforcement learning algorithms; for rolling-window policies, the estimation-error bias is $O(d/w)$. The decomposition has direct implications for algorithmic auditing in strategic environments: in platform mechanism design, it provides a welfare-based audit metric without access to the agent's private type; in repeated games, covariance reduction is a sufficient condition for policy improvement; in procurement and ad auctions, the bias correction quantifies welfare loss from strategic misreporting. The associated trajectory estimator is consistent, asymptotically normal with HAC variance, and computable in $O(T \cdot nd)$ time. This makes the proposed approach a tractable, model-free audit tool for platform mechanisms, algorithmic portfolio strategies, and any sequential decision system subject to external performance review.
- Abstract(参考訳): 我々は、観測可能な入力と出力のみからブラックボックスのアルゴリズム決定を監査する問題について検討する。
我々の主な結果は、正確に特徴づけられた条件の下で、動的ポリシーの累積 \emph{regret} は、コストベクトルとポリシーの決定の間の周期毎の共分散の和と等しい。
これにより、Aldridge~(2026)の単一周期のアイデンティティが、確率的動的プログラミングの完全なマルチ周期設定にまで拡張される。
我々は、そのアイデンティティがコストと平均偏見のないマルコフポリシーの真下にあることを証明し、非定常および時変ケースに対する閉形式バイアス補正を導出し、割引された水平アナログを確立する。
共分散後悔関数に対するベルマン再帰は、その結果を標準的な強化学習アルゴリズムに結びつける; ローリングウインドウポリシーでは、推定エラーバイアスは$O(d/w)$である。
プラットフォーム設計では、エージェントのプライベートタイプにアクセスせずに福祉ベースの監査指標を提供し、繰り返しゲームでは、共分散の低減は政策改善のための十分な条件であり、調達と広告の競売では、バイアス補正が戦略ミスレポートからの福祉損失を定量化する。
関連する軌道推定器は一貫性があり、漸近的にHACの分散と一致し、$O(T \cdot nd)$ timeで計算可能である。
これにより、提案手法は、プラットフォーム機構、アルゴリズムポートフォリオ戦略、および外部パフォーマンスレビュー対象のシーケンシャルな意思決定システムのための、トラクタブルでモデルフリーな監査ツールとなる。
関連論文リスト
- Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States [14.658333957936769]
内部状態価値推定による政策最適化を導入する。
ポリシーフォワードパス中に既に計算されているポリシーモデルの内部信号を用いて、無視可能なコストでベースラインを得る。
軽量プローブは、プロンプトおよび生成された軌道の隠れ状態から期待される検証可能な報酬を予測する。
論文 参考訳(メタデータ) (2026-05-08T10:49:36Z) - Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。
これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文 参考訳(メタデータ) (2026-02-02T00:35:42Z) - A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制約マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約を満たしつつ、期待される累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムに対するオンライン学習におけるCMDPの適用により、モデルフリーでエフェミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。