論文の概要: A Theoretical Framework for Risk Analysis of Stochastic Rankers
- arxiv url: http://arxiv.org/abs/2606.16970v1
- Date: Mon, 15 Jun 2026 17:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.087549
- Title: A Theoretical Framework for Risk Analysis of Stochastic Rankers
- Title(参考訳): 確率ランクのリスク分析のための理論的枠組み
- Authors: Debasis Ganguly,
- Abstract要約: 本稿では,累積ゲインの最大絶対変化として定義される再ランクリスクの理論的解析について述べる。
このリスクは、最初に検索されたリスト内のリコールポイントの分布によって制御される。
- 参考スコア(独自算出の注目度): 10.93774920920143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different from deterministic rankers that seek to maximize relevance at top ranks, stochastic ranking policies instead estimate distributions over permutations, from which rankings are sampled, towards obtaining diversified or fair exposure. Such policies are commonly evaluated in terms of expected effectiveness postreranking. However, the randomness inherent in these policies gives rise to a fundamental but under-explored ex ante question: prior to applying stochastic reranking, how large can the induced variation in retrieval effectiveness be in the worst case? This paper presents a theoretical analysis of reranking risk, defined as the maximum absolute change in discounted cumulative gain (DCG) resulting from a permutation sampled from a stochastic reranking policy applied to a fixed retrieved list.We derive that this risk is governed by the distribution of the recall points in the initial retrieved list. We conduct experiments on submitted runs from the TREC Fairness 2022 track that employ stochastic reranking policies and empirically demonstrate that the effectiveness variations predicted by our theory closely approximate the observed changes in DCG.
- Abstract(参考訳): トップランクの関連性を最大化しようとする決定的ランク付けとは異なり、確率的ランク付けポリシーは、順列よりも分布を推定する。
このような政策は、期待された有効性において一般的に評価される。
しかし、これらのポリシーに固有のランダム性は、基本的なものであるが、探索されていない厳密な問題を引き起こす: 確率的再ランクを適用する前に、検索効率の帰納的変動が最悪の場合においてどの程度大きいか?
本稿では,固定されたリストに適用される確率的再ランクポリシからサンプリングされた置換から生じる割引累積ゲイン(DCG)の最大絶対値変化として定義される再ランクリスクの理論的解析を行い,このリスクは,初期検索リストにおけるリコールポイントの分布によって制御されることを示す。
TREC Fairness 2022では,確率的リランクポリシーを用いて提案した走行実験を行い,この理論により予測される有効変動がDCGの観測された変化に近似していることを実証的に実証した。
関連論文リスト
- Off-Policy Evaluation for Ranking Policies under Deterministic Logging Policies [17.672063433232196]
オフ・ポリティ・アセスメント(OPE)は、ランキングシステムにおいて重要な実践的問題である。
目標は、異なるログポリシの下で収集されたオフラインデータのみを使用して、新たなランキングポリシのパフォーマンスを見積もることである。
本稿では,この課題に対処するために,ユーザクリック動作の本質性を活かしたClick-based Inverse Propensity Score (CIPS) を提案する。
論文 参考訳(メタデータ) (2026-03-23T02:13:39Z) - MDP Planning as Policy Inference [1.7259824817932294]
我々は, _policies_に対するベイズ推定として, エピソードマルコフ決定過程(MDP)を立案した。
ポリシーは潜在変数として扱われ、期待されたリターンにおいて単調な最適性の非正規化確率が割り当てられる。
グリッド・ワールド、ブラックジャック、トライアングル・タイアワールド、アカデミック・アドバイザリングを網羅し、推定された政策分布の構造を分析し、その結果の振る舞いを個別のソフト・アクター・クリティカルと比較する。
論文 参考訳(メタデータ) (2026-02-19T13:56:31Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。