Fugu-MT 論文翻訳(概要): Off-Policy Evaluation with Strategic Agents via Local Disclosure

論文の概要: Off-Policy Evaluation with Strategic Agents via Local Disclosure

arxiv url: http://arxiv.org/abs/2606.07308v1
Date: Fri, 05 Jun 2026 14:24:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.776886
Title: Off-Policy Evaluation with Strategic Agents via Local Disclosure
Title（参考訳）: 局所開示による戦略エージェントによるオフポリティィ評価
Authors: Kiet Q. H. Vo, Abbavaram Gowtham Reddy, Julian Rodemann, Siu Lun Chau, Krikamol Muandet,
Abstract要約: 戦略的行動下でのオフ・ポリティィ・アセスメント(OPE)について検討する。局所的な情報により,適応前にエージェントの事前戦略的共変が明らかになる。本研究は,エージェントの戦略応答に隠された構造を明らかにすることにより,インタラクション設計が情報の非対称性を緩和する方法について述べる。
参考スコア（独自算出の注目度）: 19.10069019048424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study off-policy evaluation (OPE) under strategic behavior where decision subjects (or agents) respond to a decision maker's policy by strategically modifying their covariates. Such behavior induces a policy-dependent covariate shift, breaking the standard assumption in existing methods that covariates are exogenous to the policy. Related work addresses this challenge by imposing strong assumptions such as repeated interactions or full knowledge of agents' response behavior, substantially limiting its applicability to OPE. In contrast, we consider a one-shot OPE setting where the decision maker has only partial knowledge of the agents' response behavior. Our key insight is that disclosing local information through post-hoc explanations reveals agents' pre-strategic covariates prior to adaptation, mitigating the information loss induced by strategic behavior. Leveraging this structure, we estimate a statistical model for the agents' responses and construct a doubly robust estimator for policy value. By assuming that the agents' cost sensitivity follows a conditional log-normal distribution, we establish consistency of the proposed estimator and validate our approach empirically. More broadly, our results highlight how interaction design can mitigate information asymmetry by revealing otherwise hidden structure in agents' strategic responses.
Abstract（参考訳）: 意思決定対象(またはエージェント)が意思決定者の方針に反応する戦略的行動下でのオフ・ポリシー評価(OPE)について,共同変数を戦略的に修正することによって検討する。このような振る舞いは、ポリシーに依存した共変量シフトを誘導し、共変量を持つ既存のメソッドの標準仮定を破る。関連する研究は、繰り返しの相互作用やエージェントの反応行動の完全な知識といった強い仮定を課すことによってこの問題に対処し、OPEの適用性を大幅に制限する。対照的に、意思決定者がエージェントの反応行動の部分的知識しか持たないワンショットのOPE設定を考える。我々の重要な洞察は、ホック後の説明を通じてローカル情報を開示することで、エージェントの事前戦略的共変が適応する前に明らかになり、戦略行動によって引き起こされる情報損失が軽減されるということである。この構造を利用して、エージェントの応答の統計モデルを推定し、ポリシー値の2倍頑健な推定器を構築する。エージェントのコスト感度が条件付き対数正規分布に従うと仮定することにより、提案した推定器の整合性を確立し、実証的にアプローチを検証する。より広義には、エージェントの戦略応答に隠された構造を明らかにすることにより、インタラクション設計が情報の非対称性を緩和する方法について述べる。

関連論文リスト

Beyond Rational Illusion: Behaviorally Realistic Strategic Classification [56.458581740660236]
本稿では,行動的現実的な戦略分類問題に対処するために,プロビジョンガイド型戦略フレームワーク(Pro-SF)を提案する。 Pro-SFは、行動学的に現実的な戦略的な反応の下でモデル化し、学習するための予測理論に基づく原則化されたフレームワークである。合成および実世界のデータセットの実験は、Pro-SFを戦略分類の行動的基盤としたアプローチとして確立する。
論文参考訳（メタデータ） (2026-05-19T11:04:55Z)
The Reciprocity Gradient [52.35929743862925]
コミュニケーションは、戦略的相互作用における相互性と協力を維持するための基本である。学習エージェントに特有の集中的最適化の難しさとして,影響帰属問題を同定し,定式化する。これを解決するために、公衆の観察から訓練された相手の政策の個人推定器を通して、報酬勾配を明示的に逆伝搬する相互性勾配を導入する。
論文参考訳（メタデータ） (2026-05-08T16:29:52Z)
Effective Red-Teaming of Policy-Adherent Agents [10.522087614181745]
タスク指向のLLMベースのエージェントは、適格性やキャンセルルールの返金といった厳格なポリシーを持つドメインで、ますます使われています。本稿では,個人的利益のためにポリシーに忠実なエージェントを活用することを目的とした,敵対的ユーザに焦点を当てた新たな脅威モデルを提案する。 CRAFTは、ポリシーを意識した説得戦略を利用して、顧客サービスシナリオにおいてポリシーに忠実なエージェントを弱体化させるマルチエージェントのレッドチームシステムである。
論文参考訳（メタデータ） (2025-06-11T10:59:47Z)
Explanation Design in Strategic Learning: Sufficient Explanations that Induce Non-harmful Responses [29.57116418734347]
鍵となる疑問は、DMが戦略エージェントに害を与えないように説明を伝達する方法である。行動推奨に基づく説明(ARexes)は、有害な応答に十分であることを示す。実験により、ARexesは、エージェントのユーティリティを保ちながら、DMがモデルの予測性能を最適化できることが示されている。
論文参考訳（メタデータ） (2025-02-06T13:17:24Z)
On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。 SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文参考訳（メタデータ） (2023-05-28T03:59:37Z)
Policy Learning with Competing Agents [2.972870935419738]
意思決定者は、しばしば、治療できるエージェントの数に制限された能力の下で、治療の割り当てポリシーを学ぶことを目指している。本稿では,そのような干渉が存在する場合のキャパシティ制約された処理課題について検討する。
論文参考訳（メタデータ） (2022-04-04T23:15:00Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文参考訳（メタデータ） (2020-04-21T03:13:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。