論文の概要: Quantifying Theoretical AI Alignment Guarantees: Receiver-Utility Bounds in Bayesian Persuasion
- arxiv url: http://arxiv.org/abs/2606.22226v1
- Date: Sat, 20 Jun 2026 20:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 21:57:35.806067
- Title: Quantifying Theoretical AI Alignment Guarantees: Receiver-Utility Bounds in Bayesian Persuasion
- Title(参考訳): 理論的AIアライメント保証の定量化:ベイジアン説得における受信者の実用性の境界
- Authors: Eric Yachbes, Eva Tardos,
- Abstract要約: ミスアライメントは、情報がAIエージェントから人間のユーザへどのように移動するかを変えることができる。
私たちはこれを情報アドバンテージとしてモデル化します。
戦略的なAI送信者は、人間の決定を下すために証拠や粗末な情報を保持することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misalignment can change how information moves from an AI agent to a human user. We model this as an information advantage: the AI agent observes the world state, while the human receiver only knows a prior and must act after seeing the agent's signal. A strategic AI sender may withhold evidence or garble information in order to steer the human's decision. We ask how much useful information can still reach the human when the AI optimizes a misaligned objective. We study a Bayesian persuasion model in which the world state is a bit string, the human receiver wants to guess the bits correctly, and a single AI sender wants the receiver to guess as many bits as possible as $1$. For a prior $μ$, let $R_0(μ)$ be the receiver's utility from using only the prior, and let $R_{\max}(μ)$ be the largest receiver utility among signaling schemes that are optimal for the sender. We prove $R_{\max}(μ)/R_0(μ)\leq 3/2$. This bound improves for priors close to the independent product prior with the same marginals: if $μ(x)\geq (1-η)π_μ(x)$ for every state $x$, then $R_{\max}(μ)\leq R_0(μ)+ηn$. We also give a six-bit prior for which $R_{\max}(μ)/R_0(μ)=39/31>5/4$, so no universal $5/4$ bound is possible.
- Abstract(参考訳): ミスアライメントは、情報がAIエージェントから人間のユーザへどのように移動するかを変えることができる。
我々は、これを情報優位性としてモデル化する:AIエージェントは世界の状態を観察するが、人間の受信機は、エージェントの信号を見た後に行動しなければならない。
戦略的なAI送信者は、人間の決定を下すために証拠や粗末な情報を保持することができる。
AIが不一致の目的を最適化するとき、どれほど有用な情報が人間に届くか尋ねる。
我々は、世界状態がビット文字列であり、人間の受信機がビットを正しく推測したいというベイズ的説得モデルを研究し、単一のAI送信機が受信機に可能な限り多くのビットを推測することを望んでいる。
以前の$μ$に対して、$R_0(μ)$は、前者だけの使用から受信機のユーティリティとし、$R_{\max}(μ)$は、送信者にとって最適なシグナリングスキームの中で最大の受信機ユーティリティとする。
R_{\max}(μ)/R_0(μ)\leq 3/2$。
この境界は、同じ限界を持つ独立積に先行して改善される: if $μ(x)\geq (1-η)π_μ(x)$ for every state $x$, then $R_{\max}(μ)\leq R_0(μ)+ηn$。
また、R_{\max}(μ)/R_0(μ)=39/31>5/4$の6ビット前値も与えているので、普遍的な5/4$バウンドは不可能である。
関連論文リスト
- Private Vector Mean Estimation in the Shuffle Model: Optimal Rates Require Many Messages [63.366380571397]
本稿では,プライバシのシャッフルモデルにおけるプライベートベクトル平均推定の問題について検討する。
我々は,$tildemathcalOleft(min(nvarepsilon2,d)right)$ message per users を用いて,最適なエラーを実現する新しいマルチメッセージプロトコルを提案する。
論文 参考訳(メタデータ) (2024-04-16T00:56:36Z) - Learning How to Strategically Disclose Information [6.267574471145217]
送信者が未知のタイプの受信機と対話する情報設計のオンライン版を考える。
我々は、$mathcalO(sqrtT)$ regretが完全な情報フィードバックで達成可能であることを示す。
また,一般凸ユーティリティ関数に対して$mathcalO(sqrtT)$ regretを送信者が達成できる新しいパラメトリゼーションを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:44:16Z) - Algorithmic Persuasion Through Simulation [51.23082754429737]
本研究では、送信者が受信機にバイナリアクションを取るよう説得するベイズ説得ゲームについて検討する。
送信者は、製品の品質などの世界の(実価値の高い)状態について通知されるが、受信者の信念やユーティリティに関する情報は限られている。
顧客の調査やユーザスタディ、最近のAIの進歩によって、送信側は受信者についてより深く学ぶことができるようになりました。
論文 参考訳(メタデータ) (2023-11-29T23:01:33Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - How to send a real number using a single bit (and some shared
randomness) [22.42784112323806]
一つのビットを用いて実数の推定を伝達する問題を考える。
共有ランダム性は, 単一ビット以下で, 双方のケースのコストを削減できることを示す。
論文 参考訳(メタデータ) (2020-10-05T20:52:06Z) - On Distributed Differential Privacy and Counting Distinct Elements [52.701425652208734]
我々は、$n$ユーザのそれぞれが離散集合から要素を保持する設定について研究する。
目標は、すべてのユーザーに対して異なる要素の数を数えることだ。
論文 参考訳(メタデータ) (2020-09-21T04:13:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。