論文の概要: Evaluation of Alternative-Based Information Systems for Deliberative Polling using an Agentic Simulator
- arxiv url: http://arxiv.org/abs/2606.11692v1
- Date: Wed, 10 Jun 2026 06:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:31.961255
- Title: Evaluation of Alternative-Based Information Systems for Deliberative Polling using an Agentic Simulator
- Title(参考訳): エージェントシミュレータを用いた議論ポーリングのための代替情報システムの評価
- Authors: Rwaida Alssadi, Khulud Alawaji, Balaji Kasula, Muntaser Syed, Badria Alfurhood, Markus Zanker, Marius Silaghi,
- Abstract要約: デリバティブ・ポーリングは、投票前に株主を幅広い議論にさらすことで、集団的な意思決定を改善することを約束する。
しかし、すべての投票者が理由空間の代表的なサンプルに遭遇することを保証するため、カバレッジ問題は依然としてオープンな課題である。
本稿では, LLMをベースとしたエージェントバイポーラ調停シミュレータを用いた評価手法を提案する。
- 参考スコア(独自算出の注目度): 0.7354329172946913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deliberative polling promises to improve collective decision-making by exposing shareholders to a broad range of arguments before they vote. Yet ensuring that every voter encounters a representative sample of the reason space, the coverage problem, remains an open challenge, particularly at scale and in adversarial or strategically motivated electorates. This paper introduces a way of evaluating solutions using the LLM-based Agentic Bipolar Argumentation Simulator, grounded in a framework which formalises a poll as a six-tuple <Jend, Jopp, Ratt, Renh, VA, VR> of endorsing and opposing justifications, attack and enhance relations, and shareholder- and relation-weights. ABAS simulates N autonomous shareholder agents, each assigned a latent opinion according to desired distributions in [-1, 1], who sequentially vote, choose or author justifications, and optionally submit argumentation-graph links. The simulator implements recommendations that rank existing justifications by their observable endorsement mass. It evaluates the mechanism's success by coverage, namely the fraction of the corpus reason-tag set represented in the K recommendations presented to each shareholder, as a solution to the NP-hard Subsuming Justification Problem. Reported experiments characterise how creativity rate (pown), recommendation size (K), argumentation density (plinks), and population size (N) affect coverage and corpus diversity. In an authenticated electorate where Sybil attacks are impossible and only the relation graph is gameable, we stress-test the scoring with coordinated strategic voting attacks: a tag-flood attack collapses coverage, while author-count relation weighting through a reversed-PageRank rule resists the flood markedly better than uniform weights.
- Abstract(参考訳): デリバティブ・ポーリングは、投票前に株主を幅広い議論にさらすことで、集団的な意思決定を改善することを約束する。
しかし、すべての投票者が、特に大規模、あるいは敵国、戦略的に動機づけられた選挙人において、理由空間、すなわちカバレッジ問題の代表例に遭遇することを保証することは、未解決の課題である。
本稿では,LLMをベースとしたエージェントバイポーラ・アグラメーション・シミュレータ (Agenic Bipolar Argumentation Simulator) を用いたソリューション評価手法を提案する。この手法は,6タプルの<Jend, Jopp, Ratt, Renh, VA, VR>として,正当性を支持し,攻撃し,関係性を高め,株主と関係を重み付けするフレームワークである。
ABASは、N人の自律的株主エージェントをシミュレートし、それぞれが[-1, 1]の所望の分布に応じて潜在意見を割り振る。
シミュレーターは、観測可能な許容質量によって既存の正当化をランク付けする勧告を実装している。
NP-hard Subsuming Justification Problem(NP-hard Subsuming Justification Problem)の解決策として、各株主に提示されたKレコメンデーションに表されるコーパスの合理的タグセットのごく一部をカバー範囲で評価する。
報告された実験は、創造性率(pown)、推奨サイズ(K)、議論密度(plinks)、人口規模(N)がカバレッジとコーパスの多様性にどのように影響するかを特徴づけている。
シュビル攻撃が不可能で, 関係グラフのみをゲーム可能な認証選挙では, タグフッド攻撃がカバー範囲を崩壊させる一方, 著者数関係重み付けは均一な重み付けよりも顕著に良く洪水に抵抗する。
関連論文リスト
- Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Selective Adversarial Attacks on LLM Benchmarks [1.6307653659652344]
広範に使用されているベンチマークMMLUに対する選択的敵攻撃について検討した。
選択的な敵攻撃が存在し、相対的なランクを実質的に変更できることがわかった。
本研究の結果は摂動を意識した報告とロバストネス評価を動機づけるものである。
論文 参考訳(メタデータ) (2025-10-15T14:08:44Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework [7.065259679465175]
評価対象者の嗜好の真の人口分布に比例して、集合的な意見や政策を整合できる新しい嗜好学習フレームワークを開発する。
本研究では,コンドルチェット受賞者の選抜と人口・地域間の整合性を円滑にトレードオフするソフトマックス緩和法を提案する。
論文 参考訳(メタデータ) (2025-06-05T22:15:07Z) - Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - FedQV: Leveraging Quadratic Voting in Federated Learning [2.4554686192257424]
本稿では,2次投票方式に基づく新しい集約アルゴリズムであるFedQVを提案する。
我々は、FedQVとビザンチンの不正なプライバシー保護機構を組み合わせることで、毒性攻撃とプライバシー攻撃の両方に対する堅牢性を高めることができることを示した。
論文 参考訳(メタデータ) (2024-01-02T11:53:06Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。