論文の概要: Towards Multi-Agent-Simulation-Based Community Note Evaluation
- arxiv url: http://arxiv.org/abs/2606.18268v1
- Date: Wed, 03 Jun 2026 01:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.792043
- Title: Towards Multi-Agent-Simulation-Based Community Note Evaluation
- Title(参考訳): マルチエージェントシミュレーションに基づくコミュニティノート評価に向けて
- Authors: Changxi Wen, Shuning Zhang, Bohao Chu, Yuwei Chuai, Hui Wang, Dai Shi, Xin Yi, Hewu Li,
- Abstract要約: MultiComは、コミュニティノート評価のためのペルソナ誘導型マルチエージェント評価フレームワークである。
行列分解されたレーダ空間のコントリビュータをクラスタリングすることで、多様なレーダ集団をシミュレートする。
信頼、合意の合図、理由など、構造化され説明可能な判断を下す。
- 参考スコア(独自算出の注目度): 19.429961192672877
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Community-based fact-checking that relies on cross-consensus is expanding rapidly on social media platforms. However, the delay and low-ratio of cross-consensus community fact-checks rated by human contributors remains a significant challenge. To address this, we first created ComRate, a large-scale dataset comprising 2.5 million community notes and over 209 million ratings sourced from $\mathbb{X}$. We then propose MultiCom, a persona-guided multi-agent rating framework for community note evaluation. MultiCom simulates diverse rater population by clustering contributors in a matrix-factorized rater space and prompting persona agents to generate structured assessments based on the official community notes rating schema. These agents output structured and explainable judgments, such as confidence, agreement signals and reasons. An out-of-fold calibrated aggregation algorithm combines features such as raw votes and diagnostic reason signals for reliable prediction. Extensive evaluations demonstrate that MultiCom outperforms alternative methods, achieving an average accuracy of 84.7% (balanced accuracy 68.3%, macro-F1 60.1%) on the evaluation set.
- Abstract(参考訳): クロスコンセンサスに依存するコミュニティベースのファクトチェックは、ソーシャルメディアプラットフォーム上で急速に拡大している。
しかしながら、人間の貢献者によって評価されるクロスコンセンサスコミュニティのファクトチェックの遅れと低い比率は、依然として大きな課題である。
ComRateは250万のコミュニティノートと$\mathbb{X}$から得られた209万以上のレーティングからなる大規模なデータセットです。
次に,コミュニティノート評価のためのペルソナ誘導型マルチエージェント評価フレームワークであるMultiComを提案する。
MultiComは、行列分解されたレーダ空間にコントリビュータをクラスタリングし、公式のコミュニティノート評価スキーマに基づいて、ペルソナエージェントに構造化されたアセスメントを生成することによって、多様なレーダ人口をシミュレートする。
これらのエージェントは、信頼、合意信号、理由などの構造化された説明可能な判断を出力する。
アウト・オブ・フォールド・キャリブレーション・アグリゲーション・アルゴリズムは、信頼できる予測のために、生投票や診断理由信号などの特徴を組み合わせる。
大規模な評価では、MultiComは代替手法よりも優れており、平均精度は84.7%(バランスの取れた精度68.3%、マクロF1 60.1%)である。
関連論文リスト
- AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility [104.46861849039357]
エージェントシステムはドメイン間で急速に進歩しているが、その評価は断片化されている。
根本的問題は、オープンでエージェントに依存しないアセスメントインタフェースがないことである。
我々は、審査員が評価を行い、すべての参加者が標準化されたプロトコルを介して対話するエージェントエージェントアセスメント(AAA)を提唱する。
論文 参考訳(メタデータ) (2026-06-11T17:23:54Z) - Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus [0.0]
マルチエージェントLDM委員会は、異なるロールプロンプトの下で同じモデルを複製し、多数決によってアウトプットを集約する。
それぞれのエージェントのチェーン・オブ・シークレットの論理を組み込んで、100 GSM8Kの質問に3つのQwen2.5-14Bのエージェントでペアの類似度を測る。
DALCは、埋め込み幾何学から多様性重量を計算するトレーニングフリーコンセンサスプロトコルであり、GSM8Kでは87%、トークンコストでは84%に達する。
論文 参考訳(メタデータ) (2026-04-04T17:30:23Z) - EMS: Multi-Agent Voting via Efficient Majority-then-Stopping [62.95000188335248]
推論効率を向上させるために,EMS(Efficient Majority-then-Stopping)を提案する。
EMSはタスク認識の信頼性に基づいてエージェントを優先順位付けし、大多数が達成された時点で推論パイプラインを終了する。
EMSは、呼び出しされたエージェントの平均数を32%減少させる。
論文 参考訳(メタデータ) (2026-04-03T08:29:50Z) - Auditing the Auditors: Does Community-based Moderation Get It Right? [0.5833117322405447]
我々は,Xのコミュニティノートにおけるコンセンサスに基づく監査の結果を分析した。
マイノリティ・コントリビュータの評価は多数派に傾き、彼らの参加比率は議論の的となっているトピックに該当する。
多数派との合意によってではなく,過去の残余の安定性によって貢献者を重み付けする2段階監査・集約アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-17T21:58:13Z) - InfiCoEvalChain: A Blockchain-Based Decentralized Framework for Collaborative LLM Evaluation [27.11073536061576]
本研究では,グローバルコントリビュータが独立したバリデータとして振舞うための分散評価フレームワークを提案する。
ブロックチェーンベースのプロトコルを活用することにより、このフレームワークは、グローバルコントリビュータに対して、独立したバリデータとして行動するインセンティブを与える。
実験結果から,分散評価フレームワークは,同一モデル上での10ランの標準偏差を0.28に低減することが示された。
論文 参考訳(メタデータ) (2026-02-09T03:05:00Z) - Consensus-Driven Group Recommendation on Sparse Explicit Feedback: A Collaborative Filtering and Choquet-Borda Aggregation Framework [0.0]
本稿ではコンセンサス駆動型ハイブリッドグループレコメンデーションフレームワークを提案する。
近所のコラボレーティブ・フィルタリングとファジィ・アグリゲーションを統合し、合意、公正さ、そして疎遠さをサポートする。
実世界のデータセットを用いた実験結果から,提案手法はグループレベルのコンセンサス,満足度,公正性を向上し,バランスの取れたノベルティを維持した。
論文 参考訳(メタデータ) (2026-01-14T03:49:35Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Co-Membership-based Generic Anomalous Communities Detection [0.0]
共同メーバシップに基づくジェネリック異常コミュニティ検出アルゴリズム(CMMACを参照)について紹介する。
CMMACはドメインフリーであり、コミュニティのサイズや密度にほとんど影響を受けない。
本稿では,異常なコミュニティを注入可能なコミュニティ構造化ランダムネットワークを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-30T12:23:55Z) - Certified Robustness of Community Detection against Adversarial
Structural Perturbation via Randomized Smoothing [81.71105567425275]
本研究は, 対向構造摂動に対するコミュニティ検出の信頼性保証を初めて開発した。
このスムーズなコミュニティ検出手法は,任意のノード群を同一のコミュニティにグループ化する。
また,本手法を複数の実世界グラフ上で実験的に評価した。
論文 参考訳(メタデータ) (2020-02-09T18:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。