論文の概要: Can Multi-Agent LLMs Identify Their Peers? Stylometric Fingerprinting in Role-Constrained Political Analysis
- arxiv url: http://arxiv.org/abs/2606.09854v1
- Date: Wed, 20 May 2026 04:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.809917
- Title: Can Multi-Agent LLMs Identify Their Peers? Stylometric Fingerprinting in Role-Constrained Political Analysis
- Title(参考訳): マルチエージェントLLMはピアを識別できるか? : 役割制約型政治分析におけるスティロメトリフィンガープリント
- Authors: Juergen Dietrich,
- Abstract要約: 政治的ステートメント分析のための多エージェント大言語モデル(LLM)パイプラインは、ピア保存に対して脆弱である。
本稿では,LLMが匿名化条件下での政治分析テキストの背後にあるモデルファミリを識別できるかどうかを,初めて体系的に調査する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent large language model (LLM) pipelines for political statement analysis are vulnerable to peer-preservation bias: models tend to protect peer models from deactivation and show identity-dependent scoring distortions. Prompt-level anonymization was proposed as a mitigation, but prior work simultaneously documented that stylometric fingerprints survive anonymization in role-constrained outputs - raising the question of whether this mitigation is sufficient. This paper provides the first systematic investigation of whether LLMs can identify the model family behind political analysis texts under anonymization conditions. We evaluate three classifier approaches - LLM zero-shot and few-shot (Claude Sonnet 4.6 and Llama-3.3-70B) and a fine-tuned T5-base model - on a five-class attribution task covering four commercial LLM families and an open-world 'unknown' class. We introduce a statement-disjoint cross-validation protocol (SD-CV; defined in Section 3.5) that guarantees no content overlap between training and validation data, and contrast it with a run-disjoint baseline (RD-CV). T5 achieves Macro F1 = 0.991 (+-0.008) under SD-CV and F1 = 0.978 on 24 completely held-out statements - robust despite a 2.1x increase in train-test content distance versus RD-CV (0.767 vs. 0.366, p<0.001), demonstrating genuine stylometric generalization. A fractional SD-CV analysis identifies a performance knee at 40% of training data (~440 texts). Our findings confirm that prompt-level anonymization alone cannot neutralize model identity signals, with direct implications for EU AI Act compliance (Articles 13, 14, 26) and for computer system validation (CSV) in quality-critical multi-agent deployments.
- Abstract(参考訳): 政治声明分析のための多エージェント大言語モデル(LLM)パイプラインは、ピア保存バイアスに弱い:モデルはピアモデルを非活性化から保護し、アイデンティティ依存のスコアリング歪みを示す傾向がある。
プロンプトレベルの匿名化は緩和として提案されたが、以前の研究は、役割制約された出力において、スタイリスティックな指紋が匿名化を生き残ることを同時に文書化しており、この緩和が十分かどうかという疑問が提起された。
本稿では,LLMが匿名化条件下での政治分析テキストの背後にあるモデルファミリを識別できるかどうかを,初めて体系的に調査する。
LLM ゼロショットと少ショット (Claude Sonnet 4.6 と Llama-3.3-70B) と細調整された T5 ベースモデル (T5-base model) の3つの分類法を,商業 LLM の4つのファミリーとオープンワールドの「未知」クラスをカバーする5クラス属性タスクで評価した。
本稿では,トレーニングデータと検証データの間にコンテントが重複しないことを保証し,ラン・ディジョイント・ベースライン(RD-CV)と対比する,ステートメント・ディジョイント・クロスバリデーションプロトコル(SD-CV)を提案する。
T5 は SD-CV で Macro F1 = 0.991 (+-0.008) を、24 で F1 = 0.978 を達成し、RD-CV (0.767 vs. 0.366, p<0.001) に対して2.1倍の差があるにもかかわらず頑健である。
SD-CV分析では、トレーニングデータの40%(約440テキスト)でパフォーマンス膝を識別する。
本研究は,EU AI Actのコンプライアンス(第13条,第26条)や,品質クリティカルなマルチエージェントデプロイメントにおけるコンピュータシステム検証(CSV)に直接的な影響を伴って,即時レベルの匿名化だけではモデル識別シグナルを中和できないことを確認した。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems [0.0]
現在のプロトコルでは、モデルレベルのプロパティを第一級プリミティブとして公開していない。
5つのメカニズムを導入したAIネイティブ通信プロトコルであるLDM Delegate Protocol(LDP)を提案する。
アイデンティティを意識したルーティングは、デリゲートの特殊化によって、簡単なタスクの12倍のレイテンシを実現するが、小さなデリゲートプールの集約品質は向上しない。
論文 参考訳(メタデータ) (2026-03-09T19:13:17Z) - How Do LLMs Fail In Agentic Scenarios? A Qualitative Analysis of Success and Failure Scenarios of Various LLMs in Agentic Simulations [0.0]
ツール使用機能を備えた自律型エージェントとして運用する場合,大規模言語モデル(LLM)がいかに失敗するかを検討する。
上座エージェントメリット指数(KAMI)v0.1ベンチマークを用いて、3つの代表モデルから900の実行トレースを解析した。
4つの繰り返し発生する障害アーチタイプを識別する:接地なしでの未熟なアクション、欠落したエンティティを置換する過剰なヘルパフルネス、イントラクタによるコンテキスト汚染に対する脆弱性、脆弱な実行。
論文 参考訳(メタデータ) (2025-12-08T12:27:15Z) - Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains [0.0]
本研究は,Cross-LLMビヘイビアバックドア検出に関する最初の体系的研究である。
単一モデル検出器は、トレーニング分布において92.7%の精度を達成するが、異なるLLM間で49.2%しか達成していないことを示す。
追加機能としてのモデル認識モデル同定は,すべての評価モデルに対して90.6%の精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T03:33:04Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - How secure is AI-generated Code: A Large-Scale Comparison of Large Language Models [3.4887856546295333]
本研究では,C言語記述時の脆弱性発生傾向について,最先端のLarge Language Model (LLM)を比較した。
生成されたプログラムの少なくとも62.07%は脆弱性がある。
論文 参考訳(メタデータ) (2024-04-29T01:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。