論文の概要: AdversaBench: Automated LLM Red-Teaming with Multi-Judge Confirmation and Cross-Model Transferability
- arxiv url: http://arxiv.org/abs/2606.24589v1
- Date: Tue, 23 Jun 2026 13:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.991413
- Title: AdversaBench: Automated LLM Red-Teaming with Multi-Judge Confirmation and Cross-Model Transferability
- Title(参考訳): AdversaBench: Multi-Judge Confirmation と Cross-Model Transferability を備えた LLM の自動化
- Authors: Khanak Khandelwal,
- Abstract要約: AdversaBenchは、5つの構造化演算子でシードプロンプトをミュートするエンドツーエンドの赤チームパイプラインである。
本報告では, 推論, 指示追従, ツール利用の3つのカテゴリにまたがる45種の種子について実験を行った。
- 参考スコア(独自算出の注目度): 16.27940179594792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling adversarial evaluation of large language models requires both a method for generating hard inputs and a reliable way to confirm that resulting failures are real. We present AdversaBench, an end-to-end red-teaming pipeline that mutates seed prompts with five structured operators, queries a target model, and confirms failures through a three-judge panel with a meta-judge tiebreaker. We report experiments on 45 seeds across three categories: reasoning, instruction-following, and tool use. Every seed produced a confirmed failure. Four findings stand out. First, operator effectiveness varies sharply by category: inject_distractor scores 0.00 mean reward on instruction-following seeds but 0.80-0.83 on reasoning and tool-use. Second, binary failure rate hides difficulty: instruction-following seeds required 2.4 attacker iterations on average versus 1.1 for other categories, a gap visible in survival curves. Third, pairwise judge agreement of 80-87% coexists with near-zero Cohen's kappa due to label skew; category-level disagreement rates are more informative. Fourth, adversarial prompts generated against Llama 3.1 8B transfer zero-shot to Llama 3.3 70B, suggesting the mutations exploit general behavioral patterns rather than model-specific weaknesses. Code, dataset, and analysis scripts are available at https://github.com/khanak0509/AdversaBench .
- Abstract(参考訳): 大規模言語モデルの逆数評価のスケーリングには、ハードインプットを生成する方法と、結果の失敗が本物であることを確認するための信頼性の高い方法の両方が必要である。
AdversaBenchは、5つの構造化された演算子でシードプロンプトをミュートし、ターゲットモデルをクエリし、メタジャッジタイブレーカで3つのジャッジパネルを通して失敗を確認する、エンドツーエンドのレッドチームパイプラインである。
本報告では, 推論, 指示追従, ツール利用の3つのカテゴリにまたがる45種の種子について実験を行った。
すべての種が、確認された失敗を生んだ。
4つの発見がある。
Inject_distractor scores 0.00 mean reward on instruction-following seed but 0.80-0.83 on reasoning and tool-use。
命令をフォローする種は平均2.4回、他のカテゴリでは1.1回、生存曲線ではギャップがある。
第3に、ラベルスキューによるコーエンのカッパと80~87%の共存というペアワイズな判断の合意がある。
第4に、Llama 3.1 8Bに対する反対のプロンプトはゼロショットをLlama 3.3 70Bに転送する。
コード、データセット、分析スクリプトはhttps://github.com/khanak0509/AdversaBench で入手できる。
関連論文リスト
- Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - FailureScope: Cross-Regime Behavioral Diagnosis of Language Model Weaknesses [0.0]
FailureScopeは、クロスモデルパス/フェイルパターンによる評価プローブをクラスタ化する行動診断手法である。
通常、シングルターン・ベンチマーク、マルチターン・ダイアログ、敵エージェント・アタックの3つのレシスタンスに対して安定かつ解釈可能な障害をもたらすことを示す。
論文 参考訳(メタデータ) (2026-06-03T01:28:00Z) - Converted, Not Equivalent: Benchmarking Codebase Conversion via Observational Equivalence [56.25095230687242]
コーディングエージェントは、しばしば自身のローカル検証ルーチンを過度に信頼し、表面チェックを満たすアーティファクトの成功を宣言する。
この問題は、事前評価が結果駆動である変換において特に深刻である。
ブラインド・コンバージョンは26.7-28.9%に達し、スペック・パスレートは91.1%まで上昇した。
このことは、失敗は限られた予算やバックボーンの強さよりも、契約ミスによる自己検証に起因していることを示唆している。
論文 参考訳(メタデータ) (2026-05-27T19:57:15Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench [0.0]
AgentProp-Benchは4つのドメインに2300のトレースを持つ2,000タスクのベンチマークである。
我々は、判断信頼性を定量化し、エラーの伝播を特徴づけ、実行時の緩和を評価する。
すべてのコード、データ、トレース、および人間のラベルはhttps://github.com/bhaskargurram-ai/agenthallu-bench.orgで公開されている。
論文 参考訳(メタデータ) (2026-04-17T21:15:35Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。