論文の概要: Black-Box Forensics for Conversational LLM Agents
- arxiv url: http://arxiv.org/abs/2606.22698v1
- Date: Sun, 21 Jun 2026 22:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:27:28.802361
- Title: Black-Box Forensics for Conversational LLM Agents
- Title(参考訳): 会話型LLMエージェントのブラックボックス法医学
- Authors: Isadora White, Yasaman Jafari, Taylor Berg-Kirkpatrick,
- Abstract要約: 会話型LLMエージェントのブラックボックス法医学は、匿名エンドポイントの背後に隠されたシステムの説明責任への道を提供する。
エージェントの背後にあるベースモデルを,数回の非対人会話から98%の精度で同定する。
AUCは0.768、F1は0.703である。
- 参考スコア(独自算出の注目度): 27.24002262427959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM-powered scams proliferate, black-box forensics for conversational LLM agents offers a path to accountability for systems hidden behind anonymous endpoints. Identifying the base model behind a chatbot endpoint (attribution), without model parameter access or knowledge of the hidden system prompt, would let investigators trace AI-enabled scams back to the providers whose models power them. Detecting when two endpoints run the exact same system prompt (fingerprinting), even one novel and unseen, would link individual scams into criminal networks and expose silent API changes. We conduct an empirical investigation of both capabilities. Our attribution classifiers identify the base model behind an agent with 98% accuracy from a few turns of non-adversarial conversation. Attribution of system prompts, while possible, requires retraining on a large amount of data for each prompt; system prompts in the wild are unbounded and ever-changing, making this approach costly. To tackle this more open-ended setting, our cross-encoder fingerprinting method achieves an AUC of 0.768 and an F1 of 0.703 on entirely unseen system prompts, and aggregating 50 interaction conversations from each target agent boosts AUC to 0.943. Conversational agents with unseen system prompts can thus be fingerprinted with robust accuracy from a few turns of ordinary conversation.
- Abstract(参考訳): LLMによる詐欺が急増するにつれて、会話型LLMエージェントのブラックボックス法医学は匿名エンドポイントの背後に隠されたシステムの説明責任への道を提供する。
モデルパラメータへのアクセスや隠されたシステムプロンプトの知識なしに、チャットボットエンドポイント(属性)の背後にあるベースモデルを識別することで、調査員はモデルがそれらを動かすプロバイダにAI対応の詐欺を追跡できる。
2つのエンドポイントが全く同じシステムプロンプト(フィンガープリンティング)を実行することを検出すると、1つの新規で見えないものでさえ、個々の詐欺を犯罪ネットワークにリンクし、サイレントAPIの変更を公開する。
両能力を実証的に調査する。
帰属分類器は、エージェントの背後にあるベースモデルに98%の精度で、数ターンの非逆会話から識別する。
システムプロンプトの属性は可能ではあるが、各プロンプトに対して大量のデータを再トレーニングする必要がある。
このよりオープンな設定に取り組むために、我々のクロスエンコーダフィンガープリント手法は、完全に見えないシステムプロンプト上でAUCが0.768、F1が0.703に達し、ターゲットエージェントから50の対話を集約することでAUCが0.943に上昇する。
したがって、未知のシステムプロンプトを持つ会話エージェントは、通常の会話数回から頑健な精度でフィンガープリントできる。
関連論文リスト
- Decoding Hidden Deception in Reasoning LLMs: Activation Explainers for Deception Auditing [22.30404793367838]
本稿では,騙し監査のためのアクティベーション説明器STATEWITNESSを紹介する。
個別のデコーダはターゲットモデルの隠れた状態を読み、自然言語クエリに答えるか、それらに関する構造化されたレポートを出力する。
本研究では,7つの偽装データセットを対象とする2つのLLMに対するSTATEWITNESSの評価を行った。
論文 参考訳(メタデータ) (2026-06-16T03:41:29Z) - Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions [0.0]
本稿では,デジタル資産取引における異常検出のための人間中心型マルチエージェントシステムHCLAを提案する。
このシステムは、構文解析、検出、説明の3つの役割を会話ワークフローに結びつけ、非専門家が自然言語で質問することを可能にする。
アーキテクチャ、インタラクションループ、データセット、評価プロトコル、制限について述べ、ヒューマン・イン・ザ・ループの設計が金融法医学における透明性と信頼性をどのように改善するかについて議論する。
論文 参考訳(メタデータ) (2025-10-23T01:04:36Z) - Mind the Goal: Data-Efficient Goal-Oriented Evaluation of Conversational Agents and Chatbots using Teacher Models [0.0]
マルチエージェントシステムの目標指向評価のための包括的フレームワークを提案する。
提案手法は,ユーザの目標によって会話をセグメンテーションし,関連するすべてのターンを用いて成功を評価する。
企業環境では、ゼロ・ツー・ワンの会話エージェントシステムであるAIDAを評価するために、我々のフレームワークを適用します。
論文 参考訳(メタデータ) (2025-10-04T06:22:47Z) - LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。
我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文 参考訳(メタデータ) (2024-10-19T01:00:57Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。