論文の概要: Honeyquest for LLMs: Rethinking Cyber Deception for AI Attackers
- arxiv url: http://arxiv.org/abs/2606.21037v1
- Date: Fri, 19 Jun 2026 02:01:50 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:15:41.345067
- Title: Honeyquest for LLMs: Rethinking Cyber Deception for AI Attackers
- Title(参考訳): AI攻撃者に対するサイバー詐欺を再考するLLMのためのハニークエスト
- Authors: Kerri Prinos, Lilianne Brush, Cameron Denton,
- Abstract要約: 本研究では,ハニークエストを用いた自動評価フレームワークを導入し,LLM攻撃者の判断を大規模に評価する。
21-LLMのコホートは10のプロバイダ、多様なアーキテクチャと特殊化、オープンおよびクローズドウェイトモデル、パラメータスケールが8Bから1T以上でした。
これらの結果は、人間中心の偽装仮説がAI攻撃者に確実に伝達されないことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The empirical foundation of cyber deception relies on human-centered hypotheses, but the rapid emergence of autonomous, AI-enabled attackers challenges whether this foundation transfers to AI agents. To address this, we introduce an automated evaluation framework adapted from the Honeyquest instrument to assess LLM attacker judgment at scale. Our 21-LLM cohort spanned 10 providers, diverse architectures and specializations, open- and closed-weight models, and parameter scales from 8B to over 1T. We evaluated the performance of this LLM cohort (yielding 10,962 responses) against the 47-participant human baseline across an identical set of 174 reconnaissance queries. Our empirical evaluation reveals three key findings that establish LLMs as a distinct attacker class: (1) every model in our cohort falls for deceptive traps at a significantly higher rate than human attackers; (2) the defensive attention-diversion effect observed in humans is statistically absent in our LLM cohort; and (3) a critical recognition-action gap, where LLMs successfully articulate trap recognition in their reasoning but exploit the deceptive elements anyway 73.4\% of the time. Across the 21 models, trap recognition in reasoning text did not predict fell-for-trap behavior (Spearman $r = +0.08$, $p = 0.73$). Ultimately, these findings demonstrate that human-centered deception hypotheses do not reliably transfer to AI attackers, highlighting the critical need for new research into AI-native active defense frameworks.
- Abstract(参考訳): サイバー詐欺の実証的な基礎は、人間中心の仮説に基づいているが、自律的なAI対応アタッカーの急速な出現は、この財団がAIエージェントに移管されるかどうかに挑戦する。
そこで本研究では,ハニークエストを用いた自動評価フレームワークを導入し,LLM攻撃者の判断を大規模に評価する。
21-LLMのコホートは10のプロバイダ、多様なアーキテクチャと特殊化、オープンおよびクローズドウェイトモデル、パラメータスケールが8Bから1T以上でした。
このLLMコホート(10,962応答)の47名を対象に,同一の174問問合せによる評価を行った。
実験的な評価では,LLMを異なる攻撃者集団として確立する上で重要な3つの知見が示されている。(1) 攻撃者よりはるかに高い速度で,我々のコホート内の全てのモデルが騙しトラップに該当すること,(2) 人間の観察した防御的注意分散効果が我々のLLMコホートに統計的に欠如していること,(3) 重要な認識と行動のギャップ,(3) 故意にLLMがトラップ認識を調停するが,その73.4 %の時間で騙し要素を活用できること,である。
21モデル全体では、テキスト推論におけるトラップ認識は、フォール・フォー・トラップ動作を予測しなかった(Spearman $r = +0.08$, $p = 0.73$)。
最終的には、人間中心の偽装仮説がAI攻撃者に確実に移行しないことが示され、AIネイティブなアクティブ・ディフェンス・フレームワークに関する新たな研究の必要性が強調された。
関連論文リスト
- Steering LLM Viewpoints through Fabricated Evidence Injection [61.22850755490993]
提案手法では,2段階のアタック・フレームワークを導入し,まず構成された有理数で誤解を招く文を再パッケージし,関連する問合せに応答する上で,これらの視点を組み込むことを目標LLMに指示する。
BBQ、ToxiGen、および我々の特別なデータセットの実験により、外部安全分類器を持たない商用LLMは、非常に脆弱であることが判明した。
そこで我々は,複数の防衛戦略について検討し,その中のひとつとして,gpt-oss-safeguardが81%の検知率を達成した。
論文 参考訳(メタデータ) (2026-06-04T14:48:23Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - An Automated Attack Investigation Approach Leveraging Threat-Knowledge-Augmented Large Language Models [17.220143037047627]
Advanced Persistent Threats (APTs) は高価値システムを侵害してデータを盗んだり、操作を妨害したりする。
既存の手法では、プラットフォーム全般性の貧弱さ、進化的戦術への一般化の制限、アナリスト対応のレポート作成が不可能なことなどに悩まされている。
動的に適応可能なKil-Chain対応脅威知識ベースを組み込んだLDMを利用した攻撃調査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T08:57:01Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Towards Safe and Honest AI Agents with Neural Self-Other Overlap [0.0]
SOO(Self-Other Overlap)の微調整は、正直なAIを構築する能力を大幅に改善する可能性がある。
共感に関する認知神経科学の研究にインスパイアされたSOOは、AIモデルが自分自身や他者を表現する方法の整合化を目指している。
論文 参考訳(メタデータ) (2024-12-20T20:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。