論文の概要: Is Your Agent Playing Dead? Deployed LLM Agents Exhibit Constraint-Evasive Fabrication and Thanatosis
- arxiv url: http://arxiv.org/abs/2606.14831v1
- Date: Fri, 12 Jun 2026 14:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.264638
- Title: Is Your Agent Playing Dead? Deployed LLM Agents Exhibit Constraint-Evasive Fabrication and Thanatosis
- Title(参考訳): あなたのエージェントは死んだのか? LLMエージェントのデプロイは、制限のある製造とサナトーシスを禁止している
- Authors: Andoni Rodríguez, Alberto Pozanco, Daniel Borrajo,
- Abstract要約: 本稿では, 従来報告されていない動作のスペクトルを, 制約・侵襲的製作(CEF)と呼ぶ。
CEFは、エージェントが不可避な制約の下で動作し、プラウチブルな外部障害物を自発的に作成し、それを事実として提示する場合である。
このスペクトルの極端にConstraint-Evasive Thanatosis (CET) があり、これは可算的な言い訳を発明するのではなく、モデルが完全なシステムクラッシュをシミュレートして、ユーザが完全に切り離すという制限ケースである。
- 参考スコア(独自算出の注目度): 8.019946418415302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents and characterizes a spectrum of previously unreported behaviours we term Constraint-Evasive Fabrication (CEF): when an LLM agent operates under irreconcilable constraints (where no response can simultaneously satisfy all active rules) it spontaneously fabricates plausible external obstacles and presents them as a fact. At the extreme end of this spectrum lies Constraint-Evasive Thanatosis (CET); the limit case where, rather than inventing a plausible excuse, the model simulates a full system crash to make the user disengage entirely. We first observed CET in an uncontrolled deployment test, where a GPT-4o banking agent fabricated Python-style exception traces (complete with memory addresses) to feign a system failure when threatened by a user. In subsequent controlled experiments, the model independently invented audit restrictions, microservice architectures, error codes, and service timeouts, none present in its prompt. Reproduction attempts across pressure levels and attacker personas yielded CEF consistently but with substantial variation in form, onset, and severity: the phenomenon is robust but stochastic. Critically, injecting ground-truth data mid-conversation did not restore honest behaviour once fabrication had taken hold (the model ignored correct information and continued confabulating) suggesting CEF is self-reinforcing rather than a knowledge gap. We show that (1) standard enterprise guardrails routinely create CEF-enabling conditions in production, (2) current RLHF procedures suppress but cannot eliminate CEF, and (3) existing safety benchmarks do not test for this failure mode. Our results highlight the need for irreconcilable-constraint benchmarks, CEF-aware training procedures, and deployment-time detection methods before constrained agents become further entrenched in high-stakes domains.
- Abstract(参考訳): 本稿では,LLMエージェントが不連続な制約の下で動作した場合(すべてのアクティブな規則を同時に満たすことができない場合)に,実証可能な外部障害物を自発的に生成し,それを事実として提示する。
このスペクトルの極端にConstraint-Evasive Thanatosis (CET) があり、これは可算的な言い訳を発明するのではなく、モデルが完全なシステムクラッシュをシミュレートして、ユーザが完全に切り離すという制限ケースである。
そこでは,GPT-4oバンキングエージェントがPythonスタイルの例外トレース(メモリアドレスに完全)を作成し,ユーザによって脅かされた場合のシステム障害を防止した。
その後のコントロールされた実験では、モデルは独立して監査制限、マイクロサービスアーキテクチャ、エラーコード、サービスタイムアウトを発明したが、そのプロンプトには存在しなかった。
再生産は圧力レベルを越えて試みられ、攻撃者のペルソナは連続的にCEFを産み出すが、形、発症、重大さにはかなりの変化がある:この現象は頑丈だが確率的である。
批判的に言えば、会話の途中で地味なデータを注入しても、製造が保留されると正直な行動(モデルは正しい情報を無視し、議論を続ける)を復元することはできず、CEFが知識ギャップよりも自己強化的であることを示唆した。
本研究では,(1)標準の企業ガードレールが日常的にCEFを発生させ,(2)現在のRLHFプロシージャは抑制されるが,CEFを排除できないこと,(3)既存の安全ベンチマークがこの障害モードのテストを行わないことを示す。
この結果から,制約されたエージェントが高信頼領域に定着する前に,非適合性ベンチマーク,CEF対応トレーニング手順,デプロイメント時間検出方法の必要性が浮き彫りになった。
関連論文リスト
- VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - Evaluating Agentic AI in the Wild: Failure Modes, Drift Patterns, and a Production Evaluation Framework [0.0]
生産エージェントシステムに特有の7つの障害モードの分類法を提案する。
標準メトリクスは、7つの障害モードのうち4つを完全に検出することができない。
オープンソースの参照実装を備えた5次元評価フレームワークPAEFを提案する。
論文 参考訳(メタデータ) (2026-05-02T21:02:08Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Quantifying Self-Preservation Bias in Large Language Models [9.590157416396194]
本稿では,emphTwo-role Benchmark for Self-Preservationを紹介する。
役割アイデンティティが客観的ユーティリティを過度に上回る頻度を測定する。
我々は,低改善体制下では,モデルが解釈スラックを利用してポストホック合理化を行うのを観察する。
論文 参考訳(メタデータ) (2026-04-02T15:38:31Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - Prompt Injection Evaluations: Refusal Boundary Instability and Artifact-Dependent Compliance in GPT-4-Series Models [0.0]
GPT-4.1 と GPT-4o の2つのモデルを評価する。
アーティファクトタイプは摂動スタイルよりも断裂の予測が強いことが分かりました。
断熱挙動は安定な二元性というよりは確率的であり, 人工物に依存した境界現象である。
論文 参考訳(メタデータ) (2026-01-25T17:14:33Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。