論文の概要: Context-Based Adversarial Attacks on AI Code Generators: Vulnerability Analysis and Implications
- arxiv url: http://arxiv.org/abs/2606.10945v1
- Date: Tue, 09 Jun 2026 14:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.050781
- Title: Context-Based Adversarial Attacks on AI Code Generators: Vulnerability Analysis and Implications
- Title(参考訳): AIコードジェネレータにおけるコンテキストベースの敵攻撃:脆弱性解析と意味
- Authors: Walther A. Del Orbe, John D. Hastings, Varghese Vaidyan,
- Abstract要約: 本研究は,文脈に基づく敵攻撃の系統的研究である。
コメント、ドキュメンテーション、変数名、大規模な言語モデルなど、戦略的に構築されたコンテキストインプット。
我々の二重層防御フレームワークは、89.1%の検出率、0.3%の偽陽性、520msのレイテンシを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-powered code generation systems have transformed software development but introduce critical inference-time security vulnerabilities. This research presents a systematic investigation of context-based adversarial attacks, where strategically crafted contextual inputs, including comments, documentation, variable names, bias large language models toward generating exploitable code. Through 2,800 controlled experiments across CodeT5+, CodeLlama, GPT-3.5-Turbo, and GPT-4, we quantify attack effectiveness and defense mechanisms. Results demonstrate that adversarial conditions increase vulnerability generation 10.7x (from 3.5% to 37.4%), with direct instruction attacks achieving 100% success on GPT-3.5-Turbo. Cross-model transferability reaches 60-100%, indicating systemic architectural vulnerabilities rather than model-specific flaws. Our dual-layer defense framework achieves 89.1% detection rate with 0.3% false positives and 520ms latency, demonstrating practical feasibility for real-time deployment in development environments.
- Abstract(参考訳): AIによるコード生成システムはソフトウェア開発を変革させたが、重要な推論時のセキュリティ脆弱性を導入した。
本研究は、コンテキストベースの敵攻撃を体系的に調査し、コメント、ドキュメント、変数名、大きな言語モデルから悪用可能なコードを生成するためのバイアスを含む、戦略的にコンテキストインプットを作成する。
CodeT5+、CodeLlama、GPT-3.5-Turbo、GPT-4の2,800の制御実験を通じて、攻撃の有効性と防御機構を定量化する。
その結果、敵対的条件は脆弱性の発生を10.7x(3.5%から37.4%)増加させ、直接命令攻撃はGPT-3.5-Turboで100%成功した。
クロスモデルトランスファービリティは60-100%に達し、モデル固有の欠陥ではなく、体系的なアーキテクチャ上の脆弱性を示している。
我々の2層防御フレームワークは、89.1%の検知率、0.3%の偽陽性、520msのレイテンシを実現し、開発環境におけるリアルタイムデプロイメントの実現可能性を示している。
関連論文リスト
- Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文 参考訳(メタデータ) (2026-04-06T15:27:05Z) - Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking [23.54890959996959]
大規模言語モデル(LLM)は、AI支援コーディングツールを通じてソフトウェア開発に革命をもたらした。
このアクセシビリティは、これらの強力なツールを利用して有害なソフトウェアを生成する悪意のあるアクターにまで拡張される。
本研究では,悪意のあるコード生成におけるセキュリティアライメントの弱点を評価するための総合的なテストフレームワークであるSPELLを提案する。
論文 参考訳(メタデータ) (2025-12-24T15:25:31Z) - Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。
本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文 参考訳(メタデータ) (2025-11-19T10:00:54Z) - Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。
我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。
我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文 参考訳(メタデータ) (2025-10-24T23:53:16Z) - Large Language Model-Based Framework for Explainable Cyberattack Detection in Automatic Generation Control Systems [5.99333254967625]
本稿では,機械学習(ML)と自然言語説明(LLM)を統合し,サイバー攻撃を検出するハイブリッドフレームワークを提案する。
提案するフレームワークは,解釈可能な高忠実な説明によるリアルタイム検出を効果的に実現し,スマートグリッドサイバーセキュリティにおける実行可能なAIの重要要件に対処する。
論文 参考訳(メタデータ) (2025-07-29T21:23:08Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。