論文の概要: Evaluating LLMs for Real-World Web Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2606.21397v1
- Date: Fri, 19 Jun 2026 13:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:41:10.878112
- Title: Evaluating LLMs for Real-World Web Vulnerability Detection
- Title(参考訳): リアルタイムWeb脆弱性検出のためのLCMの評価
- Authors: Sebastian Neef, Luca Jungnickel, Antonio Benjamin Buchholz, Valene Spence, Vicente Birke Gonzalez,
- Abstract要約: 大きな言語モデル(LLM)は、自動脆弱性検出のための有望なツールとして登場した。
この研究は6つのフロンティア(Claude Opus 4.6、Codex GPT-5.4、Gemini 3.1-pro-preview)とオープンウェイトモデル(Qwen 3.5、Qwen 3 Coder Next、MiniMax M2.5)を実際のWeb脆弱性を検出する能力でベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as a promising tool for automated vulnerability detection, yet their effectiveness on web-specific vulnerabilities remains to be explored. This work benchmarks six frontier (Claude Opus 4.6, Codex GPT-5.4, Gemini 3.1-pro-preview) and open-weight models (Qwen 3.5, Qwen 3 Coder Next, MiniMax M2.5) on their ability to detect real-world web vulnerabilities using static analysis in WordPress plugins, including SQL injection, stored cross-site scripting, path traversal, and remote code execution. Using five prompt designs of varying structure, scope, and complexity across three experiment iterations, we aim to answer how model and prompt choice affects vulnerability detection. Our results show that all models are capable of detecting valid security issues, but the detection rate varies depending on the model and prompt. For example, Claude Opus 4.6 achieved the highest web vulnerability detection rate (63%), while open-weight MiniMax M2.5 performs on par with other frontier models (48%), and self-hosted Qwen 3.5 only achieved 35%. We show that scoped prompts that narrow the vulnerability scope outperform open-ended ones, whereas the prompt complexity has little impact. Surprisingly, no model achieved full reporting consistency across three experiment iterations, with some as low as 50%. Our experiments demonstrate the opportunities and limits of LLM-based vulnerability detection, as no model correctly identified one baseline vulnerability in one of the plugins. Additionally, we derive practical lessons learned for security practitioners and publish all code and data to support future research.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自動脆弱性検出のための有望なツールとして登場したが、Web固有の脆弱性に対する有効性はまだ検討されていない。
この研究は6つのフロンティア(Claude Opus 4.6、Codex GPT-5.4、Gemini 3.1-pro-preview)とオープンウェイトモデル(Qwen 3.5、Qwen 3 Coder Next、MiniMax M2.5)をベンチマークし、WordPressプラグインの静的解析(SQLインジェクション、ストアドクロスサイトスクリプティング、パストラバーサル、リモートコード実行など)を使って現実世界のWeb脆弱性を検出する能力についてベンチマークする。
モデルと迅速な選択が脆弱性検出にどのように影響するかを,3つの実験を繰り返し,構造,スコープ,複雑さの5つのプロンプト設計を用いて検討する。
その結果,すべてのモデルが有効なセキュリティ問題を検出することができるが,検出率はモデルやプロンプトによって異なることがわかった。
例えば、Claude Opus 4.6は最も高いWeb脆弱性検出率(63%)を達成し、オープンウェイトなMiniMax M2.5は他のフロンティアモデル(48%)と同等に動作し、セルフホストのQwen 3.5はわずか35%であった。
我々は、脆弱性の範囲を狭めるスコープ付きプロンプトが、オープンエンドのプロンプトよりも優れていることを示した。
驚くべきことに、3つの実験イテレーションで完全なレポート一貫性を達成したモデルはなく、一部は50%も低かった。
実験では,LLMベースの脆弱性検出の機会と限界が示され,どのモデルもプラグインの1つのベースライン脆弱性を正しく識別することができなかった。
さらに、セキュリティ実践者が学んだ実践的な教訓を導き、将来の研究を支援するためにすべてのコードとデータを公開します。
関連論文リスト
- Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks [0.3303672705634661]
デュアルモードベンチマークにより,フロンティアLSMがサイバーセキュリティの準備ができているかを評価する。
我々は6つのフロンティアモデル(GPT-5.4、Codex5.3、Claude Opus4.6、Sonnet4.6、Gemini3.1Pro、Gemini3Flash)と4つのテストパラダイムにまたがる2つのドメイン特化モデルをテストする。
論文 参考訳(メタデータ) (2026-05-22T05:24:43Z) - Vulnerability Detection with Interprocedural Context in Multiple Languages: Assessing Effectiveness and Cost of Modern LLMs [4.077363992854019]
大規模言語モデル(LLM)は、自動脆弱性検出のための有望な方法である。
本研究では,相互依存関係に関連する脆弱性の検出における検出の有効性,推論コスト,説明の質について検討した。
その結果、Gemini 3 FlashはCの脆弱性に対して最もコスト効率の良いトレードオフを提供することがわかった。
論文 参考訳(メタデータ) (2026-04-09T16:17:58Z) - T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search [49.99459363244884]
提案手法は, 対向的プロンプトの発見を導くために, 実行トラジェクトリを利用するトラジェクトリ対応の進化探索手法であるT-MAPを提案する。
本手法は,安全ガードレールをバイパスするだけでなく,実際のツールインタラクションによる有害な目標を確実に実現するための攻撃の自動生成を可能にする。
論文 参考訳(メタデータ) (2026-03-21T12:33:34Z) - AWE: Adaptive Agents for Dynamic Web Penetration Testing [0.0]
AWEは、自動Web侵入テストのためのメモリ拡張マルチエージェントフレームワークである。
軽量なLLMオーケストレーション層に、構造化された脆弱性固有の分析パイプラインを組み込む。
AWEはインジェクションクラスの脆弱性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-03-01T07:32:42Z) - Beyond Single Bugs: Benchmarking Large Language Models for Multi-Vulnerability Detection [1.2802720336459552]
我々は,C,C++,Python,JavaScriptの4つの主要言語を対象としたマルチ脆弱性検出のベンチマークを紹介する。
長文コードサンプルに制御された脆弱性数を注入することにより,4万ファイルのデータセットを構築した。
その結果, 脆弱性密度の増加に伴い, 性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-26T05:43:35Z) - Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Large Language Models for In-File Vulnerability Localization Can Be "Lost in the End" [6.6389862916575275]
新しい開発手法では、研究者はLLMが大規模なファイルサイズの入力を効果的に分析できるかどうかを調べる必要がある。
本稿では,GPTモデルを含む,最先端のチャットベースのLLMがファイル内脆弱性の検出に有効であることを示す。
論文 参考訳(メタデータ) (2025-02-09T14:51:15Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。