論文の概要: Security in a Workflow: Exploring Role-Based Agentic Architectures for Vulnerability Handling
- arxiv url: http://arxiv.org/abs/2606.14261v1
- Date: Fri, 12 Jun 2026 08:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.839739
- Title: Security in a Workflow: Exploring Role-Based Agentic Architectures for Vulnerability Handling
- Title(参考訳): ワークフローにおけるセキュリティ - 脆弱性処理のためのロールベースのエージェントアーキテクチャを探る
- Authors: Srijita Basu, Miroslaw Staron,
- Abstract要約: LLMベースのソフトウェアセキュリティアプローチは、検出やパッチ生成といった独立したタスクに重点を置いていることが多い。
これにより、既存のLLMベースの脆弱性処理方法と現実のプラクティスのギャップが生じる。
本稿では、Planner、Analyzer、Fixer、Verifierといった脆弱性分析と軽減のためのロールベースのエージェントワークフローについて検討する。
- 参考スコア(独自算出の注目度): 4.062163585739119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Secure software engineering in practice is a multi-stage workflow involving vulnerability analysis, remediation, and fix verification. However, current LLM-based software security approaches often focus on isolated tasks such as detection or patch generation, with limited attention to agentic architectures reflecting industrial workflow. This creates a gap between existing LLM-based vulnerability-handling methods and real-world practices. In this paper, we study a role-based agentic workflow for vulnerability analysis and mitigation consisting of Planner, Analyzer, Fixer, and Verifier roles. To explore the effect of static analysis tool, the analyzer agent was integrated with the CodeQL in one of the workflows. The models used include nemotron-cascade-2:30b, qwen3-coder-next, and gpt-oss:120b. Our evaluation uses 25 real-world C/C++ vulnerabilities. The study reports 44% vulnerability detection accuracy comparable to GPT 5.5 and 19% fix accuracy. We also list implications from this study in context of software security practitioners.
- Abstract(参考訳): セキュリティソフトウェアエンジニアリングの実践は、脆弱性分析、修正、修正検証を含む、多段階的なワークフローである。
しかし、現在のLLMベースのソフトウェアセキュリティアプローチは、しばしば検出やパッチ生成のような独立したタスクに焦点を合わせ、産業ワークフローを反映するエージェントアーキテクチャに限定的に注意を払っている。
これにより、既存のLLMベースの脆弱性処理方法と現実のプラクティスのギャップが生じる。
本稿では、Planner、Analyzer、Fixer、Verifierといった脆弱性分析と軽減のためのロールベースのエージェントワークフローについて検討する。
静的解析ツールの効果を探るため、アナライザエージェントはワークフローのひとつでCodeQLに統合された。
使用されるモデルは、ネモトロンカスケード-2:30b、qwen3-coder-next、gpt-oss:120bである。
評価では、25の現実世界のC/C++脆弱性を使用します。
調査では、GPT 5.5と同等の脆弱性検出精度が44%、修正精度が19%と報告されている。
また、ソフトウェアセキュリティ実践者の文脈で、この研究の含意をリストアップする。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Multi-Agent Taint Specification Extraction for Vulnerability Detection [49.27772068704498]
コンテナ分析を使用した静的アプリケーションセキュリティテスト(SAST)ツールは、高品質な脆弱性検出結果を提供するものとして広く見なされている。
本稿では,Large Language Models (LLM) のセマンティック理解と従来の静的プログラム解析を戦略的に組み合わせたマルチエージェントシステムであるSemTaintを提案する。
私たちは、SemTaintを最先端のSASTツールであるCodeQLと統合し、これまでCodeQLで検出できなかった162の脆弱性の106を検出して、その効果を実証しています。
論文 参考訳(メタデータ) (2026-01-15T21:31:51Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - CHASE: LLM Agents for Dissecting Malicious PyPI Packages [2.384873896423002]
大規模言語モデル(LLM)は、自動コード分析に有望な機能を提供する。
セキュリティクリティカルなマルウェア検出への応用は、幻覚やコンテキストの混乱など、基本的な課題に直面している。
本稿では,これらの制約に対処する信頼性の高いマルチエージェントアーキテクチャCHASEを提案する。
論文 参考訳(メタデータ) (2026-01-11T10:06:14Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - Leveraging Large Language Models for Command Injection Vulnerability Analysis in Python: An Empirical Study on Popular Open-Source Projects [5.997074223480274]
コマンドインジェクションの脆弱性は、Pythonのような動的言語において重大なセキュリティ上の脅威である。
テストなどのコード関連タスクにおけるLLM(Large Language Models)の有効性が証明されたことから、研究者たちは脆弱性分析の可能性を探った。
本研究は,GPT-4のような大規模言語モデル(LLM)の潜在的な可能性を,脆弱性検出のための自動テストの代替手法として評価する。
論文 参考訳(メタデータ) (2025-05-21T04:14:35Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - IRIS: LLM-Assisted Static Analysis for Detecting Security Vulnerabilities [14.188864624736938]
大規模な言語モデル(LLM)は印象的なコード生成機能を示しているが、そのような脆弱性を検出するためにコードに対して複雑な推論を行うことはできない。
我々は,LLMと静的解析を体系的に組み合わせ,セキュリティ脆弱性検出のための全体リポジトリ推論を行うニューロシンボリックアプローチであるIRISを提案する。
論文 参考訳(メタデータ) (2024-05-27T14:53:35Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。