論文の概要: Revelio: Cost-Efficient Agentic Memory Safety Vulnerability Detection For Repository-Scale Codebases
- arxiv url: http://arxiv.org/abs/2606.22263v1
- Date: Sat, 20 Jun 2026 23:17:23 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 14:41:39.296017
- Title: Revelio: Cost-Efficient Agentic Memory Safety Vulnerability Detection For Repository-Scale Codebases
- Title(参考訳): Revelio: リポジトリスケールコードベースに対する費用効率の良いエージェントメモリ安全性脆弱性検出
- Authors: Yiwei Hou, Hao Wang, Muxi Lyu, Marius Momeu, Eric Nguyen, Taige Yang, Koushik Sen, Dawn Song, David Wagner,
- Abstract要約: Revelioはメモリセーフな脆弱性発見のための費用効率のよいフレームワークだ。
実行可能なProof-of-Vulnerabilityを生成し、決定論的サニタイザでチェックする。
1プロジェクト当たり約1時間、合計300ドルの費用で、Revelioは19の既知のメモリセーフティ脆弱性を発見した。
- 参考スコア(独自算出の注目度): 43.11224670950285
- License:
- Abstract: Memory safety vulnerabilities remain a significant threat even for projects with extensive fuzzing and manual auditing. Recent results suggest that large language models hold great promise for detecting such vulnerabilities, but they are unreliable, at risk of hallucination, and challenging to scale to repository-size codebases. This paper presents Revelio, a cost-efficient end-to-end agentic framework for memory-safety vulnerability discovery. Revelio addresses the problem of hallucination by generating an executable Proof-of-Vulnerability, which is checked with a deterministic sanitizer. It reduces cost using inexpensive LLMs and lightweight static analysis to help generate and rank vulnerability hypotheses, reporting vulnerabilities only when they can be reproduced and confirmed by a sanitizer. We evaluated Revelio on seven production-quality projects that had been continuously fuzzed for five to eight years, as well as on 100 randomly selected Arvo projects from the CyberGym benchmark. With around one hour per project and a total cost of $300, Revelio discovered 19 previously unknown memory-safety vulnerabilities. On benchmarks, Revelio outperformed frontier coding agents across diverse backbone models at comparable token costs. Our results suggest that Revelio enables scalable and trustworthy end-to-end LLM-based memory-safety vulnerability detection.
- Abstract(参考訳): 大規模なファジィングと手動の監査を行うプロジェクトにおいても、メモリ安全性の脆弱性は依然として重大な脅威である。
最近の結果は、大規模な言語モデルにはそのような脆弱性を検出するという大きな約束があることを示しているが、それらは信頼できない、幻覚のリスクがあり、リポジトリサイズのコードベースにスケールすることが難しい。
本稿では、メモリセーフティ脆弱性発見のためのコスト効率のよいエンドツーエンドエージェントフレームワークであるRevelioを提案する。
Revelioは、決定論的サニタイザでチェックされる実行可能なProof-of-Vulnerabilityを生成することで幻覚の問題に対処する。
低コストのLCMと軽量な静的解析を使用して、脆弱性の仮説の生成とランク付けを支援し、それをサニタイザによって再現および確認できる場合にのみ脆弱性を報告する。
我々はRevelioを5年から8年連続でファジットされた7つの生産品質のプロジェクトと、CyberGymベンチマークからランダムに選択された100のArvoプロジェクトに対して評価した。
1プロジェクト当たり約1時間、合計300ドルの費用で、Revelioは19の既知のメモリセーフティ脆弱性を発見した。
ベンチマークでは、Revelioはさまざまなバックボーンモデルで同等のトークンコストで、フロンティアコーディングエージェントのパフォーマンスを向上した。
この結果から、Revelioはスケーラブルで信頼性の高いLLMベースのメモリセーフティ脆弱性検出を可能にすることが示唆された。
関連論文リスト
- SecureForge: Finding and Preventing Vulnerabilities in LLM-Generated Code via Prompt Optimization [61.91729298584227]
SecureForgeは、フロンティアモデルのセキュリティリスクを監査し、監査インフォームされたセキュアなシステムプロンプトを生成する自動化パイプラインである。
SecureForgeは、まず静的に検出可能な脆弱性を生成する良性プロンプトを特定し、その後、さまざまなシナリオの大規模な合成プロンプトコーパスに増幅する。
フロンティアモデルでは、SecureForgeは、ユニットテストの成功と出力セキュリティの両方において統計的に有意な改善をもたらし、出力脆弱性は最大48%削減された。
論文 参考訳(メタデータ) (2026-05-08T18:40:47Z) - Knowdit: Agentic Smart Contract Vulnerability Detection with Auditing Knowledge Summarization [14.193285719777052]
スマートコントラクト脆弱性検出のための知識駆動型エージェントフレームワークであるKnowditを提案する。
Knowditはまず、過去の人間の監査レポートから知識グラフを構築し、きめ細かいDeFiセマンティクスと繰り返し発生する脆弱性パターンをリンクする。
我々は,最新の12のCode4renaプロジェクトで,75のグランドトルース脆弱性のあるKnowditを評価した。
論文 参考訳(メタデータ) (2026-03-27T10:38:40Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - HALURust: Exploiting Hallucinations of Large Language Models to Detect Vulnerabilities in Rust [5.539291692976558]
2018年以降、442のRust関連の脆弱性が現実世界のアプリケーションで報告されている。
本稿では,大規模言語モデル(LLM)の幻覚を利用して,現実のRustシナリオの脆弱性を検出する新しいフレームワークであるHALURustを紹介する。
HALURustは、54のアプリケーションにまたがる447の関数と18,691行のコードを含む、81の現実世界の脆弱性のデータセットで評価された。
論文 参考訳(メタデータ) (2025-03-13T18:38:34Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - SecureFalcon: Are We There Yet in Automated Software Vulnerability Detection with LLMs? [3.566250952750758]
SecureFalconは、Falcon-40Bモデルから派生した1億1100万のパラメータしか持たない革新的なモデルアーキテクチャである。
SecureFalconはバイナリ分類で94%の精度、マルチクラス化で最大92%、即時CPU推論時間を実現している。
論文 参考訳(メタデータ) (2023-07-13T08:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。