論文の概要: ARVO: Atlas of Reproducible Vulnerabilities for Open-Source Software
- arxiv url: http://arxiv.org/abs/2606.17283v2
- Date: Thu, 18 Jun 2026 19:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.839298
- Title: ARVO: Atlas of Reproducible Vulnerabilities for Open-Source Software
- Title(参考訳): ARVO: オープンソースソフトウェアの再現可能な脆弱性のアトラス
- Authors: Xiang Mei, Jordi Del Castillo, Pulkit Singh Singaria, Haoran Xi, Abdelouahab Benchikh, Tiffany Bao, Ruoyu Wang, Yan Shoshitaishvili, Adam Doupé, Hammond Pearce, Brendan Dolan-Gavitt,
- Abstract要約: 私たちは、さまざまな脆弱性を大規模に保証する、新たなセキュリティデータセットを作成しています。
評価では、ARVOは81%の脆弱性を再現し、位置したパッチに対して89.4%の正確性を達成した。
- 参考スコア(独自算出の注目度): 19.754448461368323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving reproducibility, quantity, and diversity in vulnerability datasets has long been viewed as an inherent three-way trade-off, where improving one dimension often comes at the cost of the others. In practice, reproducibility has been the dimension most often neglected. This has limited what can be automatically extracted from historical bug datasets, and has reduced their utility for downstream security research. In this work, we propose a method to produce a new security dataset which ensures reproducibility for diverse vulnerabilities at scale by identifying the key obstacles to large-scale bug reproduction and addressing them with general solutions. Using this method, we introduce full reproducibility to the largest open source software vulnerability dataset (OSS-Fuzz) and construct the ARVO dataset (an Atlas of Reproducible Vulnerabilities in Open-source software). ARVO is a large-scale dataset consisting of over 6,100 real-world vulnerabilities across 311 projects. Focusing on reproducibility, ARVO differs from existing datasets by providing each vulnerability in a form that can be consistently rebuilt, triggered, and analyzed across versions. Reproducibility also enables automatic identification of the corresponding patch for each vulnerability and supports direct interaction with vulnerabilities after code changes, capabilities that existing large-scale datasets do not provide. In our evaluation, ARVO successfully reproduces 81% of vulnerabilities and achieves 89.4% accuracy on the located patches. We also discuss ARVO's influence on both upstream practices and downstream security research.
- Abstract(参考訳): 脆弱性データセットの再現性、量、多様性を達成することは、長い間、固有の3方向のトレードオフと見なされてきた。
実際には再現性が最も無視される次元である。
これにより、過去のバグデータセットから自動的に抽出できることが制限され、ダウンストリームセキュリティ研究における有用性が低下した。
本研究では,大規模バグ再現の鍵となる障害を特定し,汎用的な解決策で対処することで,多様な脆弱性を大規模に再現可能な新しいセキュリティデータセットを作成する手法を提案する。
本手法を用いて,最大規模のオープンソースソフトウェア脆弱性データセット(OSS-Fuzz)に完全再現性を導入し,ARVOデータセット(オープンソースソフトウェアにおける再現可能な脆弱性のアトラス)を構築する。
ARVOは311プロジェクトにわたる6100以上の現実世界の脆弱性からなる大規模なデータセットである。
再現性を重視したARVOは、各脆弱性を一貫した再構築、トリガ、バージョン間の分析が可能な形式で提供することで、既存のデータセットとは異なる。
再現性はまた、各脆弱性に対する対応するパッチの自動識別を可能にし、コード変更後の脆弱性との直接的なインタラクションをサポートする。
評価では、ARVOは81%の脆弱性を再現し、位置したパッチに対して89.4%の正確性を達成した。
また、アップストリームプラクティスとダウンストリームセキュリティ研究の両方に対するARVOの影響についても論じる。
関連論文リスト
- GCVE: A Decentralized Model for Vulnerability Identification, Publication, and Operational Enrichment [51.77969450792284]
Global CVEイニシアチブ(Global CVE Initiative, G)は、脆弱性の識別、パブリッシュ、エンリッチメントのための分散化、オープン化、識別子モデルを提案する。
本稿では,自律型G番号認証,ライトウェイトアロケーションルール,分散パブリッシュ,オープン・ベスト・カレントプラクティス,実用的なリファレンス実装を組み合わせた社会技術的取り組みとしてGを提案する。
論文 参考訳(メタデータ) (2026-05-30T19:03:39Z) - Revisiting Vulnerability Patch Localization: An Empirical Study and LLM-Based Solution [44.388332647211776]
オープンソースのソフトウェア脆弱性検出は、ソフトウェアのセキュリティを維持し、ソフトウェアサプライチェーンの整合性を確保するための重要なコンポーネントである。
従来の検出方法は、大量のコミット履歴を処理する際に、大きなスケーラビリティの課題に直面している。
バージョン駆動型候補フィルタリングと大規模言語モデルに基づく多ラウンド対話投票を組み合わせた新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-19T09:09:55Z) - VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。
我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文 参考訳(メタデータ) (2025-09-03T14:06:10Z) - VulScribeR: Exploring RAG-based Vulnerability Augmentation with LLMs [19.45598962972431]
VulScribeRは、慎重にキュレートされたプロンプトテンプレートを利用して脆弱なデータセットを拡張する新しいソリューションである。
我々のアプローチでは、VulgenとVGXの2つのSOTAメソッドを破り、Random Oversampling(ROS)は27.48%、27.93%、f1スコアで15.41%の脆弱性サンプルを生成する。
提案手法は,1Kサンプルを188ドル程度の安価で生成することで,大規模データ拡張の実現可能性を示す。
論文 参考訳(メタデータ) (2024-08-07T23:22:58Z) - ARVO: Atlas of Reproducible Vulnerabilities for Open Source Software [20.927909014593318]
オープンソースソフトウェアでは,ARVO:Atlas of Reproducible Vulnerabilitiesを紹介した。
250以上のプロジェクトにわたって5,000以上のメモリ脆弱性を再現しています。
OSS-Fuzzが新たな脆弱性を見つけると、データセットは自動的に更新されます。
論文 参考訳(メタデータ) (2024-08-04T22:13:14Z) - VulZoo: A Comprehensive Vulnerability Intelligence Dataset [12.229092589037808]
VulZooは17の人気の脆弱性情報ソースをカバーする、包括的な脆弱性インテリジェンスデータセットである。
VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
論文 参考訳(メタデータ) (2024-06-24T06:39:07Z) - REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。
脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。
大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T02:50:08Z) - DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based
Vulnerability Detection [29.52887618905746]
このデータセットには、150のCWEにまたがる18,945の脆弱性関数と、7,514のコミットから抽出された330,492の非脆弱性関数が含まれている。
以上の結果から,高い偽陽性率,低いF1スコア,難解なCWEの検出が困難であったため,ディープラーニングは依然として脆弱性検出の準備が整っていないことが示唆された。
大規模言語モデル(LLM)はMLベースの脆弱性検出において有望な研究方向であり,コード構造を持つグラフニューラルネットワーク(GNN)よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-01T23:29:14Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。