論文の概要: On the Shoulders of Giants: Empowering Automated Smart Contract Auditing via the GiAnt Corpus
- arxiv url: http://arxiv.org/abs/2606.07363v1
- Date: Fri, 05 Jun 2026 15:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.806437
- Title: On the Shoulders of Giants: Empowering Automated Smart Contract Auditing via the GiAnt Corpus
- Title(参考訳): GiAnt Corpusによるスマートコントラクト監査の自動化
- Authors: Xiaoting Zhang, Zhipeng Gao, Yiran Lv, Xing Hu, Feifei Niu, Xin Xia,
- Abstract要約: GiANTは、スマートコントラクト監査データセットを、現実世界の監査レポートから脆弱性洞察を抽出することによって、キュレートする自動化フレームワークである。
GiANTの有効性を評価するため、388件の現実世界の監査報告を行い、5つの重度レベルにわたる7,711件の脆弱性発見を含むGiAnt Corpusを生成した。
- 参考スコア(独自算出の注目度): 11.961844267737034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality smart contract auditing datasets are crucial for evaluating security tools and advancing smart contract security research. Two major limitations of existing datasets are the manual-induced scalability bottleneck and the deficiency in data granularity and diversity. To address these limitations, we propose GiANT, an automated framework designed to curate smart contract auditing datasets by distilling vulnerability insights from real-world auditing reports. GiANT employs a divide-and-conquer strategy coupled with the Chain-of-Thought technique to extract structured vulnerability information from Code4rena reports, followed by an LLM-as-a-judge mechanism to perform rigorous quality assurance. To evaluate GiANT's effectiveness, we run it on 388 real-world audit reports and generate the GiAnt Corpus comprising 7,711 vulnerability findings across five severity levels. Manual assessment of the dataset demonstrates exceptional reliability in information extraction, achieving a mean quality score of $4.76\pm0.37$ (out of 5) with inter-rater agreement $κ$ of 0.88. We further validate the practicality of our dataset by benchmarking 4 state-of-the-art LLMs on vulnerability detection, code summarization, mitigation recommendation, and automated gas optimization tasks, to establish performance baselines, thereby providing a valuable data foundation for future research in automated smart contract auditing.
- Abstract(参考訳): 高品質なスマートコントラクト監査データセットは、セキュリティツールの評価とスマートコントラクトセキュリティ研究の進展に不可欠である。
既存のデータセットの2つの大きな制限は、手動によるスケーラビリティのボトルネックと、データの粒度と多様性の欠如である。
このような制限に対処するため,現実の監査レポートから脆弱性の洞察を抽出してスマートコントラクト監査データセットをキュレートする自動化フレームワークであるGiANTを提案する。
GiANTは、Chain-of-Thought技術と組み合わせて、Code4renaレポートから構造化された脆弱性情報を抽出し、厳格な品質保証を行うLLM-as-a-judgeメカニズムを採用する。
GiANTの有効性を評価するため、388件の現実世界の監査報告を行い、5つの重度レベルにわたる7,711件の脆弱性発見を含むGiAnt Corpusを生成した。
データセットのマニュアル評価は、情報抽出において例外的な信頼性を示し、平均品質スコアは4.76 pm0.37$(5点中)で、ラター間合意はκ$0.88である。
さらに,脆弱性検出,コード要約,緩和レコメンデーション,自動ガス最適化タスクに関する4つの最先端LCMをベンチマークし,パフォーマンスベースラインを確立することにより,スマートコントラクト自動監査の今後の研究に有用なデータ基盤を提供することにより,データセットの実用性をさらに検証する。
関連論文リスト
- Unsupervised Skill Discovery for Agentic Data Analysis [55.42853694128929]
DataCOPEは、データ分析エージェントのための教師なし検証対象のスキル発見フレームワークである。
トラジェクトリ生成のためのデータ分析エージェント、信号抽出のための教師なし検証器、および対照的なスキル蒸留のためのスキルマネージャを反復的にコーディネートする。
我々は,Deep Data Researchのレポートスタイル分析とDABStepの推論スタイル解析についてDataCOPEを評価した。
論文 参考訳(メタデータ) (2026-06-04T17:20:47Z) - Decoupled Smart Contract Audits: Lightweight LLM Framework via Distillation and Aggregation [0.5649790777986989]
軽量で高度に最適化されたオープンソース LLM を利用した,効率的なエンドツーエンドのスマートコントラクトセキュリティ監査フレームワークを提案する。
我々のフレームワークは、総合的な監査タスクを、脆弱性検出、説明、重度分類、修正推奨の4つの相互接続されたコンポーネントに分離する。
実験結果から、我々の軽量パイプラインは、最先端のオープンソースコーダの高密度LLMよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-06-02T04:13:43Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。
我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文 参考訳(メタデータ) (2025-09-27T22:36:42Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - FORGE: An LLM-driven Framework for Large-Scale Smart Contract Vulnerability Dataset Construction [34.20628333535654]
FORGEはスマートコントラクト脆弱性データセットを構築するための最初の自動化アプローチである。
81,390のソリッドリティファイルと27,497の脆弱性を296のCWEカテゴリに分類したデータセットを生成した。
その結果、現在の検出能力の重大な制限が明らかになった。
論文 参考訳(メタデータ) (2025-06-23T16:03:16Z) - An Empirical Analysis of Vulnerability Detection Tools for Solidity Smart Contracts Using Line Level Manually Annotated Vulnerabilities [5.357551358237259]
本稿では,Solidityスマートコントラクトに特化して設計された自動脆弱性解析ツールの実証評価を行う。
行レベルの脆弱性ラベルを手動でアノテートした2,182インスタンスのアノテートデータセットを用いて評価を行った。
私たちは、最大76.78%の脆弱性を発見できる3つのツールのセットを特定しました。
論文 参考訳(メタデータ) (2025-05-21T17:01:18Z) - SmartLLM: Smart Contract Auditing using Custom Generative AI [0.0]
本稿では,LLaMA 3.1モデルにレトリーバル拡張生成(RAG)を応用した新しいアプローチであるSmartLLMを紹介する。
ERC標準からドメイン固有の知識を統合することで、SmartLLMはMythrilやSlitherのような静的解析ツールよりも優れたパフォーマンスを実現している。
実験の結果、100%の完全なリコールと70%の精度スコアが示され、脆弱性の特定におけるモデルの堅牢性を強調した。
論文 参考訳(メタデータ) (2025-02-17T06:22:05Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - A Context-Driven Approach for Co-Auditing Smart Contracts with The Support of GPT-4 code interpreter [15.28361088402754]
本稿では,スマートコントラクト・コオーディティングのためのコンテキスト駆動型プロンプト手法を提案する。
このアプローチでは、コンテキストスコープと拡張のための3つのテクニックを採用し、長いコードを自己完結したコードセグメントに分割するコードスコープを包含する。
本法では,脆弱な機能に対する検出率は96%であり,ネイティブプロンプト法では53%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-26T05:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。