論文の概要: Repository-Level Solidity Code Generation with Large Language Models: From Prompting to Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.19988v1
- Date: Thu, 18 Jun 2026 09:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.764172
- Title: Repository-Level Solidity Code Generation with Large Language Models: From Prompting to Fine-Tuning
- Title(参考訳): 大規模言語モデルを用いたレポジトリレベルソリデーティコード生成:プロンプティングからファインチューニング
- Authors: Shi Chen, Rongcun Wang, Yuan Tian, Xiaoyuan Xie, Wei Song, Rubing Huang,
- Abstract要約: Solidityスマートコントラクトは、生成されたコードが厳格な言語レベル、セキュリティ、ソフトウェアエンジニアリングの制約を満たす必要がある、高度なドメインを表している。
既存のベンチマークとメトリクスは、リポジトリレベルのSolidity生成には不十分です。
今回紹介するSolidityBenchは,5,470のリポジトリレベルのSolidityスマートコントラクトを,自然言語記述と組み合わせたベンチマークだ。
- 参考スコア(独自算出の注目度): 10.22195567763592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong capabilities in general-purpose code generation, but their effectiveness in specialized software domains remains underexplored. Solidity smart contracts represent a high-stakes domain where generated code must satisfy strict language-level, security, and software-engineering constraints. Existing benchmarks and metrics remain insufficient for repository-level Solidity generation, where models must synthesize complete contracts from natural language requirements. To address this gap, we introduce SolidityBench, a benchmark of 5,470 repository-level Solidity smart contracts paired with natural language descriptions. We also propose SolidityScore, a Solidity-aware semantic metric that emphasizes domain-critical constructs such as security modifiers, contract declarations, and Solidity-specific keywords. Using this benchmark, we evaluate representative code LLMs, including Qwen2.5-Coder, DeepSeek-Coder, and CodeLlama, across zero-shot prompting, Chain-of-Thought reasoning, in-context learning, retrieval-augmented generation, and supervised fine-tuning. The results show that general-purpose models exhibit systematic structural deficiencies in repository-level Solidity generation. Among non-parametric methods, retrieval-augmented generation performs best, while in-context learning degrades beyond two examples due to context saturation. Supervised fine-tuning achieves the largest improvement by internalizing Solidity-specific constraints into model parameters. Overall, our study provides a comprehensive benchmark for repository-level Solidity code generation and shows that high-quality domain data combined with supervised fine-tuning is the most effective strategy for improving the reliability of LLM-generated smart contracts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、汎用コード生成において強力な能力を示してきたが、専門のソフトウェア領域におけるそれらの有効性はいまだ探索されていない。
Solidityスマートコントラクトは、生成されたコードが厳格な言語レベル、セキュリティ、ソフトウェアエンジニアリングの制約を満たす必要がある、高度なドメインを表している。
既存のベンチマークとメトリクスは、モデルが自然言語要求から完全なコントラクトを合成しなければならないリポジトリレベルのSolidity生成には不十分なままです。
このギャップを解決するために,5,470のリポジトリレベルのSolidityスマートコントラクトを自然言語記述と組み合わせたベンチマークであるSolidityBenchを紹介した。
また、セキュリティ修飾子やコントラクト宣言、Solidity固有のキーワードといったドメインクリティカルな構造を強調する、Solidity対応セマンティックメトリックであるSolidityScoreを提案する。
このベンチマークを用いて,Qwen2.5-Coder,DeepSeek-Coder,CodeLlamaなどの代表コードLLMを,ゼロショットプロンプト,Chain-of-Thought推論,コンテキスト内学習,検索拡張生成,教師付き微調整で評価した。
その結果, 汎用モデルでは, リポジトリレベルのソリデーティ生成において, 体系的な構造的欠陥が示されることがわかった。
非パラメトリック手法の中では、検索拡張生成が最適であり、文脈飽和のため、文脈内学習は2つの例を超えて低下する。
修正された微調整は、ソリティー固有の制約をモデルパラメータに内包することで、最大の改善を実現する。
本研究は,リポジトリレベルのSolidityコード生成のための総合的なベンチマークを提供し,LLM生成したスマートコントラクトの信頼性を向上させる上で,高品質なドメインデータと教師付き微調整を組み合わせることが最も効果的な戦略であることを示す。
関連論文リスト
- SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers [55.39407031861402]
本稿では,スマートコントラクトデコンパイルのためのデータセットとベンチマーク手法であるSCDBenchを紹介する。
データセットには600の現実のSolidityコントラクトと、ペア化されたバイトコード入力、地味なソースコード、再生可能なセマンティックチェックポイントが含まれている。
我々は,GLM-5の変種を含むゼロショット逆コンパイル設定において,Claude Opus 4.7,GPT-5.3-Codex,GLM-5を評価した。
論文 参考訳(メタデータ) (2026-05-27T20:08:47Z) - RealBench: A Repo-Level Code Generation Benchmark Aligned with Real-World Software Development Practices [54.956760584923295]
コード生成にLLM(Large Language Models)を使用することで、研究者は大幅に進歩した。
しかしながら、開発者は一般的に、生の自然言語記述ではなく、構造化された設計や仕様に基づいたコードを書く。
既存のベンチマークと実際の産業開発プラクティスのギャップは、現在のベンチマークスコアが、どれだけのコード生成が開発タスクの自動化に役立つかを正確に反映していないことを意味する。
論文 参考訳(メタデータ) (2026-04-24T15:35:54Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Beyond Code Similarity: Benchmarking the Plausibility, Efficiency, and Complexity of LLM-Generated Smart Contracts [3.3672086394822762]
LLMは実契約によく似た意味を持つコードを生成する。
ゼロショット世代のうち20%から26%のみが、テスト中のゼロショット実装と同じ振る舞いをする。
Retrieval-Augmented Generationはパフォーマンスを大幅に向上し、機能的正しさを最大45%向上させる。
論文 参考訳(メタデータ) (2025-11-20T10:47:59Z) - SolContractEval: A Benchmark for Evaluating Contract-Level Solidity Code Generation [17.116315125396696]
Solidityはスマートコントラクトの主要な言語です。
既存の評価は、実世界の契約開発におけるモデルの能力を評価するに足りません。
SolContractEvalは、Solidityコード生成のための最初のコントラクトレベルのベンチマークです。
論文 参考訳(メタデータ) (2025-09-28T11:53:41Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。