論文の概要: OpenRTLSet: A Fully Open-Source Dataset for Large Language Model-based Verilog Module Design
- arxiv url: http://arxiv.org/abs/2606.10285v1
- Date: Tue, 09 Jun 2026 01:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.243183
- Title: OpenRTLSet: A Fully Open-Source Dataset for Large Language Model-based Verilog Module Design
- Title(参考訳): OpenRTLSet: 大規模言語モデルベースのVerilogモジュール設計のための完全なオープンソースデータセット
- Authors: Jinghua Wang, Lily Jiaxin Wan, Sanjana Pingali, Scott Smith, Manvi Jha, Shalini Sivakumar, Xing Zhao, Kaiwen Cao, Deming Chen,
- Abstract要約: OpenRTLSetは、ハードウェア設計のための最大の完全なオープンソースデータセットを導入し、研究コミュニティと業界に131,000以上の多様なVerilogコードサンプルを提供している。
当社のデータセットは,GitHubリポジトリ(102kモジュール),VHDL翻訳(5kモジュール),シンセサイズ可能なC/C++翻訳(24kモジュール)といったVerilogコードを,すべてプロプライエタリな制限なしに自由に利用できるように一意に結合しています。
- 参考スコア(独自算出の注目度): 12.49987156929672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: OpenRTLSet introduces the largest fully open-source dataset for hardware design, offering over 131,000 diverse Verilog code samples to the research community and industry. Our dataset uniquely combines Verilog code from GitHub repositories (102k modules), VHDL translations (5k modules), and synthesizable C/C++ translations (24k modules), all freely accessible without proprietary restrictions. Using the reasoning model DeepSeek-R1, we generated paired natural language descriptions for each code sample, enabling fine-tuning of various language model families (e.g., Qwen and Granite) for Verilog code generation. Our dataset explores multiple options, including Verilator-generated C++ files as additional context during labeling, quantization techniques (INT4 vs. BF16), and performance differences across model sizes (7B-32B parameters). OpenRTLSet demonstrates that open-source approaches can achieve superior performance in hardware design tasks, establishing a new foundation for accessible research and commercial use in this domain.
- Abstract(参考訳): OpenRTLSetは、ハードウェア設計のための最大の完全なオープンソースデータセットを導入し、研究コミュニティと業界に131,000以上の多様なVerilogコードサンプルを提供している。
当社のデータセットは,GitHubリポジトリ(102kモジュール),VHDL翻訳(5kモジュール),合成可能なC/C++翻訳(24kモジュール)のVerilogコードを独自に結合しています。
推論モデルであるDeepSeek-R1を用いて、コードサンプル毎にペアの自然言語記述を生成し、Verilogコード生成のためのさまざまな言語モデルファミリ(例えば、Qwen、Granite)の微調整を可能にしました。
我々のデータセットは、ラベル付け中に追加のコンテキストとして、Verilatorで生成されたC++ファイル、量子化技術(INT4 vs. BF16)、モデルサイズ(7B-32Bパラメータ)のパフォーマンス差など、複数のオプションを探索している。
OpenRTLSetは、オープンソースアプローチがハードウェア設計タスクにおいて優れたパフォーマンスを達成することを実証し、この領域でアクセス可能な研究と商用利用のための新しい基盤を確立する。
関連論文リスト
- OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - A Multi-Expert Large Language Model Architecture for Verilog Code Generation [5.159745269633967]
本稿では,Verilog Code Generation (MEV-LLM) のための,革新的なマルチエキスパート LLM アーキテクチャを提案する。
我々のアーキテクチャは、複数のLCMを一意に統合しており、それぞれが、異なるレベルの設計複雑さに対して分類されたデータセットで微調整されている。
実験から得られた実証的な証拠は、構文的に、機能的に正しい生成したVerilog出力の比率において顕著な改善点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-11T16:58:29Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - VeriGen: A Large Language Model for Verilog Code Generation [22.837558083876743]
GitHubとVerilogの教科書からコンパイルされたVerilogデータセット上に、既存のLarge Language Models(LLM)を微調整します。
ここでは、細調整されたオープンソースのCodeGen-16Bモデルにより、商用のGPT-3.5-turboモデルよりも1.1%向上した。
特に、様々な問題カテゴリにまたがって構文的に正しいVerilogコードを生成することで、事前訓練済みのVerilogコードよりも41%改善されている。
論文 参考訳(メタデータ) (2023-07-28T02:57:14Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。