Fugu-MT 論文翻訳(概要): RTL-BenchLS: A Large-Scale Benchmark for RTL Reasoning and Generation with Large Language Models

論文の概要: RTL-BenchLS: A Large-Scale Benchmark for RTL Reasoning and Generation with Large Language Models

arxiv url: http://arxiv.org/abs/2606.08976v1
Date: Mon, 08 Jun 2026 03:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.675689
Title: RTL-BenchLS: A Large-Scale Benchmark for RTL Reasoning and Generation with Large Language Models
Title（参考訳）: RTL-BenchLS:大規模言語モデルを用いたRTL推論と生成のための大規模ベンチマーク
Authors: Jing Wang, Shang Liu, Wenji Fang, Yuchao Wu, Yugao Zhu, Zhiyao Xie,
Abstract要約: LLMベースのRTL生成と推論は、ハードウェア設計の自動化にとって有望な方向である。既存のRTLベンチマークは、スケールとタスクスコープの両方に固有の制限に直面している。両制約に対処する大規模ベンチマークであるRTL-BenchLSを導入する。
参考スコア（独自算出の注目度）: 9.379769213324769
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM-based RTL generation and reasoning is a promising direction for hardware design automation. High-quality benchmarks are critical infrastructure for tracking progress in this direction. However, existing RTL benchmarks face inherent limitations in both scale and task scope. The designs they cover are typically small and simple, and the tasks focus almost entirely on specification-to-RTL generation. Frontier models' performance already saturates on the existing benchmarks. Scaling these benchmarks up is fundamentally difficult because aligned labels are required for benchmarking, such as specifications and testbenches. Such aligned high-quality data are rarely available for real-world designs. We introduce RTL-BenchLS, a large-scale benchmark addressing both limitations above. It contains over 10,000 formally verified Verilog designs, covering substantially larger and more complex designs than existing benchmarks. Beyond specification-to-RTL generation, we propose three novel tasks that jointly evaluate reasoning and generation: round-trip reasoning, masked-content reasoning, and repository-issue reasoning. The first two are self-supervised, which directly resolves the scaling bottleneck. All tasks are verified through formal equivalence checking without any manual testbenches. We evaluate eight LLMs on RTL-BenchLS. Even the best model reaches only 23% on natural-language round-trip reasoning, 28% on masked-content reasoning, and 12% on repository-issue fixing. RTL-BenchLS is substantially more challenging than existing benchmarks. It leaves ample room for future improvement and offers guidance for developing LLM-based methods for hardware design.
Abstract（参考訳）: LLMベースのRTL生成と推論は、ハードウェア設計の自動化にとって有望な方向である。高品質なベンチマークは、この方向の進捗を追跡するための重要なインフラである。しかし、既存のRTLベンチマークは、スケールとタスクスコープの両方に固有の制限に直面している。それらがカバーする設計は、通常小さくてシンプルであり、タスクは仕様からRTL生成にほぼ完全に焦点を合わせている。 Frontierモデルのパフォーマンスは、既存のベンチマークですでに飽和している。これらのベンチマークのスケールアップは、仕様やテストベンチなど、ベンチマークにアライメントされたラベルを必要とするため、基本的に難しい。このような整列した高品質なデータは、現実世界の設計ではほとんど利用できない。上記の2つの制限に対処する大規模ベンチマークであるRTL-BenchLSを紹介する。 1万以上の公式な検証済みのVerilog設計が含まれており、既存のベンチマークよりもかなり大きく複雑な設計をカバーしている。仕様-RTL生成以外にも、ラウンドトリップ推論、マスク付きコンテンツ推論、リポジトリ問題推論という、推論と生成を共同で評価する3つの新しいタスクを提案する。最初の2つは自己管理型で、スケーリングボトルネックを直接解決する。すべてのタスクは、手動テストベンチなしで正式な等価チェックによって検証される。 RTL-BenchLSの8つのLCMを評価した。最高のモデルでさえ、自然言語のラウンドトリップ推論では23%、マスク付きコンテンツ推論では28%、リポジトリ問題修正では12%に過ぎません。 RTL-BenchLSは既存のベンチマークよりもかなり難しい。将来の改善のための十分な余地を残し、ハードウェア設計のためのLCMベースの手法を開発するためのガイダンスを提供する。

関連論文リスト

RTL-BenchMT: Dynamic Maintenance of RTL Generation Benchmark Through Agent-Assisted Analysis and Revision [9.325513818031316]
本稿では RTL 生成ベンチマークを動的に保守するエージェントフレームワーク RTL-BenchMT を紹介する。欠陥のあるケースや過度に適合したケースを徹底的に分析し、コミュニティにオープンソース化されるような、洗練されたベンチマークスイートを作成します。
論文参考訳（メタデータ） (2026-05-15T02:17:46Z)
NotSoTiny: A Large, Living Benchmark for RTL Code Generation [1.9742772050838129]
NotSoTinyは、構造的にリッチでコンテキスト対応のRTLの生成を評価するベンチマークである。本稿では、構造的にリッチでコンテキスト対応なRTLの生成を評価するベンチマークであるNotSoTinyを紹介する。
論文参考訳（メタデータ） (2025-12-23T22:53:47Z)
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
RealBench: Benchmarking Verilog Generation Models with Real-World IP Designs [26.993718615404926]
本稿では,実世界のIPレベルのVerilog生成タスクを対象とした最初のベンチマークであるRealBenchを紹介する。 RealBenchは複雑で構造化された、実世界のオープンソースIP設計、マルチモーダルおよびフォーマット設計仕様、厳密な検証環境を備えている。様々なLLMおよびエージェントの評価によると、最も優れたLLMの1つであるo1-previewでさえ、モジュールレベルのタスクでは13.3%のpass@1しか達成せず、システムレベルのタスクでは0%である。
論文参考訳（メタデータ） (2025-07-22T03:29:23Z)
FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文参考訳（メタデータ） (2025-07-10T11:16:48Z)
RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation [6.428086269916113]
RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-11T09:04:50Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。