論文の概要: Library-Aware Doubles and Iterative Repair for Large Language Model-Generated Unit Tests in OpenSIL Firmware
- arxiv url: http://arxiv.org/abs/2606.19725v1
- Date: Thu, 18 Jun 2026 02:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.61588
- Title: Library-Aware Doubles and Iterative Repair for Large Language Model-Generated Unit Tests in OpenSIL Firmware
- Title(参考訳): OpenSILファームウェアにおけるライブラリ対応二重化と大規模言語モデル生成単体テストの反復的修復
- Authors: Ma Toan Bach, Yuchi Zheng, Haingo Razafindranto, Tanvir Alam, Aric Leather, Ranveer Sandhu, Jitesh Arora,
- Abstract要約: 本研究では,AMD が管理する Open-Source Silicon Initialization Library (openSIL) ファームウェアの UT 自動オーサリングワークフローを紹介する。
このワークフローは、テストスキャフォールドの自動生成、スタブ、モック、フェイクの自動作成または再利用、ビルドログとラインカバレッジフィードバックによって駆動される反復的なコンパイル/ディスパッチ修復ループを組み合わせる。
その結果,自動生成・再生パイプラインは,制約のあるファームウェア環境において,UT生成効率とカバレッジを大幅に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 0.1284857579394658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Validating changes in low-level C firmware is expensive because unit tests (UTs) are fragile under strict build constraints, where missing headers, unresolved symbols, and dependency mismatches frequently prevent compilation and linking. This study introduces an automated UT authoring workflow for the Open-Source Silicon Initialization Library (openSIL) firmware codebase maintained by Advanced Micro Devices (AMD) that reduces manual effort through a large language model (LLM) guided multi-agent pipeline. The workflow combines automated generation of test scaffolds, library-aware creation or reuse of stubs, mocks, and fakes, and an iterative compile-dispatch repair loop driven by build logs and line-coverage feedback. We evaluate the approach using compilation success, repair iterations, dispatch success, and line coverage, with time, cost, and token usage as secondary measures. Across 76 functions under test, the workflow generated compilable UTs for 73 functions. In a configuration without line coverage guidance or retrieval augmentation, mean line coverage reached 73.9%. On a 48-function subset evaluated under both configurations, mean line coverage reached 98.8% with line-coverage guidance alone and reached 94.7% when combined with vector-database retrieval. Results show that automated generation-and-repair pipelines can substantially improve UT creation efficiency and coverage for constrained firmware environments while reducing manual debugging effort.
- Abstract(参考訳): 低レベルのCファームウェアの変更を検証するにはコストがかかる。なぜならユニットテスト(UT)は厳格なビルド制約の下で脆弱であり、ヘッダーの欠如、未解決シンボル、依存関係のミスマッチが頻繁にコンパイルとリンクを妨げているからだ。
本研究では,Advanced Micro Devices (AMD) がメンテナンスしている Open-Source Silicon Initialization Library (openSIL) ファームウェアコードベースに対するUTの自動オーサリングワークフローを紹介する。
このワークフローは、テストスキャフォールドの自動生成、スタブ、モック、フェイクの自動作成または再利用、ビルドログとラインカバレッジフィードバックによって駆動される反復的なコンパイル/ディスパッチ修復ループを組み合わせる。
コンパイル成功、修正イテレーション、ディスパッチ成功、ラインカバレッジを用いて、時間、コスト、トークン使用率を二次評価として評価する。
テスト中の76の関数に対して、ワークフローは73の関数に対してコンパイル可能なUTを生成する。
ラインカバレッジガイダンスや検索拡張のない構成では、平均ラインカバレッジは73.9%に達した。
両方の構成で評価された48機能サブセットでは、平均ラインカバレッジは98.8%に達し、ベクトルデータベース検索と組み合わせると94.7%に達した。
その結果,自動生成・再生パイプラインは,手作業によるデバッグ作業の軽減を図りながら,制約のあるファームウェア環境におけるUT生成効率とカバレッジを大幅に向上させることができることがわかった。
関連論文リスト
- Structural Verification for Reliable EDA Code Generation without Tool-in-the-Loop Debugging [0.6843491191969066]
本稿では,ツール・イン・ザ・ループのデバッグを,実行前に構造的正しさを強制することで除去することを提案する。
シングルステップタスクでは,パスレートが73.0% (LLM+RAG) から76.4% (tool-in-loop) から82.5% に向上する。
マルチステップタスクでは、パスレートは30.0%から70.0%に改善され、さらに軌道レベルの反射で84.0%に改善される。
論文 参考訳(メタデータ) (2026-04-20T20:58:52Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG [0.9332987715848716]
本稿では、検証プロセスの部分的自動化のためのソリューションとして、検索拡張生成(RAG)パイプラインを提案する。
産業評価の結果、生成したテストは100%構文的に正しく、85パーセントが実行時検証に合格した。
論文 参考訳(メタデータ) (2026-03-10T10:58:59Z) - SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - Synthesizing File-Level Data for Unit Test Generation with Chain-of-Thoughts via Self-Debugging [40.29934051200609]
本稿では,高品質なUTトレーニングを実現するための新しいデータ蒸留手法を提案する。
このパイプラインをオープンソースプロジェクトの大規模なコーパスに適用します。
実験により, 微調整モデルにより, UT生成効率が高いことを示す。
論文 参考訳(メタデータ) (2026-02-03T06:52:54Z) - OctoBench: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding [57.39403818250357]
ここでは,レポジトリベースエージェントコーディングにおける足場認識命令のベンチマークを行うOctoBenchを紹介する。
OctoBenchは34の環境と217のタスクを3つの足場タイプでインスタンス化し、7,098の客観的チェックリストアイテムとペアリングする。
実験により、タスク解決と足場対応の体系的なギャップが明らかになり、トレーニングと評価の必要性が強調される。
論文 参考訳(メタデータ) (2026-01-15T12:36:08Z) - Auto-repair without test cases: How LLMs fix compilation errors in large industrial embedded code [2.64399132991614]
大規模言語モデル(LLM)によって駆動されるコンパイルエラーに対して,自動修復手法を採用する。
私たちの調査では、製品のソースコードから4000万件以上のコミットを収集しています。
論文 参考訳(メタデータ) (2025-10-15T14:13:13Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。