Fugu-MT 論文翻訳(概要): QBugLM: An Agentic Benchmarking Framework for LLM-based Quantum Software Debugging

論文の概要: QBugLM: An Agentic Benchmarking Framework for LLM-based Quantum Software Debugging

arxiv url: http://arxiv.org/abs/2606.07314v1
Date: Fri, 05 Jun 2026 14:34:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.78143
Title: QBugLM: An Agentic Benchmarking Framework for LLM-based Quantum Software Debugging
Title（参考訳）: QBugLM: LLMベースの量子ソフトウェアデバッグのためのエージェントベンチマークフレームワーク
Authors: An B. B. Pham, Hoa T. Nguyen, Muhammad Usman,
Abstract要約: 大規模言語モデル(LLM)は、古典的なソフトウェア工学のタスクにおいて強力なパフォーマンスを示している。量子ソフトウェアデバッグパイプラインを自動化するマルチエージェントフレームワークであるQBugLMを提案する。
参考スコア（独自算出の注目度）: 0.8609132348927196
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantum software bugs often yield silent, incorrect outputs rather than explicit errors, making them particularly difficult to detect and repair with conventional techniques. Although large language models (LLMs) have shown strong performance on classical software engineering tasks, their ability to debug quantum code remains largely unexplored. To bridge this gap, we propose QBugLM, a multi-agent framework that automates the quantum software debugging pipeline, from taxonomy-driven bug injection to LLM-based detection and repair, and finally to simulation-based validation, for framework-agnostic OpenQASM 3.0 programs. We further conduct a comprehensive case study using QBugLM to benchmark two LLMs, Claude 4.6 Sonnet and Qwen3 Coder Next, across different prompting strategies, bug categories, and quantum programs. Our results show that iterative feedback is critical, as a single retry raises Pass@1 from below 25% to above 80%. Moreover, simpler structured prompting can even outperform Chain-of-Thought and ReAct for reasoning-capable models under fixed-resource constraints. Our work takes initial steps toward benchmarking LLM capabilities for debugging quantum programs and offers practical insights to support future efforts in automated quantum software repair.
Abstract（参考訳）: 量子ソフトウェアのバグは、明示的なエラーではなく、静かで不正なアウトプットをもたらすことが多く、従来のテクニックによる検出と修正が特に困難である。大規模言語モデル(LLM)は、古典的なソフトウェアエンジニアリングタスクにおいて強力なパフォーマンスを示してきたが、量子コードのデバッグ能力はほとんど探索されていない。このギャップを埋めるために、我々はQBugLMを提案する。QBugLMは量子ソフトウェアデバッグパイプラインを自動化するマルチエージェントフレームワークで、分類学駆動のバグインジェクションからLLMベースの検出と修復、最後にフレームワークに依存しないOpenQASM 3.0プログラムのシミュレーションベースの検証を行う。さらに、QBugLMを用いて、さまざまなプロンプト戦略、バグカテゴリ、量子プログラムの2つのLCM(Claude 4.6 Sonnet と Qwen3 Coder Next)をベンチマークする包括的なケーススタディを実施している。その結果,1回のリトライでPass@1が25%未満から80%以上に上昇するので,反復的なフィードバックが重要であることがわかった。さらに、より単純な構造化プロンプトは、固定リソース制約の下で推論可能なモデルに対してChain-of-ThoughtとReActを上回ります。我々の研究は、量子プログラムのデバッグにLLM機能をベンチマークするための最初のステップを踏襲し、量子ソフトウェアの自動修復における将来の取り組みを支援するための実践的な洞察を提供する。

関連論文リスト

Beyond Rules: LLM-Powered Linting for Quantum Programs [4.968531828144473]
本稿ではLintQ-LLM+CoTとLintQ-LLM+RAGを紹介する。 CoT (Chain-of-Thought) をプロンプトし、RAG (Retrieval-Augmented Generation) システムを通じて特別に設計された LLM は、モデルの推論をキュレートされた知識ベースで根拠付ける。 LLMに基づくアプローチは、RAGの有無にかかわらず、量子プログラミング問題の精度(精度)と完全性(リコール)においてLintQよりも優れていることを示す。
論文参考訳（メタデータ） (2026-05-05T16:31:14Z)
QuanBench: Benchmarking Quantum Code Generation with Large Language Models [7.807551490308163]
大規模言語モデル(LLM)は、一般的なコード生成において優れた性能を示している。本稿では,量子コード生成におけるLLMの評価ベンチマークであるQuanBenchを提案する。
論文参考訳（メタデータ） (2025-10-19T10:08:36Z)
QAgent: An LLM-based Multi-Agent System for Autonomous OpenQASM programming [8.73473101831257]
OpenQASMプログラミングを完全に自動化するマルチエージェントシステムであるQAgentを提案する。評価では, 異なるサイズの複数のLDMに対して, 大幅な改善が見られた。我々は、このマルチエージェントシステムを、量子プログラミングの民主化、専門知識のギャップを埋め、量子コンピューティングの実践的採用を加速するための重要な実現手段として想定する。
論文参考訳（メタデータ） (2025-08-26T18:40:02Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Agent-Q: Fine-Tuning Large Language Models for Quantum Circuit Generation and Optimization [5.2374261493530065]
大規模言語モデル (LLMs) は、数学、コーディング、科学報告の分析を含む複雑な問題において顕著な成果を上げている。本稿では,量子回路の生成と最適化を行うLLMファインチューニングシステムであるAgent-Qについて述べる。
論文参考訳（メタデータ） (2025-04-15T11:56:54Z)
Quantum Program Linting with LLMs: Emerging Results from a Comparative Study [5.062046608347911]
本研究では,Large Language Models (LLMs) を用いた量子ソフトウェア開発のための新しいリンティング手法の実現可能性について検討する。我々はLintQ-LLM(LintQ-LLM)を紹介する。LintQはLintQに匹敵する量子固有問題を検出するためのLintQ-LLMである。
論文参考訳（メタデータ） (2025-04-07T15:51:31Z)
QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。 QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文参考訳（メタデータ） (2024-10-15T05:57:51Z)
QCircuitBench: A Large-Scale Dataset for Benchmarking Quantum Algorithm Design [63.02824918725805]
量子コンピューティングは、量子アルゴリズムによる古典的コンピューティングよりも大幅にスピードアップされていることが認識されている。 QCircuitBenchは、量子アルゴリズムの設計と実装におけるAIの能力を評価するために設計された最初のベンチマークデータセットである。
論文参考訳（メタデータ） (2024-10-10T14:24:30Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Sampling Overhead Analysis of Quantum Error Mitigation: Uncoded vs. Coded Systems [69.33243249411113]
パウリの誤差は、多数の現実的な量子チャネルの中で最も低いサンプリングオーバーヘッドをもたらすことを示す。我々はQEMと量子チャネル符号化を併用する手法を考案し、純粋なQEMと比較してサンプリングオーバーヘッドの低減を解析する。
論文参考訳（メタデータ） (2020-12-15T15:51:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。