論文の概要: FASE: Fast Adaptive Semantic Entropy for Code Quality
- arxiv url: http://arxiv.org/abs/2606.09800v1
- Date: Mon, 08 Jun 2026 17:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.664358
- Title: FASE: Fast Adaptive Semantic Entropy for Code Quality
- Title(参考訳): FASE: コード品質のための高速な適応型セマンティックエントロピー
- Authors: Shizhe Lin, Ladan Tahvildari,
- Abstract要約: 本稿では,FASE(Fast Adaptive Semantic Entropy)について紹介する。
HumanEvalとBigCodeBenchの評価は、FASEがLLMエンテーメントにより最先端のセマンティックエントロピーより優れていることを示している。
FASEは計算オーバーヘッドを無視し、従来のセマンティックエントロピーアプローチのランタイムコストの約0.3%しか必要としない。
- 参考スコア(独自算出の注目度): 0.28647133890966986
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-agent code generation offers a promising paradigm for autonomous software development by simulating the human software engineering lifecycle. However, system reliability remains hindered by LLM hallucinations and error propagation across interacting agents. While semantic entropy provides a principled way to quantify uncertainty without ground-truth answers, current methods often rely on costly LLM-driven equivalence checks. In this work, we introduce Fast Adaptive Semantic Entropy (FASE), a novel metric that approximates functional correctness based on the minimum spanning tree of structural and semantic dissimilarity graphs. Evaluations on HumanEval and BigCodeBench demonstrate that FASE outperforms state-of-the-art semantic entropy by LLM entailment, achieving a 25% average improvement in Spearman correlation and a 19% increase in ROCAUC score against Pass@1 from ground-truth test cases when using the Qwen3-Embedding-8B model. Furthermore, by eliminating costly LLM-driven equivalence evaluation, FASE incurs negligible computational overhead, requiring only approximately 0.3% of the runtime cost of traditional semantic entropy approaches. These results position FASE as a practical, cost-effective solution for optimizing uncertainty quantification in real-world multi-agent workflows.
- Abstract(参考訳): マルチエージェントコード生成は、人間のソフトウェアエンジニアリングライフサイクルをシミュレートすることによって、自律的なソフトウェア開発に有望なパラダイムを提供する。
しかし、LLM幻覚と相互作用エージェント間のエラー伝播によってシステムの信頼性が損なわれ続けている。
セマンティックエントロピーは、地道な答えなしに不確実性を定量化する原則的な方法を提供するが、現在の手法は、しばしば高価なLLM駆動の等価チェックに依存している。
本研究では,FASE(Fast Adaptive Semantic Entropy)を導入し,構造的および意味的相似性グラフの最小分布木に基づく関数的正しさを近似する手法を提案する。
HumanEvalとBigCodeBenchの評価では、Qwen3-Embedding-8Bモデルを用いた場合、FASEは最先端のセマンティックエントロピーより優れ、スピアマン相関が25%向上し、ROCAUCスコアがPass@1に対して19%増加した。
さらに、コストのかかるLCM駆動の等価性評価を除去することで、FASEは計算オーバーヘッドを無視し、従来のセマンティックエントロピーアプローチのランタイムコストの約0.3%しか必要としない。
これらの結果は、実世界のマルチエージェントワークフローにおける不確実性定量化を最適化するための実用的で費用対効果の高いソリューションとしてFASEを位置づけている。
関連論文リスト
- Think Twice Before You Write -- an Entropy-based Decoding Strategy to Enhance LLM Reasoning [32.332197731504046]
デコード戦略は、大きな言語モデルの推論能力を形成する上で、中心的な役割を果たす。
グレディ復号やビームサーチといった従来の手法は、しばしばエラーの伝播に悩まされる。
本稿では,トークンレベルの適応性を世代に導入するエントロピー誘導復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T23:08:26Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Variational Entropic Optimal Transport [67.76725267984578]
本稿では,ドメイン翻訳問題に対する変分エントロピー最適輸送(VarEOT)を提案する。
VarEOTは、補助正の正規化子上のトラクタブルな一般化として、log-partition $log mathbbE[exp(cdot)$の正確な変分再構成に基づいている。
合成データと画像と画像の変換に関する実験は、競争力のあるか、あるいはより良い翻訳品質を示す。
論文 参考訳(メタデータ) (2026-02-02T15:48:44Z) - From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文 参考訳(メタデータ) (2026-01-07T11:13:02Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming [8.52533297070733]
EVALOOOPは自己整合性の観点から堅牢性を評価するアセスメントフレームワークである。
MBPP Plusベンチマークで96の人気のある大言語モデル(LLM)を評価した。
EVALOOOPは10ループでパス@1の精度を2.65%-47.62%低下させる。
論文 参考訳(メタデータ) (2025-05-18T01:02:33Z) - Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems [89.35169042718739]
協調推論により、クラウドサーバに機密データを公開することなく、エンドユーザは強力なディープラーニングモデルを活用することができる。
近年の研究では、これらの中間機能は、情報が漏洩し、生データをモデル反転攻撃(MIA)によって再構築できるため、プライバシーを十分に保持できないことが判明している。
この研究はまず、与えられた中間特徴の入力の条件エントロピーが、任意のMIAの下での再構成平均二乗誤差(MSE)の保証された下界を与えることを理論的に証明する。
そして、ガウス混合推定に基づいて、この条件付きエントロピーを有界化するための微分可能かつ可解な尺度を導出し、逆ロバスト性を高める条件付きエントロピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:21Z) - Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。