論文の概要: Code Is More Than Text: Uncertainty Estimation for Code Generation
- arxiv url: http://arxiv.org/abs/2606.09577v1
- Date: Mon, 08 Jun 2026 14:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.277559
- Title: Code Is More Than Text: Uncertainty Estimation for Code Generation
- Title(参考訳): コードはテキスト以上のもの:コード生成の不確実性の推定
- Authors: Yuling Shi, Caiqi Zhang, Yuexian Li, Haopeng Wang, Yeheng Chen, Nigel Collier, Xiaodong Gu,
- Abstract要約: コードは自然言語(NL)とは3つの点で異なる: 1つの間違ったトークンがプログラム全体(トークン)を分解し、アルゴリズムの意図と具体的な実装は独立に(インテント・コードのギャップ)、プログラムは実行可能である(実行可能性)。
我々はこれらの特性を3つの不確実性軸としてインスタンス化する: 語彙(Top-Kトークンエントロピー)、アルゴリズム的脆弱性(擬符号整合)、機能(行動整合)。
- 参考スコア(独自算出の注目度): 28.04063266984485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as code generators, where silently wrong programs pose real safety and reliability risks. Reliable uncertainty estimation (UE) is essential for selective prediction, human-in-the-loop review, and downstream agentic decisions. Yet most existing code UE methods are inherited from natural language (NL) generation and ignore properties that make code distinct. We argue that code differs from NL in three ways: a single wrong token can break an entire program (token fragility); algorithmic intent and concrete implementation can disagree independently (intent-code gap); and programs can be executed (executability). We instantiate these properties as three orthogonal uncertainty axes: lexical (Top-K token entropy), algorithmic (pseudo-code consistency), and functional (behavioral consistency). Across five code LLMs, our three-axis ensemble improves average AUROC from 0.696 for the strongest NL-derived baseline to 0.776 (+8.1 points). Notably, on Qwen3-14B, our single-pass Top-K token entropy matches the strongest multi-pass baseline while being over 3x cheaper; across models, it remains a competitive low-cost signal. These results suggest that code UE deserves code-specific design rather than direct NL ports.
- Abstract(参考訳): 大規模言語モデル(LLM)はコードジェネレータとしてますます多くデプロイされ、プログラムのミスが本当の安全性と信頼性のリスクをもたらす。
信頼性のある不確実性推定(UE)は、選択的予測、ヒューマン・イン・ザ・ループのレビュー、下流のエージェント決定に不可欠である。
しかし、既存のほとんどのUEメソッドは自然言語(NL)生成から継承され、コードを区別するプロパティを無視する。
1つの間違ったトークンがプログラム全体を壊し(難易度)、アルゴリズムの意図と具体的な実装は独立して(インテント・コードギャップ)、プログラムを実行できる(実行可能性)。
これらの性質を3つの直交不確実性軸としてインスタンス化する: 語彙(Top-Kトークンエントロピー)、アルゴリズム(擬符号整合)、関数(挙動整合)。
5つのコードLLMで、我々の3軸アンサンブルは平均AUROCを0.696から0.776(+8.1点)に改善する。
特にQwen3-14Bでは、シングルパスのTop-Kトークンエントロピーが最強のマルチパスベースラインと3倍以上安い。
これらの結果は、コードUEは直接NLポートよりもコード固有の設計にふさわしいことを示唆している。
関連論文リスト
- Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs [12.164962289028113]
セキュアなコード生成をきめ細かいシーケンシャルな決定プロセスとして再設計するフレームワークであるTree-like Self-Play (TSP)を紹介します。
コード生成をセルフプレイゲームとして扱うことで、モデルは自身の局所的なエラーに対して厳格に識別することを学ぶ。
論文 参考訳(メタデータ) (2026-06-02T11:07:20Z) - Inferring Code Correctness from Specification [0.0]
大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、大規模に自動コード生成を可能にしている。
提案するTRAILS(Targeted Reasoning Agreement via Inputs and Specifications)は,コンクリート(インプット,アウトプット)ペアによるLCM推論を基礎とする手法である。
TRAILSをLiveCodeBenchとCoCoClaNeLの2つのデータセット(Qwen3Coder-30B、Devstral-Small-24B、Olmo3.1-Instruct)で評価し、HoarePromptとZero-Shot Chain-of-Thoughtベースラインと比較した。
論文 参考訳(メタデータ) (2026-05-28T12:04:51Z) - Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions [0.0]
本研究は,GSM-Symbolicデータセットから1000問題に対する3つのアプローチを評価する。
これら3機は、クロード・ハイク4.5を使用して、オリジナルと修正された2台で実行された。
CoTは最も堅牢な方法であり、精度は1.3%低下し、問題の1.8%は摂動で壊れた。
論文 参考訳(メタデータ) (2026-05-26T00:44:49Z) - Secure Code Generation at Scale with Reflexion [0.0]
Pythonは最高安全率、CとC#は最低である。
反射により全てのモデルのセキュリティが向上し、平均精度はt0で70.74%からt3で79.43%に向上した。
論文 参考訳(メタデータ) (2025-11-05T22:46:24Z) - Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。
63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。
開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文 参考訳(メタデータ) (2025-08-06T13:48:38Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Execution-Based Evaluation for Open-Domain Code Generation [81.96731162394445]
ODEXは、Pythonコード生成データセットの最初のOpen-Domain Executionベースの自然言語(NL)である。
ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。
ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語をインテントとしてサポートしている。
論文 参考訳(メタデータ) (2022-12-20T17:54:37Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。