論文の概要: Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software
- arxiv url: http://arxiv.org/abs/2606.20502v1
- Date: Thu, 18 Jun 2026 17:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.014488
- Title: Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software
- Title(参考訳): 不可解な校正:システムソフトウェアにおける脆弱性検出のための微調整LDMの限界を診断する
- Authors: Arastoo Zibaeirad, Marco Vieira,
- Abstract要約: CWE-Traceは、手動でキュレートされたLinuxカーネルサンプルから構築された脆弱性検出フレームワークである。
対象でない検出,ターゲット検出,CWE分類において,8つのバニラLLMと15のLORA微調整変異体を評価した。
- 参考スコア(独自算出の注目度): 1.0026496861838445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether LLMs scoring well on vulnerability benchmarks genuinely reason about security or merely pattern-match on contaminated data remains unresolved. We present CWE-Trace, a framework for LLM vulnerability detection built from 834 manually curated Linux kernel samples spanning 74 CWEs. The framework enforces a strict temporal split (pre-2025 historical set / post-cutoff leakage-free set), preserves context-aware vulnerable--patched pairs, and introduces two diagnostic metrics: the Directional Failure Index (DFI) and Hierarchical Distance and Direction (HDD). We evaluate eight vanilla LLMs and 15 LoRA fine-tuned variants across non-targeted detection, targeted detection, and CWE classification. Our analysis yields two key results. First, data contamination provides no measurable advantage. Function-level analysis shows that 84% of nominally contaminated samples carry no usable memorization signal: vulnerable functions are absent or cross-mapped across datasets, and ~31% of contaminated samples carry CWE misclassification. Second, backbone directional priors dominate fine-tuning. Models exhibit stable, systematic failure modes (DFI ranging from -85.5 to +94.8 pp) that persist from historical to post-cutoff data and resist correction. Fine-tuning shifts the output threshold without changing the decision policy. This is calibration without comprehension: output distributions adapt to training data while the underlying security reasoning remains absent. The weakest backbone at binary detection (DeepSeek-R1) gains the most in coarse CWE classification, revealing that detection and understanding are decoupled capabilities. The best detection score reaches only 52.1% (+2.1 pp above chance); exact CWE ranking remains below 1.3% Top-1 accuracy, confirming that current LLMs lack reliable security reasoning for systems software, regardless of fine-tuning strategy.
- Abstract(参考訳): 脆弱性ベンチマークでよく評価されているLSMが、セキュリティを真に理由付けているのか、汚染されたデータに対する単なるパターンマッチなのかは、未解決のままだ。
CWE-Traceは,74個のCWEにまたがる834個のLinuxカーネルを手動でキュレートしたLLM脆弱性検出フレームワークである。
このフレームワークは厳密な時間分割(2025年以前の歴史的セット/ポストカットオフリークフリーセット)を強制し、コンテキスト対応の脆弱なペアを保護し、ディレクショナル障害指数(DFI)と階層距離とディレクティブ(HDD)という2つの診断指標を導入している。
対象でない検出,ターゲット検出,CWE分類において,8つのバニラLLMと15のLORA微調整変異体を評価した。
我々の分析は2つの重要な結果をもたらす。
第一に、データ汚染は測定可能な利点を与えない。
機能レベルの分析では、名目上汚染されたサンプルの84%が使用可能な記憶信号を持っていない。
第二に、バックボーンの方向性が微調整を支配している。
モデルは安定した系統的な障害モード(DFIは-85.5から+94.8ppまで)を示し、履歴データからポストカットデータまで持続し、修正に抵抗する。
微調整は、決定ポリシーを変更することなく出力しきい値を変更する。
出力分布はトレーニングデータに適応するが、根底にあるセキュリティ推論はいまだに存在しない。
バイナリ検出時の最も弱いバックボーン(DeepSeek-R1)は、粗いCWE分類で最も多くなり、検出と理解が分離された能力であることを明らかにする。
最高の検出スコアは52.1%(+2.1pp以上の確率)に達し、正確なCWEランキングは1.3%のTop-1の精度に留まり、現在のLLMは微調整戦略によらず、システムソフトウェアに対する信頼性の高いセキュリティ推論を欠いていることを確認した。
関連論文リスト
- LLM Doesn't Know What It Doesn't Know: Detecting Epistemic Blind Spots via Cross-Model Attribution Divergence on Clinical Tabular Data [2.1443570696048906]
大規模言語モデル(LLM)は、構造化された臨床データにますます適用される。
Qwen 2.5 7B と XGBoost を比較する。
論文 参考訳(メタデータ) (2026-06-17T18:49:44Z) - CauTion: Knowing When to Trust LLMs for Ensemble Causal Discovery [51.07538881798502]
大規模言語モデル(LLM)は、統計的推論を補完する将来的なドメイン知識の源を提供する。
我々は、LLMドメイン知識を統計的因果探索アルゴリズムのアンサンブルに確実に統合するフレームワークであるCauTionを提案する。
CauTionは、データ中心とLLM拡張ベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2026-06-02T13:07:43Z) - Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文 参考訳(メタデータ) (2026-05-13T13:07:50Z) - Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments [0.0]
本稿では,新しいGym2DデータセットとUCF101データセットを用いて,厳しい領域シフトの体系的研究を行う。
我々の研究は、標準的なデプロイメント仮定に挑戦し、セマンティックスケルトン認識と幾何学的スケルトン認識の両方のデプロイの安全性を原則として分析する。
論文 参考訳(メタデータ) (2026-03-16T17:37:17Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - When Benchmarks Lie: Evaluating Malicious Prompt Classifiers Under True Distribution Shift [0.0]
有害なリクエスト、ジェイルブレイク、間接的なプロンプトインジェクション、抽出攻撃にまたがる18のデータセットのベンチマークを用いて、包括的な分析を行う。
我々は,真のアウト・オブ・ディストリビューションの一般化を評価するために,LODO(Leave-One-Dataset-Out)評価を提案する。
論文 参考訳(メタデータ) (2026-02-15T14:21:43Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Probabilistic Soundness Guarantees in LLM Reasoning Chains [37.440902632372904]
ARES(Autoregressive Reasoning Entailment Stability)は、事前に検証された前提のみに基づいて、各推論ステップを評価する確率的フレームワークである。
ARESは4つのベンチマークで最先端のパフォーマンスを達成し、非常に長い合成推論チェーン上で優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-17T09:40:56Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。