Fugu-MT 論文翻訳(概要): Don't Go Breaking My LLM: The Impact of Pruning Attention Layers on Explanation Faithfulness and Confidence Calibration

論文の概要: Don't Go Breaking My LLM: The Impact of Pruning Attention Layers on Explanation Faithfulness and Confidence Calibration

arxiv url: http://arxiv.org/abs/2606.24970v1
Date: Tue, 23 Jun 2026 11:07:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 17:05:30.075863
Title: Don't Go Breaking My LLM: The Impact of Pruning Attention Layers on Explanation Faithfulness and Confidence Calibration
Title（参考訳）: 私のLLMを破るな - 説明の信条と信条の校正に注意層が与える影響
Authors: Pietro Tropeano, Maria Maistro, Tuukka Ruotsalo, Christina Lioma,
Abstract要約: LLM(Pruning Large Language Models)は、ネットワークの一部を取り除くことで、メモリと推論のコストを削減する。本研究では,5つのLCMと8つのデータセット間の説明忠実度と信頼性校正に注意層がどう影響するかを検討する。以上の結果から,LLMの解釈可能性や信頼性は,精度と効率性だけでは得られないことが示唆された。
参考スコア（独自算出の注目度）: 17.14392068503777
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pruning Large Language Models (LLMs) reduces memory and inference costs by removing parts of the network, producing smaller models that retain most of their accuracy. As attention layers are the most resource-intensive parts of LLMs, pruning them is a promising compression strategy. Prior work shows that up to 33% of attention layers can be pruned with minimal accuracy loss. Nevertheless, the impact of attention pruning on model interpretability, specifically faithfulness and confidence calibration, remains unstudied. To address this gap, we study how pruning attention layers affects explanation faithfulness and confidence calibration across five LLMs and eight datasets. While the pruned models often maintain high accuracy, we find that their faithfulness and calibration often degrade. Notably, faithfulness and calibration can fluctuate significantly, even when accuracy remains stable, highlighting a misalignment between model confidence, interpretability, and accuracy. Our findings suggest that layer pruning can affect LLMs' interpretability and reliability in ways not captured by accuracy and efficiency measures alone. We recommend including explainability and calibration metrics when evaluating pruned models.
Abstract（参考訳）: LLM(Pruning Large Language Models)は、ネットワークの一部を取り除くことで、メモリと推論のコストを削減し、精度の大部分を保持する小さなモデルを生成する。注意層はLLMの最も資源集約的な部分であるため、それらを刈り取ることは有望な圧縮戦略である。以前の研究によると、注意層の最大33%は、最小限の精度の損失で刈り取られる。それでも、注意喚起がモデル解釈可能性、特に忠実さと信頼性の校正に与える影響は未検討である。このギャップに対処するために,5つのLCMと8つのデータセットの信頼度と信頼度のキャリブレーションに注意層がどう影響するかを検討する。刈り取られたモデルは高い精度を維持することが多いが、その忠実さと校正度はしばしば劣化する。特に、精度が安定していても忠実さとキャリブレーションは著しく変動し、モデルの信頼性、解釈可能性、精度の相違が浮き彫りになる。以上の結果から,LLMの解釈可能性や信頼性は,精度と効率性だけでは得られないことが示唆された。プルーニングモデルを評価する際に、説明可能性とキャリブレーションの指標を含めることを推奨する。

関連論文リスト

CaliDist: Calibrating Large Language Models via Behavioral Robustness to Distraction [51.56484100374058]
既存のLLM(Large Language Models)のキャリブレーション手法は、しばしば信頼性の重要な次元、すなわちモデルの振舞いの堅牢性を見落としている。我々は,モデルが注意をそらす可能性を直接測定し,罰する,新しいポストホックキャリブレーション手法であるtextscCaliDistを紹介した。 textscCaliDistは、強いベースラインと比較して、期待の低いエラー(ECE)とBrier Scoreを一貫して達成します。
論文参考訳（メタデータ） (2026-06-04T07:27:53Z)
Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文参考訳（メタデータ） (2026-05-13T13:07:50Z)
Does Visual Token Pruning Improve Calibration? An Empirical Study on Confidence in MLLMs [0.0]
視覚的トークンプルーニングがモデルキャリブレーションにどのように影響するか,すなわち,信頼度が実際の正しさと一致しているかを検討する。以上の結果から,プルーニングは単に効率の面での信頼性を損なうものではないことが示唆された。
論文参考訳（メタデータ） (2026-04-13T20:24:03Z)
On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文参考訳（メタデータ） (2026-02-14T01:07:45Z)
Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning [10.123352394689134]
よく校正された信頼性により、下流のシステムは、いつモデルを信頼するか、いつフォールバックメカニズムを延期するかを決定できる。 RLVRはタスク性能を向上するが、極めて自信過剰なモデルを生成する。本稿では,意思決定確率を直接調整するキャリブレーション対応強化学習の定式化を提案する。
論文参考訳（メタデータ） (2026-01-19T18:31:31Z)
ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。 LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文参考訳（メタデータ） (2025-08-26T09:25:32Z)
Calibrated Language Models and How to Find Them with Label Smoothing [12.584298923765688]
大規模言語モデル(LLM)は、命令追従能力を改善することで、より強力な対話型エージェントとして振る舞うことができる。自然言語処理(NLP)の最近の進歩は、命令追従能力の向上を通じて、より強力な対話的エージェントとして振る舞うための微調整された大規模言語モデル(LLM)を実現する機会を拡大している。信頼性の高いモデル出力の信頼性校正にどう影響するか完全には研究されていない
論文参考訳（メタデータ） (2025-08-01T02:12:20Z)
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。 MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文参考訳（メタデータ） (2025-05-30T17:54:08Z)
Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。 9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文参考訳（メタデータ） (2025-02-16T07:46:09Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。