Fugu-MT 論文翻訳(概要): Demystifying Numerical Instability in LLM Inference: Achieving Reproducible Inference for Mission-Critical Tasks with HEAL

論文の概要: Demystifying Numerical Instability in LLM Inference: Achieving Reproducible Inference for Mission-Critical Tasks with HEAL

arxiv url: http://arxiv.org/abs/2606.21023v1
Date: Fri, 19 Jun 2026 01:21:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 08:56:32.789171
Title: Demystifying Numerical Instability in LLM Inference: Achieving Reproducible Inference for Mission-Critical Tasks with HEAL
Title（参考訳）: LLM推論における数値不安定性のデミスティフィケーション: HEALを用いたミッションクリティカルタスクの再現可能な推論の実現
Authors: Zhenting Zhu, Lucas Thai, Shan Yu, Yicheng Liu, Yifan Qiao, Chenxi Wang, Harry Xu, Junyi Shu,
Abstract要約: 大規模言語モデル(LLM)は、ミッションクリティカルドメイン(金融、医療、法律など)に展開する。 16ビットの精度の実験では、異種GPU間で破滅的な出力のばらつきが見られる。ハードウェア制約を解きながらFP32アクセラレータを近似するターゲット介入であるHybrid Error ALleviation (HEAL)を提案する。
参考スコア（独自算出の注目度）: 18.134050827462005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Models (LLMs) deploy into mission-critical domains (e.g., finance, medicine, and law), output reproducibility has become a strict system requirement. While practitioners use greedy decoding to eliminate algorithmic stochasticity, empirical deployments with 16-bit precisions still exhibit catastrophic output divergence across heterogeneous GPUs. Through SASS-level profiling, we reveal that this inconsistency is fundamentally driven by truncation errors introduced during downcasting at kernel boundaries. However, achieving reproducibility via a global FP32 pipeline incurs prohibitive system penalties: bypassing 16-bit hardware accelerators hurts compute efficiency, while upcasting the KV cache doubles memory overhead. To bridge this gap, we propose Hybrid Error ALleviation (HEAL), a targeted intervention that approximates FP32 precision while resolving hardware constraints through two targeted mechanisms. First, recognizing that floating-point formats underutilize their bit-width for Q, K, V tensors, HEAL applies INT16 quantization that preserves numerical stability without expanding the KV cache footprint. Second, HEAL synthesizes high-precision matrix multiplications via an algebraic error compensation strategy, executing entirely on high-throughput 16-bit Tensor Cores. To evaluate our approach practically, we introduce MCR-Bench, a benchmark targeting reproducibility in mission-critical tasks. HEAL achieves the same level of reproducibility on downstream tasks as the FP32 baseline while reducing the performance overhead by up to 7.1x.
Abstract（参考訳）: 大規模言語モデル(LLM)がミッションクリティカルなドメイン(金融、医療、法律など)に展開するにつれ、出力再現性は厳格なシステム要件となっている。実践者はアルゴリズムの確率性を排除するためにgreedyデコーディングを使用するが、16ビットの精度を持つ経験的デプロイメントは、異種GPU間で破滅的な出力のばらつきを示す。 SASSレベルのプロファイリングにより、この不整合は、カーネル境界でのダウンキャスト時に導入されたトランケーションエラーによって根本的に引き起こされることが明らかとなった。 16ビットハードウェアアクセラレータをバイパスすることは計算効率を損なう一方で、KVキャッシュのアップキャストはメモリオーバーヘッドを2倍にする。このギャップを埋めるため,FP32の精度を近似し,ハードウェア制約を2つの機構で解決するHybrid Error ALleviation (HEAL)を提案する。まず、浮動小数点形式がQ,K,Vテンソルのビット幅を弱めていることを認識し、KVキャッシュフットプリントを拡張することなく数値安定性を維持するINT16量子化を適用した。第2に、HEALは代数的誤差補償戦略により高精度行列乗法を合成し、高速な16ビットテンソルコア上で完全に実行する。 MCR-Benchはミッションクリティカルなタスクにおける再現性を目標としたベンチマークである。 HEALは、FP32ベースラインと同じダウンストリームタスクの再現性を達成し、パフォーマンスのオーバーヘッドを最大7.1倍に削減する。

関連論文リスト

Runtime-Certified Bounded-Error Quantized Attention [0.0]
本稿では,実行時対応型KVキャッシュアーキテクチャを提案する。二項誤差分解は、キー量子化および(ii)値再構成誤差から、(i)注目分布歪みに対するヘッド当たり、ステップ当たりのバウンダリが得られる。 PG-19、NIAH、RULERのベンチマークにおいて、このシステムは言語モデリングと検索タスクのためのノイズ内の密度の高いFP16 KV品質と一致している。
論文参考訳（メタデータ） (2026-05-20T08:04:40Z)
OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。 X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文参考訳（メタデータ） (2026-05-19T10:53:03Z)
The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference [2.954681536906518]
KVキャッシングは自己回帰変換器推論におけるユビキタス最適化である。 FP16 KVキャッシュ推論は基本的に再計算と等価ではないことを示す。
論文参考訳（メタデータ） (2026-04-16T15:59:40Z)
BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文参考訳（メタデータ） (2026-04-05T04:25:07Z)
RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。 RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文参考訳（メタデータ） (2026-02-05T06:41:11Z)
DASH: Deterministic Attention Scheduling for High-throughput Reproducible LLM Training [22.898073682504023]
FlashAttention-3のような広く使われているアテンション実装では、決定論的後方通過は37.9%のスループット低下を引き起こす。我々は、DAG(Directed Acyclic Graph)上のスケジューリング問題として、決定論的注意の後方通過を定式化する。本稿では2つの相補的なスケジューリング戦略をカプセル化したDASH(Deterministic Attention Scheduling for High-Throughput)を提案する。
論文参考訳（メタデータ） (2026-01-29T15:10:13Z)
ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs [4.431548809730958]
ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。 ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
論文参考訳（メタデータ） (2026-01-12T12:27:22Z)
Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文参考訳（メタデータ） (2025-10-23T14:02:34Z)
ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization [99.96330641363396]
ARMOR: (Adaptive Representation with Matrix-factorization) は、新しい1ショットのポストトレーニングプルーニングアルゴリズムである。 ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。 ARMORは、幅広いダウンストリームタスクとパープレキシティ評価において、最先端の2:4プルーニング手法よりも一貫して、はるかに優れています。
論文参考訳（メタデータ） (2025-10-07T02:39:20Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。