論文の概要: Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2606.20419v1
- Date: Thu, 18 Jun 2026 16:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.97181
- Title: Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation
- Title(参考訳): トレーニング不要なVLM幻覚軽減のためのスペクトルクエリーキープロダクトウェイトステアリング
- Authors: Karn Tiwari, Varnith Chordia, Prathosh A P,
- Abstract要約: 視覚言語モデル (VLM) は、流動的であるが視覚的にサポートされていない記述を生成する。
そこで本研究では,データフリー,トレーニングフリー,ゼロ推論コストの重み付けを行うQK製品ステアリングを提案する。
- 参考スコア(独自算出の注目度): 8.1776750657211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) often generate fluent but visually unsupported descriptions, especially by mentioning objects absent from the image. We propose QK Product Steering, a data-free, training-free, and zero-inference-cost weight edit for reducing object hallucination. The method directly edits the per-head query-key product, the operator that produces pre-softmax attention logits, by suppressing a small number of dominant singular modes in selected middle layers. The edited product is then mapped back to the query weights through a closed-form query-only update while keeping shared key weights fixed, making the edit compatible with grouped-query attention. We further decompose the QK product into symmetric and antisymmetric components to distinguish mutual content-similarity patterns from directional attention patterns. Across three GQA-based VLMs, QK Product Steering achieves an average relative CHAIR$_s$ reduction of $4.0\%$, while matched random-mode controls show negligible change. Interpretability ablations show that the hallucination signal is specific to dominant QK modes and is primarily localized to the symmetric mutual-attention channel. Overall, QK Product Steering offers a simple alternative to decoding-time mitigation, requiring no additional data, fine-tuning, or inference-time overhead while largely preserving general multimodal capability.
- Abstract(参考訳): ヴィジュアル言語モデル (VLM) は、特に画像から欠落したオブジェクトに言及することで、しばしば流動的であるが視覚的にサポートされない記述を生成する。
そこで本研究では,データフリー,トレーニングフリー,ゼロ推論コストの重み付けを行うQK製品ステアリングを提案する。
この方法は、選択した中間層において、少数の支配的な特異モードを抑えることにより、ソフトマックス前の注意ログを生成する演算子である、ヘッドごとのクエリキー製品を直接編集する。
編集されたプロダクトはクローズドフォームのクエリ専用アップデートを通じてクエリウェイトにマップされ、共有キーウェイトは固定され、グループ化されたクエリアテンションと互換性がある。
さらにQK生成物を対称成分と非対称成分に分解し、相互内容相似パターンと指向性注意パターンとを区別する。
3つのGQAベースのVLMの中で、QK Product SteeringはCHAIR$_s$の4.0\%の値下げを達成するが、一致したランダムモード制御は無視できる変化を示している。
解釈可能性の短縮は、幻覚シグナルが支配的なQKモードに特異的であり、主に対称的相互アテンションチャネルに局在していることを示している。
全体として、QK Product Steeringはデコード時の緩和の簡単な代替手段を提供する。
関連論文リスト
- Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models [59.51249894128724]
マスク付き拡散言語モデルは、反復を識別するごとに複数のトークンを明らかにすることで推論ステップを削減することができる。
パラレルマスク拡散復号法のためのトレーニング不要な復号法であるADASを提案する。
論文 参考訳(メタデータ) (2026-06-09T13:17:27Z) - Selective Coupling of Decoupled Informative Regions: Masked Attention Alignment for Data-Free Quantization of Vision Transformers [56.376795859825705]
Data-Free Quantization (DFQ)は、サンプルを合成することで、実際のデータにアクセスすることなく、データセキュリティ上の問題に対処する。
従来の DFQ Arts for Vision Transformers (ViTs) は、しばしば、合成サンプルと量子化モデルQで期待される入力分布の分布ミスマッチに悩まされる。
本研究では,データ自由量子化のためのMaskAQという新しいMasked Attention Alignmentアプローチを提案する。
論文 参考訳(メタデータ) (2026-06-03T02:38:19Z) - Let Triggers Control: Frequency-Aware Dropout for Effective Token Control [8.72880783870241]
我々は新しいパラメータを追加することなく制御性を改善するために周波数対応ドロップアウト(FAD)を提案する。
FADは、共起分析とカリキュラムにインスパイアされたスケジューリングの2つの重要なコンポーネントで構成されている。
本手法は,テキスト・ツー・イメージ生成における制御性とパーソナライズを向上する,シンプルで効果的なドロップアウト戦略を提供する。
論文 参考訳(メタデータ) (2026-03-28T08:55:54Z) - PersonalQ: Select, Quantize, and Serve Personalized Diffusion Models for Efficient Inference [20.472591326805553]
PersonalQは、チェックポイントのトリガートークンである共有信号を通じて、チェックポイントの選択と量子化を接続する。
Check-inは、意図認識型ハイブリッド検索とLLMベースのチェックポイントコンテキスト上のランク付けを組み合わせることで、意図整合の選択を行う。
Trigger-Aware Quantization (TAQ) は、トリガー・アウェアの混合精度をクロスアテンションに適用する。
論文 参考訳(メタデータ) (2026-03-24T08:39:35Z) - The Lossy Horizon: Error-Bounded Predictive Coding for Lossy Text Compression (Episode I) [6.453417258264177]
本稿では,誤り境界予測符号化(EPC, Error-Bounded Predictive Coding)を提案する。
オリジナルのトークンのサブセットを格納する代わりに、EPCはモデルがマスク付きコンテンツを予測し、モデルのトップ予測が正しくない場合のみ、最小限のランクベースの修正を格納することを可能にする。
EPCが予測的マスキングを一貫して支配し、モデル固有の知識をより効率的に活用することにより、より優れた忠実度を著しく低いビットレートで提供することを示した。
論文 参考訳(メタデータ) (2025-10-25T08:18:31Z) - ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM [16.694799255671914]
マルチモーダル大言語モデル(MLLM)は、しばしば刺激的な視覚的手がかりに過剰なコミットによって幻覚する。
本稿では,アテンション・ステアブル・コントラスト・デコーディング(ASCD)を提案する。
論文 参考訳(メタデータ) (2025-06-17T17:58:11Z) - Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration [22.39558434131574]
LVLM(Large Vision-Language Models)は、視覚的コンテンツと実際に一致しない応答を生成する。
我々は、単一の意味のない入力画像からバイアスを推定する、トレーニング不要なソリューションUniform Attention (UAC)を導入する。
また、画像中のオブジェクトがどこにあっても一貫した出力を強制する、微調整ソリューションであるDynamic Attention (DAC)を導入します。
論文 参考訳(メタデータ) (2025-02-04T03:27:38Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。