論文の概要: SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs
- arxiv url: http://arxiv.org/abs/2606.20244v2
- Date: Fri, 19 Jun 2026 09:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.0365
- Title: SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs
- Title(参考訳): SPOT-E:凍結VLMのための視覚スポットライトを用いたテスト時間エントロピー整形
- Authors: Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng Yan,
- Abstract要約: 本研究では,各インスタンス毎のスポットライトを軽量チューニングにより最適化し,質問条件付きスポットライトを生成するテストタイム手法であるSPOT-Eを提案する。
SPOT-Eは、一貫した利得と、視覚的腐敗下での堅牢性を改善する。
- 参考スコア(独自算出の注目度): 74.89208610190595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) often underperform on evidence intensive tasks because decisive visual evidence are small, localized, and easy to overlook, leading to failures in evidence readout even when high-level reasoning is intact. Prior inference-time visual interventions can improve grounding without retraining, but they are largely open-loop and lack a mechanism to verify whether highlighted evidence is actually used. We study answer-span prediction entropy as a model-internal feedback signal and show that naive entropy minimization is ambiguous, since low entropy may arise from evidence-grounded confidence or shortcut collapse. To resolve this ambiguity, we introduce low-entropy anchors and an entropy-shaping objective that reduces answer uncertainty while preserving baseline high-confidence tokens. We instantiate this principle in SPOT-E, a plug-and-play test-time method that produces question-conditioned spotlights, optimized per instance via light-weight tuning based on Group Relative Policy Optimization (GRPO). Across all benchmarks and different VLM families, SPOT-E yields consistent gains and improved robustness under visual corruptions. Code is publicly available at: https://github.com/YinBo0927/SPOT-E
- Abstract(参考訳): 視覚言語モデル(VLM)は、決定的な視覚的証拠が小さく、局所的で、見落としやすいため、高レベルの推論がそのままである場合でも、証拠の読み出しに失敗する。
事前の推論時の視覚的介入は、再訓練せずにグラウンド化を改善することができるが、それらは大部分がオープンループであり、ハイライトされたエビデンスが実際に使用されているかどうかを検証するメカニズムが欠如している。
モデル内部フィードバック信号としての回答スパン予測エントロピーについて検討し, 証拠基底の信頼度やショートカット崩壊による低エントロピーの出現により, ナイーブエントロピー最小化があいまいであることを示す。
この曖昧さを解決するために,低エントロピーアンカーと,高信頼トークンを保存しながら応答の不確実性を低減するエントロピー形成目的を導入する。
我々はこの原理を,グループ相対ポリシー最適化(GRPO)に基づく軽量チューニングによりインスタンス毎に最適化された質問条件付スポットライトを生成する,プラグアンドプレイテストタイムのSPOT-Eでインスタンス化する。
すべてのベンチマークと異なるVLMファミリにおいて、SPOT-Eは一貫した利得と、視覚的腐敗下での堅牢性を改善する。
コードは、https://github.com/YinBo0927/SPOT-Eで公開されている。
関連論文リスト
- Gradient-Guided Reward Optimization for Inference-time Alignment [22.28081683932275]
グラデーションガイダンスによるデコーディングにおいて、ターゲットとなる最小限の介入を行う軽量な推論時手法を提案する。
実験により、GGROは安全性、有用性、推論ベンチマークを横断する推論時間アライメントを一貫して改善することが示された。
また、コンピュータのオーバーヘッドを最小限に抑えて、高品質なレスポンスと、ハッキングに報いるロバストさのカバレッジも向上する。
論文 参考訳(メタデータ) (2026-06-08T15:33:13Z) - Entropy Is Not Enough: Unlocking Effective Reinforcement Learning for Visual Reasoning via Vision-Anchored Token Selection [68.2118210672375]
VEPO(Vision-Entropy token-selection for Policy Optimization)は,視覚感度とトークンエントロピーを明示的に統合した効果的なRLフレームワークである。
実験の結果,VEPOの先行性能は7Bスケールで2.28点,3Bスケールで3.15点,エントロピーのみのベースラインを著しく上回った。
論文 参考訳(メタデータ) (2026-06-02T17:26:55Z) - Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning [63.36243250685778]
Conditional Entropy Shaping (CES)はトークンレベルの応答エントロピーを動的に制御するフレームワークである。
CESは、DAPOに対する応答長を減少させながら、平均精度を継続的に改善する。
論文 参考訳(メタデータ) (2026-05-19T04:41:51Z) - Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models [54.76242207842981]
我々は,Vid-LLMが正解し,否定に基づくガス灯下での判断を視覚的に下す失敗モードであるビデオサイファーシーを同定した。
モデルは単に答えを変更するのではなく、しばしば不正確な修正を正当化するために時間的または空間的な説明を作る。
GasVideo-1000は,視覚的根拠と時間的推論の要求を明確化して,ビデオの時間的サイコフィケーシーを探索するためのベンチマークである。
論文 参考訳(メタデータ) (2026-04-20T06:35:26Z) - Don't Blink: Evidence Collapse during Multimodal Reasoning [0.0]
VLMのリ共振は、より正確になりつつも、視覚的な接点を徐々に失う可能性がある。
これにより、低エントロピー予測は自信はあるものの、根拠のないタスク条件の危険ゾーンが生成される。
この構造を用いて、標的視のベトは、90%のカバレッジで最大1.9ポイントの選択的リスクを減少させる。
論文 参考訳(メタデータ) (2026-04-05T18:01:00Z) - Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models [8.630726904040781]
EVPV(Explicit Visual Premise Verification)は,ステップが依存する視覚的前提の信頼性を段階的に評価する,軽量な検証インターフェースである。
EVPVはステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上する。
論文 参考訳(メタデータ) (2026-03-17T08:40:26Z) - EDIS: Diagnosing LLM Reasoning via Entropy Dynamics [3.858418431840288]
生成過程における信頼の時空間的進化は,集計統計単独よりも豊かな情報をもたらすことを示す。
本稿では,エントロピー進化における不安定性を定量化するための軌道レベルの指標であるエントロピーダイナミクス不安定スコア(textbfEDIS)を紹介する。
論文 参考訳(メタデータ) (2026-02-01T15:43:50Z) - From Observations to States: Latent Time Series Forecasting [65.98504021691666]
本稿では,TSFを観測回帰から潜時予測に移行する新しいパラダイムであるLatent Time Series Forecasting(LatentTSF)を提案する。
具体的には、LatentTSFはAutoEncoderを使用して、各段階での観測結果を高次元の潜在状態空間に投影する。
提案する潜伏目標は,予測潜伏状態と地道状態と観測値との相互情報を暗黙的に最大化する。
論文 参考訳(メタデータ) (2026-01-30T20:39:44Z) - Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning [5.37133760455631]
推論タスクにおいて,大規模言語モデルにおいてトークン効率を向上する新しいエントロピーベースのフレームワークを提案する。
提案手法では,トークンレベルのログプロブからのシャノンエントロピーを信頼信号として使用し,早期停止を実現する。
エントロピーに基づく信頼度キャリブレーションは,事前学習後の最適化の創発的特性を示す。
論文 参考訳(メタデータ) (2025-10-09T12:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。