論文の概要: Look Again Before You Abstain:Budgeted Conformal Evidence Acquisition for Reliable Vision-Language Model
- arxiv url: http://arxiv.org/abs/2606.16667v1
- Date: Mon, 15 Jun 2026 13:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.564875
- Title: Look Again Before You Abstain:Budgeted Conformal Evidence Acquisition for Reliable Vision-Language Model
- Title(参考訳): 確認する前にもう一度見てみましょう:信頼性の高い視覚言語モデルのための予算的コンフォーマル・エビデンス獲得
- Authors: Jian Xu, Delu Zeng, John Paisley, Qibin Zhao,
- Abstract要約: 原則化された治療法は、分布のない保証検証された各クレームによる選択的な予測であり、クレームが根拠にされていない場合は、そのクレームを棄却する。
しかし、この保証は残酷な価格で購入されている: バランスのとれたオブジェクト存在度ベンチマークで幻覚率を5%以下に維持するためには、最先端のコンフォメーションフィルタは80%以上の請求を棄却しなければならない。
本稿では,Budgeted Conformal Evidence Acquisition (BCEA)を紹介した。
- 参考スコア(独自算出の注目度): 31.082191748525137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) hallucinate: they assert visual details that the image does not support. A principled remedy is selective prediction with a distribution-free guarantee-verify each claim and abstain when the claim is not grounded, so that the hallucination rate among asserted claims is provably bounded. We show, however, that this guarantee is bought at a brutal price: to keep the hallucination rate below $5\%$ on a balanced object-existence benchmark, a state-of-the-art conformal filter must abstain on more than $80\%$ of claims. We argue that abstention is wasteful when more visual evidence is cheaply available, and introduce Budgeted Conformal Evidence Acquisition (BCEA), which replaces the binary answer/abstain decision with a three-way choice: answer, abstain, or acquire additional visual evidence by re-examining the image (zooming, cropping, or applying a claim-specific intervention) under a bounded compute budget. We make two observations. First, acquisition that is plugged naively into a calibrated filter breaks the statistical guarantee -- realized risk overshoots the target by up to $17$ points -- because the acquisition step destroys the exchangeability that conformal calibration relies on. Second, folding the entire acquisition policy into the score function and re-calibrating on post-acquisition scores \emph{restores} the finite-sample guarantee while still recovering coverage. BCEA further uses structured, claim-type-specific interventions. Across the POPE benchmark and COCO-constructed existence and spatial-relation claims, on four open VLMs, BCEA controls the hallucination rate at the target level and consistently improves coverage over a guaranteed-abstention baseline.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)は幻覚を与える:彼らはイメージがサポートしていない視覚的詳細を主張する。
原則化された治療法は、保証されたクレーム間の幻覚率が証明可能な有界となるように、そのクレームが根拠のないときに、分布のない各クレームを検証し、棄却することによる選択的な予測である。
しかし、この保証は残酷な価格で購入されている: バランスのとれたオブジェクト存在度ベンチマークで幻覚率を5\%以下に維持するためには、最先端のコンフォメーションフィルタは80\%以上の請求を棄却しなければならない。
我々は、より視覚的な証拠が安価に入手可能な場合、棄却は無駄であると主張し、予算的コンフォーマル証拠取得(BCEA)を導入し、二進的回答/確証決定を三方選択(回答、棄却、または追加的な視覚的証拠獲得)に置き換える。
私たちは2つの観察をします。
まず、キャリブレーションされたフィルターに間接的に接続された買収は、統計的な保証を破る -- 目標を最大17ドルポイント上回るリスクを実現する -- 取得ステップは、整合キャリブレーションが依存する交換性を破壊するためである。
第二に、取得ポリシー全体をスコア関数に折り畳み、獲得後のスコアであるemph{restores} に再分類し、カバー範囲を回復しながら有限サンプル保証を行う。
BCEAはさらに、構造化されたクレームタイプ固有の介入を使用する。
POPEベンチマークとCOCOが構築した存在と空間関係のクレームの4つのオープンなVLMにおいて、BCEAは目標レベルの幻覚率を制御し、保証された許容ベースラインのカバレッジを一貫して改善する。
関連論文リスト
- BALTO: Balanced Token-Level Policy Optimization for Hallucination Mitigation [51.22170603236523]
幻覚緩和のためのバランスドトークンレベルの政策最適化フレームワークを提案する。
BalTOはチェック可能な事実クレームを抽出し、参照コンテキストに対して検証し、トークンレベルのラベルに対するクレームレベルの判断をプロジェクトする。
ConFiQA、RAGTruth、FinLLM-Evalの実験では、BALTOは6つのモデルで最高の忠実さを達成している。
論文 参考訳(メタデータ) (2026-06-14T16:25:59Z) - P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization [55.74731799669337]
幻覚は近年、LVLM(Large Vision-Language Models)において大きな研究の注目を集めている。
直接選好最適化(DPO)は、人間が提供した修正選好から直接学習することを目的としている。
既存の選好ペアは視覚に依存しないことが多く、その本質的に非政治的な性質は、モデル学習を導く上での有効性を制限している。
本稿では、モデルが独自の選好ペアから生成し学習する新しい訓練パラダイムである知覚処理直接選好最適化(P$2$-DPO)を提案する。
論文 参考訳(メタデータ) (2026-06-02T09:22:53Z) - Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions [89.52532304099522]
フェデレートラーニング(FL)は、クライアントが生データを集中せずに共有モデルを共同でトレーニングすることを可能にし、固有のプライバシーレベルを提供する。
グラデーションとモデル更新は機密情報を漏洩する可能性があるが、悪意のあるサーバはビザンティン操作のような敵攻撃をマウントする可能性がある。
これらの脆弱性は、統合されたフレームワーク内の差分プライバシー(DP)とビザンチンの堅牢性に対処する必要性を強調している。
Byz-Clip21-SGD2Mを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:39:09Z) - Conformal Tradeoffs: Guarantees Beyond Coverage [0.02648566468224904]
配置されたコンフォーマル予測器は、有限操作ウィンドウ上で稼働する長期間の意思決定基盤である。
マージのカバレッジは、デプロイメントに直面する量を特定しません。
私たちは、範囲を超えて運用の認証と計画のためのフレームワークを提供しています。
論文 参考訳(メタデータ) (2026-02-20T07:58:25Z) - LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs [61.06744611795341]
医用視覚言語モデル(VLM)は医用画像の強力なゼロショット認識器である。
本研究では,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ(texttttextbfLATA,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ)を提案する。
texttttextbfLATAは交換性を損なうことなくゼロショット予測をシャープにする。
論文 参考訳(メタデータ) (2026-02-19T16:45:38Z) - Audit the Whisper: Detecting Steganographic Collusion in Multi-Agent LLMs [0.0]
Audit the Whisperは、理論、ベンチマーク設計、検出、検証にまたがるカンファレンスグレードの研究成果物である。
i) パラフレーズ, レート制限, 役割置換などの介入が, ペアリングしたKullback-Leibler診断によって定量的なペナルティの操作を課すことを示すチャネル容量分析を行った。
我々は、匿名化された再生スクリプト、匿名化されたマニフェスト、ドキュメントをリリースし、外部監査官がすべての図を再現し、二重盲検要件を満たし、最小限の努力でフレームワークを拡張します。
論文 参考訳(メタデータ) (2025-10-05T17:51:52Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。