論文の概要: SAFE-Cascade: Cost-Adaptive Vision-Language Routing for Chart Question Answering
- arxiv url: http://arxiv.org/abs/2606.19646v1
- Date: Wed, 17 Jun 2026 23:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.574781
- Title: SAFE-Cascade: Cost-Adaptive Vision-Language Routing for Chart Question Answering
- Title(参考訳): SAFE-Cascade: チャート質問応答のためのコスト適応型ビジョンランゲージルーティング
- Authors: Ayush Dwivedi, Qixin Wang, Ashvi Soni, Ruoteng Wang, Han Li, Animesh Mahapatra, Neeraj Agrawal, Xintao Wu,
- Abstract要約: コスト適応型チャート質問応答のための対話型システムSAFE-Cascadeを実演する。
チャートイメージと自然言語の質問が与えられたとき、SAFE-CascadeはまずチャートテキストをOCRで抽出する。
テキストのみの言語モデルから仮回答を取得し、学習したルータを使用して、テキスト応答を受け入れるか、VLMにエスカレートするかを決定する。
- 参考スコア(独自算出の注目度): 16.639536340934715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are powerful for chart question answering, but invoking a VLM for every query can be unnecessarily expensive when many questions are answerable from OCR text and lightweight language reasoning. We demonstrate SAFE-Cascade, an interactive system for cost-adaptive chart question answering. Given a chart image and a natural-language question, SAFE-Cascade first extracts chart text with OCR, obtains a provisional answer from a text-only language model, and then uses a learned router to decide whether to accept the text answer or escalate to a VLM. The demo exposes this decision process to users: OCR evidence, text-only answer, routing probability, escalation decision, final answer, estimated cost, and estimated latency are shown side by side. SAFE-Cascade is designed as a transparent interface for understanding when visual grounding is actually needed. Users can upload or select charts, ask questions, inspect the evidence used by each pathway, compare text-only and VLM answers, and adjust the escalation threshold to explore the accuracy-cost frontier. The system is implemented with Azure Document Intelligence for OCR, gpt-5-mini as the text-only model, gemini-2.5-flash-image as the VLM, and a Random Forest router trained on inference-time features. On a held-out ChartQA test split of 375 examples from a 2,500-example experiment, SAFE-Cascade achieves 69.1% unified accuracy with 73.1% VLM invocation, compared with 67.7% accuracy and 100% VLM invocation for the full-VLM baseline. The observed +1.4 percentage-point difference is statistically uncertain, so we interpret SAFE-Cascade as matching full-VLM performance while reducing VLM calls by 26.9% and estimated cost by 9.3%. The demonstration shows how selective modality routing can make multimodal knowledge systems more transparent, tunable, and cost-aware.
- Abstract(参考訳): 視覚言語モデル(VLM)は、チャート質問応答には強力だが、多くの質問がOCRテキストや軽量言語推論から答えられる場合、全てのクエリに対してVLMを呼び出すことは不要にコストがかかる。
コスト適応型チャート質問応答のための対話型システムSAFE-Cascadeを実演する。
チャート画像と自然言語の質問が与えられたSAFE-Cascadeは、まずチャートテキストをOCRで抽出し、テキストのみの言語モデルから仮回答を取得し、学習ルータを使用して、テキスト応答を受け入れるか、VLMにエスカレートするかを決定する。
OCRエビデンス、テキストのみの回答、ルーティング確率、エスカレーション決定、最終回答、推定コスト、推定レイテンシが並べて表示される。
SAFE-Cascadeは、視覚的な接地が必要なときの理解のための透明なインターフェースとして設計されている。
ユーザはチャートをアップロードしたり選択したり、質問したり、各経路で使われているエビデンスを調べたり、テキストのみの回答とVLMの回答を比較したり、エスカレーションしきい値を調整することで、精度の高いフロンティアを探索することができる。
このシステムはAzure Document Intelligence for OCR、テキストのみのモデルとしてgpt-5-mini、VLMとしてgemini-2.5-flash-image、推論時間の特徴を訓練されたランダムフォレストルータで実装されている。
SAFE-Cascadeは、2500回の実験で375回のChartQAテストで69.1%の精度で73.1%のVLMを、67.7%の精度と100%のVLMをフルVLMベースラインで実行した。
観測された+1.4パーセンテージの差は統計的に不確実であるため、SAFE-CascadeはVLMの呼び出しを26.9%削減し、コストを9.3%削減する。
デモでは、選択的なモダリティルーティングによって、マルチモーダルな知識システムがより透明で、チューニング可能で、コストを意識できることを示す。
関連論文リスト
- Detect Before You Leap: Mirage Detection in Vision-Language Models [2.6212127510234797]
視覚言語モデル(VLM)は、必要な視覚的証拠が欠落している、空白である、あるいは疑問に無関係である場合でも、自信ある視覚的答えを生み出すことができる。
プレリリースミラージュ検出について検討し、画像探索ペアが与えられた場合、VLMが応答するかどうかを判定する。
本稿では,CLIP ViT-H/14ビジョンエンコーダのレイヤ間でパッチトケン表現を探索するモデル非依存手法であるテクストコンディション・レイヤワイド・インテリアアライメント(TC-LIA)を提案する。
論文 参考訳(メタデータ) (2026-05-29T23:51:35Z) - Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering [3.0028612998967894]
本稿では,マルチモーダル文書質問応答のための要求側取り込み戦略を提案する。
総括精度は、摂取VLMコストゼロで達成される。
また、インタラクティブな洗練とプログレッシブキャッシングをサポートし、「QA精度」問題を「ページローカライゼーション」問題に変換する。
論文 参考訳(メタデータ) (2026-02-15T14:23:50Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Right this way: Can VLMs Guide Us to See More to Answer Questions? [11.693356269848517]
質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
論文 参考訳(メタデータ) (2024-11-01T06:43:54Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。