論文の概要: CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework
- arxiv url: http://arxiv.org/abs/2606.18385v1
- Date: Tue, 16 Jun 2026 18:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.845112
- Title: CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework
- Title(参考訳): CaVe-VLM-CoT: 解釈可能な視覚言語モデルフレームワーク
- Authors: Sneha Rao, Shaina Raza, Dhanesh Ramachandram,
- Abstract要約: CaVe-VLM-CoTはモジュールリフレクションベースのエージェントRAGフレームワークである。
5段のクローズド・ループ・パイプラインを通したエビデンス・グラウンドの推論を強制する。
精度は87.1%、ScienceQAのCaVeScoreは56.6%である。
- 参考スコア(独自算出の注目度): 5.258441633992878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) remain prone to hallucinations, producing fluent but visually unfaithful outputs. Existing chain-of-thought and retrieval-augmented methods only partially address this, as they neither enforce step-level citation grounding nor route verification failures back to retrieval for correction. We present CaVe-VLM-CoT, a modular reflection-based agentic-RAG framework that enforces evidence-grounded reasoning through a five-stage closed-loop pipeline: Extractor, Retriever, Solver, Citation Injector, and Verifier, in which detected ungrounded claims trigger structured feedback to the Extractor for targeted re-retrieval. Since no existing framework jointly measures retrieval quality, step-wise citation faithfulness, and cross-modal grounding, we propose a suite of 23 component-wise metrics across all stages, anchored by CaVeScore, a composite metric weighting accuracy, citation precision and recall, attribution, and evidence grounding. Without any architectural or prompt modifications, CaVe-VLM-CoT achieves 87.1\% accuracy and 56.6\% CaVeScore on ScienceQA , and 55.2\% accuracy and 35.7\% CaVeScore on MMMU (30 subjects).
- Abstract(参考訳): VLM(Vision-Language Models)は幻覚の傾向が強く、流動的だが視覚的に不誠実な出力を生成する。
既存のチェーン・オブ・シンクと検索強化手法は、ステップレベルの引用グラウンドや経路検証の失敗を修正のための検索に戻すことなく、この問題に部分的に対処するだけである。
提案するCaVe-VLM-CoTは,5段階のクローズドループパイプライン(Extractor,Retriever,Solver,Citation Injector,Verifier)によるエビデンスグラウンド推論を実現するモジュールリフレクションベースのエージェントRAGフレームワークである。
既存のフレームワークでは, 検索品質, ステップワイドの引用忠実度, クロスモーダルのグラウンド化を共同で測定することができないため, CaVeScoreによって固定された23のコンポーネントワイドメトリックセット, 複合計量重み付け精度, 引用精度とリコール率, 帰属率, 帰属率, 証拠グラウンド化を提案する。
CaVe-VLM-CoTはScienceQAでは87.1\%、ScienceQAでは56.6\%、MMMUでは55.2\%、CaVeScoreでは35.7\%である。
関連論文リスト
- Gatekeepers and Hallucinations: A Layered Evaluation Framework for LLM-Driven Quantum Circuit Generation [0.0]
材料インフォームド変分量子固有解器(VQE)回路生成のための階層評価フレームワークを提案する。
5つの異なるLCM障害モード(幾何学幻覚、存在しないAPI使用、統合障害、制約違反、検証不可能な出力)を分類する。
評価プラットフォーム自身のソースコードの法医学的な監査により、サイレントフォールバック・テンプレート置換によって、ハーネスに2つの明らかなモデル障害が生じたことが確認された。
論文 参考訳(メタデータ) (2026-06-16T19:17:54Z) - Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis [0.0]
ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
論文 参考訳(メタデータ) (2026-04-12T20:22:23Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。