論文の概要: AgentFinVQA: A Deployable Multi-Agent Pipeline for Auditable Financial Chart QA
- arxiv url: http://arxiv.org/abs/2606.19782v1
- Date: Thu, 18 Jun 2026 04:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.647826
- Title: AgentFinVQA: A Deployable Multi-Agent Pipeline for Auditable Financial Chart QA
- Title(参考訳): AgentFinVQA: 監査可能な財務チャートQAのためのデプロイ可能なマルチエージェントパイプライン
- Authors: Aravind Narayanan, Shaina Raza,
- Abstract要約: 我々はAgentFinVQAを提案する。AgentFinVQAはマルチエージェントパイプラインで、各クエリをプランニング、OCR、レジェンドグラウンド、ビジュアルインスペクション、検証に分解する。
FinMMEでは、AgentFinVQAはプロプライエタリなバックボーンを持つゼロショットベースラインにマッチするプライマリバックボーンよりも$+7.68$ ppを改善している。
誤り分析は、疑問の誤解、伝説の混乱、抽出誤りが失敗の3分の2近くを占めていることを示している。
- 参考スコア(独自算出の注目度): 7.135926644099901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial chart question answering in regulated settings demands more than accuracy: practitioners must know which answers to trust before acting on them, and many institutions cannot send client data to external model providers. Yet existing chart-QA agents are accuracy-focused and opaque, and most assume proprietary API access; to our knowledge, none combines auditability with on-premise deployability without significant accuracy compromise. We present AgentFinVQA, a multi-agent pipeline that decomposes each query into planning, OCR, legend grounding, visual inspection, and verification, recording every step in a traceable Model Evaluation Packet (MEP) per sample. On FinMME, AgentFinVQA improves $+7.68$ pp over a primary-backbone matched zero-shot baseline with a proprietary backbone (Gemini-3 Flash; 71.24% vs. 63.56%, McNemar $p \approx 1.1 \times 10^{-16}$), and $+4.84$ pp with open-weights Qwen3.6-27B-FP8 served locally. The verifier's verdict also serves as a useful confidence signal (68.2% vs. 55.6% exact accuracy on confirmed vs. revised answers), enabling human-in-the-loop review routing. Error analysis shows that question misunderstanding, legend confusion and extraction error account for nearly two-thirds of failures and are the categories least detected by the verifier, identifying clear directions for future work. Together these results show that auditable, on-premise financial chart QA is practical and that the open-weights system keeps most of the accuracy gains while enabling full data residency. We release our code to support reproducible evaluation.
- Abstract(参考訳): 規制された設定で答える財務チャートは、正確さ以上のものを要求する:実践者は、行動する前に信頼に対する答えを知る必要があり、多くの機関は、クライアントデータを外部モデルプロバイダに送信することはできない。
しかし、既存のチャートQAエージェントは正確性を重視しており、ほとんどの場合、プロプライエタリなAPIアクセスを前提としています。
我々は,各クエリを計画,OCR,伝説的グラウンド,視覚検査,検証に分解するマルチエージェントパイプラインであるAgentFinVQAについて,各ステップをトレーサブルモデル評価パケット(MEP)に記録する。
FinMMEでは、AgentFinVQAはプロプライエタリなバックボーンとゼロショットベースライン(Gemini-3 Flash; 71.24% vs. 63.56%、McNemar $p \approx 1.1 \times 10^{-16}$)と、オープンウェイトQwen3.6-27B-FP8を使用した$+4.84$ppを改良した。
検証者の判断はまた、有効な信頼信号として機能し(68.2%対55.6%の精度で確認された回答と修正された回答の正確性)、ループ内レビューのルーティングを可能にする。
誤り分析は,誤りの約3分の2が誤りの誤解,伝説の混乱,抽出誤りであり,検証者によって最も検出されにくいカテゴリーであり,今後の作業の明確な方向を特定することを示唆している。
これらの結果は、監査可能な、オンプレミスの財務チャートQAが実用的であり、オープンウェイトシステムは、全データの滞留を可能としつつ、ほとんどの精度を維持できることを示している。
再現可能な評価をサポートするためにコードをリリースします。
関連論文リスト
- FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search [88.16262636915975]
FineVerifyはエージェント検索のためのきめ細かい自己検証フレームワークである。
各質問をチェック可能なサブクエストに分解し、サンプル候補を検証し、最も高い集計スコアの候補を選択する。
FineVerifyは、標準のスケーリングベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-30T10:21:20Z) - Design and Evaluation of Multi-Agent AI Oracle Systems for Prediction Market Resolution [0.0]
予測市場は、不確実な出来事を予測するために集合的なインテリジェンスを集約する。
既存のオラクルシステムは、高速だが不安定な自動化と、正確だがコストのかかる人間の仲裁とをトレードオフする。
マルチエージェントLLMアーキテクチャが単一モデルベースラインよりもオラクル分解能を向上できるかどうかを評価する。
論文 参考訳(メタデータ) (2026-05-29T03:44:19Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents [0.7699235580548228]
LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:47:55Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - Mapping Smarter, Not Harder: A Test-Time Reinforcement Learning Agent That Improves Without Labels or Model Updates [1.6440434996206623]
Enterprise Intelligence Platformは多くのサードパーティベンダのログを統合する必要がある。
ベンダーのドキュメンテーションはテスト時に利用できないことが多い。
ラベル付き例を使わずに自己改善できる強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:17:00Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Applying Machine Learning for Duplicate Detection, Throttling and
Prioritization of Equipment Commissioning Audits at Fulfillment Network [1.933681537640272]
VQ(Vendor Qualification)とIOQ(Installation and Operation Qualification)監査は倉庫で実施され、すべての機器が品質基準を満たしている。
この作業では、自然言語処理と機械学習を使用して、倉庫のネットワーク用の大規模なチェックリストデータセットをトリムする。
論文 参考訳(メタデータ) (2022-09-28T20:40:32Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Unsupervised Evaluation for Question Answering with Transformers [46.16837670041594]
本稿では, トランスフォーマーに基づくQAアーキテクチャにおける質問, 回答, コンテキストの隠蔽表現について検討する。
回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。
私たちはモデルの解答が正解かどうかを、SQuADの91.37%、SubjQAの80.7%の精度で予測することができる。
論文 参考訳(メタデータ) (2020-10-07T07:03:30Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。