論文の概要: EvidenceLens: A Claim-Evidence Matrix for Auditing Financial Question Answering
- arxiv url: http://arxiv.org/abs/2606.23724v1
- Date: Fri, 19 Jun 2026 06:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.569058
- Title: EvidenceLens: A Claim-Evidence Matrix for Auditing Financial Question Answering
- Title(参考訳): EvidenceLens: 財務質問に対する回答を監査するためのクレーム・エビデンス・マトリックス
- Authors: Fengchen Gu, Xiaotian Ren, Zhengyong Jiang, Zhilu Zhang, Ángel F. García-Fernández, Angelos Stefanidis, Mian Zhou, Huakang Li, Jionglong Su,
- Abstract要約: EvidenceLensは、財務的質問応答をクレーム・エビデンスアライメント問題として扱うビジュアル分析のプロトタイプである。
システムは、答えを原子的クレームに分解し、サポート構成と信頼、サポートギャップ、クレームレベルのインスペクションをコーディネートする。
- 参考スコア(独自算出の注目度): 6.652483528217501
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models are increasingly used to answer questions over annual reports, earnings decks, and analyst notes, yet their outputs remain difficult to verify in high-stakes financial workflows. A fluent answer can blend directly grounded statements, weak synthesis, and unsupported claims across narrative text, tables, and charts. We present EvidenceLens, a visual analytics prototype that treats financial question answering as a claim-evidence alignment problem. The system decomposes an answer into atomic claims, summarizes support composition and confidence, support gaps, and coordinates claim-level inspection with source passages, table cells, and chart regions. Its core visual representation is a multimodal claim-evidence matrix that makes coverage, contradiction, and modality imbalance immediately visible. To support reproducibility, we also specify a JSON-based artifact schema, a lightweight multimodal alignment pipeline, and a deterministic review-priority ranking that maps backend signals into an auditable visual structure. Through representative report-auditing scenarios, we show how EvidenceLens helps analysts distinguish grounded claims from overconfident synthesis that conventional chat interfaces flatten.
- Abstract(参考訳): 大規模な言語モデルは、年次報告書や決算表、アナリストのメモなどに対する疑問に答えるのにますます使われているが、そのアウトプットは、高額な財務ワークフローで検証することが難しいままである。
流動的な答えは、直接接地された文、弱い合成、そして物語のテキスト、表、チャート間で支持できないクレームをブレンドすることができる。
EvidenceLensは、財務的質問応答をクレーム・エビデンスアライメント問題として扱うビジュアル分析のプロトタイプである。
このシステムは、回答を原子的クレームに分解し、サポート構成と信頼性、サポートギャップを要約し、クレームレベルのインスペクションをソースパス、テーブルセル、チャート領域と調整する。
その中心となる視覚表現は多モードのクレームエビデンス行列であり、カバレッジ、矛盾、モダリティの不均衡をすぐに見えるようにしている。
再現性をサポートするために、JSONベースのアーティファクトスキーマ、軽量なマルチモーダルアライメントパイプライン、バックエンド信号を監査可能な視覚構造にマッピングする決定論的レビュープライオリティランキングも定義しています。
代表的なレポート監査シナリオを通じて,従来のチャットインタフェースがフラット化している過信的な合成から,アナリストが根拠となる主張を区別する上で,EvidenceLensがいかに役立つかを示す。
関連論文リスト
- Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation [74.0621258662676]
レポート生成のためのマルチエージェントハーネスであるPtahを提案する。
Ptahは計画、研究、執筆段階を通じて、ユーザクエリからレンダリングされたWebレポートまでのライフサイクルを編成する。
検証エージェントがハーネスの受け入れ機能として機能し、ワークフロー全体を通して事実的接地、引用の忠実性、相互の整合性を強制する。
論文 参考訳(メタデータ) (2026-05-28T12:40:34Z) - VISTAQA: Benchmarking Joint Visual Question Answering and Pixel-Level Evidence [26.0945130521806]
既存のベンチマークでは、テキストによる回答の正当性または画素レベルのローカライゼーションを分離して評価している。
本稿では,視覚的質問応答に基づく自由形式の回答正当性と画素レベルの証拠を共同評価するためのベンチマークであるVISTAQAを紹介する。
GROVEは, テキストの精度と接地品質を, サンプルごとの幾何平均で組み合わせることで, 関節の正しさを強制する指標である。
論文 参考訳(メタデータ) (2026-05-20T03:44:06Z) - DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA [56.73431446011309]
ダイアグラム質問応答(ダイアグラムQA)は、各問合せ対を答えを導き出すために必要なすべての視覚領域にリンクする推論レベルの属性を必要とする。
私たちは、データセット固有の構造からインターフェースロジックを分離する軽量でスキーマ駆動のレビューフレームワークであるDIAGRAMSを紹介します。
論文 参考訳(メタデータ) (2026-04-29T02:34:51Z) - Is a Picture Worth a Thousand Words? Adaptive Multimodal Fact-Checking with Visual Evidence Necessity [7.793738133162104]
AMuFCは、視覚的エビデンスを適応的に利用するために2つの協調エージェントを使用するマルチモーダルなファクトチェックフレームワークである。
解析器の視覚的エビデンス評価を検証器の予測に組み込むことで,検証性能が大幅に向上することを示す。
すべてのコードに加えて、より現実的なシナリオでファクトチェックモジュールを評価するために新たに構築されたデータセットであるWebFCもリリースします。
論文 参考訳(メタデータ) (2026-04-06T14:01:38Z) - FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification [57.196748998757954]
本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。
FactReviewは論文を提出すると、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能であれば、リリースされたリポジトリを実行する。
その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
論文 参考訳(メタデータ) (2026-04-05T11:45:22Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - Multimodal Fact Checking with Unified Visual, Textual, and Contextual Representations [2.139909491081949]
我々は"MultiCheck"と呼ばれる微細なマルチモーダル事実検証のための統一的なフレームワークを提案する。
我々のアーキテクチャは、テキストと画像のための専用エンコーダと、要素間相互作用を用いた相互関係をキャプチャする融合モジュールを組み合わせる。
我々はFactify 2データセットに対する我々のアプローチを評価し、F1の重み付けスコア0.84を達成し、ベースラインを大幅に上回った。
論文 参考訳(メタデータ) (2025-08-07T07:36:53Z) - AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web [23.161242154397936]
1,297個の実世界の画像テキストクレームからなるデータセットであるAVerImaTeCを紹介する。
各クレームには、ウェブからの証拠を含む質問と回答のペアが注釈付けされている。
我々は、文脈依存、時間リーク、証拠不足などの事実チェックデータセットにおける課題を軽減する。
論文 参考訳(メタデータ) (2025-05-23T14:45:48Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。