論文の概要: SciLens: Multi-modal Scientific Claim Verification with Agentic Entailment and Grounding
- arxiv url: http://arxiv.org/abs/2606.20873v1
- Date: Thu, 18 Jun 2026 19:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:22:06.405881
- Title: SciLens: Multi-modal Scientific Claim Verification with Agentic Entailment and Grounding
- Title(参考訳): SciLens: エージェント・エンターメントとグラウンドディングによるマルチモーダル・サイエンティフィック・クレームの検証
- Authors: Yueming Wang, Tianshi Zheng, Jiaxin Bai, Yangqiu Song, Ginny Wong, Simon See,
- Abstract要約: SciLensは、マルチモーダルな科学的クレーム検証のためのエビデンス条件の原子包含フレームワークである。
SciLensは、それぞれの主張を中央の経験的原子と背景の原子に分解し、中央の原子をモダリティ固有の証拠として根拠付け、最終的なラベルを予測する。
表では、原子は行、列、セル、算術関係、テーブルスコープに接地され、図ではパネル、軸、伝説、視覚的エンコーディング、カテゴリー、傾向、ランク、等式チェックによって接地される。
- 参考スコア(独自算出の注目度): 63.71245376513854
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scientific discovery increasingly relies on automated systems that generate hypotheses, inspect multimodal evidence, and validate claims at scale. Yet scientific claim verification is not well served by asking a vision-language model for a direct binary judgment: claims often combine numerical results, comparisons, scope qualifiers, and explanatory context, while evidence is encoded in tables and figures with distinct grounding structures. We present SciLens, an evidence-conditioned atomic entailment framework for multimodal scientific claim verification. SciLens decomposes each claim into central empirical atoms and background atoms, grounds the central atoms to modality-specific evidence witnesses, and predicts the final label with an atom-level entailment rule. For tables, atoms are grounded to rows, columns, cells, arithmetic relations, and table scope; for figures, they are grounded through panels, axes, legends, visual encodings, categories, trends, ranks, and qualifier checks. This yields a unified validation procedure in which a claim is supported only if every central empirical atom is entailed by the current evidence. On the SciClaimEval development set, SciLens achieves 79.2% macro-F1 and 63.1% pair accuracy, showing that structured agentic validation improves both evidence sensitivity and interpretability.
- Abstract(参考訳): 科学的発見は、仮説を生成し、マルチモーダルな証拠を検査し、大規模に主張を検証する自動化システムにますます依存している。
しかし、科学的なクレーム検証は、直接二項判定のために視覚言語モデルを求めることでうまく機能しない:クレームは、数値結果、比較、スコープ等化器、説明的文脈を組み合わせ、エビデンスは、異なる基底構造を持つ表や図形にエンコードされる。
SciLensは、マルチモーダルな科学的クレーム検証のためのエビデンス条件の原子包含フレームワークである。
SciLensは各クレームを中央の経験的原子と背景の原子に分解し、中央の原子をモダリティに比例した証拠の証拠とし、最終ラベルを原子レベルの包含規則で予測する。
表では、原子は行、列、セル、算術関係、テーブルスコープに接地され、図ではパネル、軸、伝説、視覚的エンコーディング、カテゴリー、傾向、ランク、等式チェックによって接地される。
これにより、すべての中心的な経験的原子が現在の証拠に関連付けられている場合にのみ、クレームが支持される統一された検証手順が得られる。
SciClaimEvalの開発セットでは、SciLensは79.2%のマクロF1と63.1%のペアの精度を達成した。
関連論文リスト
- Uncertainty-Aware Web-Conditioned Scientific Fact-Checking [7.158918759352649]
本稿では,原子式述語・代名詞分解と校正・不確かさを主軸としたパイプラインについて述べる。
原子事実は、コンパクトなエビデンスグラウンドチェッカーによって検証された埋め込みを通じて、局所的なスニペットに整列される。
システムは二値分類と三値分類の両方をサポートし、三方向タスクのラベルをSupported, Refuted, NEIから予測する。
論文 参考訳(メタデータ) (2026-04-13T06:01:20Z) - What Do Claim Verification Datasets Actually Test? A Reasoning Trace Analysis [34.429649156970015]
GPT-4o-miniを用いて24Kクレーム検証例の構造化推論トレースを生成する。
直接的エビデンス抽出が支配的であるのに対し,多文合成と数値推論は極めて不十分である。
論文 参考訳(メタデータ) (2026-04-02T05:54:51Z) - CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - RIGOURATE: Quantifying Scientific Exaggeration with Evidence-Aligned Claim Evaluation [29.44948404858214]
RIGOURATEは、紙の本体から証拠を回収し、各クレームにオーバーステートメントスコアを割り当てる。
このフレームワークは、ICLRとNeurIPSの論文から10K以上のクレームエビデンスセットのデータセットで構成されている。
論文 参考訳(メタデータ) (2026-01-07T19:36:08Z) - Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。
認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文 参考訳(メタデータ) (2025-06-08T02:46:22Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。
科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。
また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文 参考訳(メタデータ) (2022-03-24T11:29:20Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。