論文の概要: BioDivergence: A Benchmark and Evaluation Framework for Hidden Contextual Contradictions in Biomedical Abstracts
- arxiv url: http://arxiv.org/abs/2606.11208v1
- Date: Thu, 23 Apr 2026 20:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.835651
- Title: BioDivergence: A Benchmark and Evaluation Framework for Hidden Contextual Contradictions in Biomedical Abstracts
- Title(参考訳): BioDivergence: バイオメディカル抽象化におけるコンテキストコントラクテーションのベンチマークと評価フレームワーク
- Authors: Elias Hossain, Sanjeda Sara Jennifer, Sabera Akter Bushra, Niloofar Yousefi,
- Abstract要約: BioDivergenceは、6級の紛争分類、13軸の分岐オントロジー、およびクレームペアごとに4つの構造化されたアウトプットを持つ評価フレームワークである。
我々は、5つの生物医学領域にまたがる11,865のクレーム対からなる、論文に相反する銀のベンチマークであるBioDivergence-Silver-v1.0をリリースする。
- 参考スコア(独自算出の注目度): 1.7654901762480486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical findings often seem to conflict across studies, but many of these differences are context-dependent rather than true contradictions. Variations in cohort, geography, assay protocol, disease subtype, and clinical setting can make both claims locally valid. Existing NLI and scientific claim-verification benchmarks reduce such cases to entailment, contradiction, or neutral, failing to capture the contextual structure behind divergence. To address this, we introduce BioDivergence, an evaluation framework with a six-class conflict taxonomy, a 13-axis divergence ontology, and four structured outputs per claim pair: conflict type, divergence axes, dominant confounder, and reconciliation explanation. We release BioDivergence-Silver-v1.0, an article-disjoint silver benchmark of 11,865 claim pairs across five biomedical domains, alongside a legacy deduplicated variant for comparison. Results show notable ranking differences between the two variants, with the fine-tuned reference model dropping about 12 points under the article-disjoint setting, while Mistral-7B-Instruct-v0.3 achieves 0.5523 accuracy and 0.3894 contextual-F1 on the 842-example primary test set. BioDivergence offers a more faithful way to distinguish contextual divergence from direct contradiction and to separate article-level memorization from genuine task learning.
- Abstract(参考訳): 医学的な発見は、しばしば研究間で矛盾しているように見えるが、これらの違いの多くは、真の矛盾よりも文脈に依存している。
コホート、地理、アッセイプロトコル、病気のサブタイプ、臨床設定のバリエーションは、両方の主張を局所的に有効にすることができる。
既存のNLIおよび科学的クレーム検証ベンチマークは、そのようなケースを包含、矛盾、中立に還元し、発散の背後にある文脈構造を捉えない。
そこで本研究では,6階層のコンフリクト分類,13軸の分散オントロジー,クレームペアあたりの4つの構造的アウトプット(コンフリクトタイプ,分散軸,支配的共同設立者,和解説明)を備えた評価フレームワークであるBioDivergenceを紹介する。
我々は5つの生物医学領域にまたがる11,865のクレーム対の論文非結合な銀のベンチマークであるBioDivergence-Silver-v1.0と、従来の非重複変種を比較した。
Mistral-7B-Instruct-v0.3 は 842-example のプライマリテストセットで 0.5523 の精度と 0.3894 のコンテキスト-F1 を達成している。
BioDivergenceは、コンテキストの相違を直接的な矛盾と区別し、記事レベルの記憶を真のタスク学習と区別する、より忠実な方法を提供する。
関連論文リスト
- Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates [11.185598864391103]
本稿では,関係するサブグループ間の差異を考慮に入れた条件付き仮説生成手法を提案する。
2つの課題が生じる: 対象部分群は不足し、差の向きは部分群をまたいで逆になる。
本稿では,符号逆転を検出するための2つのエコノメトリインスパイア法を提案する。
論文 参考訳(メタデータ) (2026-06-02T02:07:46Z) - When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering [2.6393907656700706]
HealthContradictを用いて、5つの制御された証拠条件下で6つのオープンウェイト大言語モデル(LLM)を評価する。
その結果, バイオメディカルな証拠の相反は不確実性と堅牢性の両方の問題であることが示唆された。
論文 参考訳(メタデータ) (2026-05-13T21:02:24Z) - Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models [8.86745721473138]
固形臓器移植のための患者教育材料は、米国中央で大きく異なる。
検索強化言語モデルを用いて,異なるセンターのハンドブックに同一の患者質問を根拠とする枠組みを導入する。
20.8%の非存在対比較が臨床的に有意な相違を示すことが判明した。
論文 参考訳(メタデータ) (2026-03-23T00:42:40Z) - BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models [7.8780007697387235]
本稿では,新たに公開されたバイオメディカル文書からの質問に答える上で,大規模言語モデル(LLM)を評価するベンチマークであるBioPulse-QAを紹介する。
GPT-o1, GPT-o1, Gemini-2.0-Flash, LLaMA-3.1 8B の4つの LLM の評価を行った。
論文 参考訳(メタデータ) (2026-01-19T00:38:33Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Revisiting Adaptive Cellular Recognition Under Domain Shifts: A Contextual Correspondence View [49.03501451546763]
生物学的文脈における暗黙の対応の重要性を明らかにする。
モデル構成成分間のインスタンス認識トレードオフを確保するために, 自己適応型動的蒸留を提案する。
論文 参考訳(メタデータ) (2024-07-14T04:41:16Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Neural sentence embedding models for semantic similarity estimation in
the biomedical domain [6.325814141416726]
PubMed Open Accessデータセットから170万の記事に対して、さまざまなニューラル埋め込みモデルをトレーニングしました。
人手による注釈付き100の文対を含むバイオメディカル・ベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2021-10-01T13:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。