論文の概要: OpenBioRQ: Unsolved Biomedical Research Questions for Agents
- arxiv url: http://arxiv.org/abs/2606.21959v1
- Date: Sat, 20 Jun 2026 09:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:32:47.634451
- Title: OpenBioRQ: Unsolved Biomedical Research Questions for Agents
- Title(参考訳): OpenBioRQ: エージェントのための未解決のバイオメディカル研究質問
- Authors: Minbyul Jeong,
- Abstract要約: 未解決のバイオメディカル研究のベンチマークであるtextopenbiorqを紹介します。
これはエージェント的な設定 -- モデルが複数のツールコールを発行しなければならない -- と、解答キーを持たない未解決の質問を組み合わせた最初のベンチマークである。
エージェントがツールの使用をやめる、最も難しい質問に対して、エージェントの崩壊を観察します。
- 参考スコア(独自算出の注目度): 2.3677513428867614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A working citation looks like proof -- but the fact that a link resolves does not mean the cited paper supports the claim. I find that current agentic models rarely fabricate citations (over $99\%$ resolve), yet roughly $15.9\%$ link to the wrong paper. Existing benchmarks miss this failure mode: when a question has a fixed answer key, a model can reproduce the expected source from that key rather than independently verifying that the source supports the claim. I introduce \textbf{\openbiorq{}}, a retrieval-grounded agentic benchmark of $12{,}553$ unsolved biomedical research questions across $12$ domains that treats open questions as a faithfulness-and-abstention probe. To my knowledge, this is the first biomedical benchmark to combine an agentic setting -- where the model must issue multiple tool calls -- with unsolved questions that have no answer key. Openness is verified against real follow-up evidence rather than a model's parametric knowledge. Difficulty is empirical: I anchor it on questions that three open-weight reference models fail to answer, rather than on subjective hardness labels. On this hardest subset, held-out models from the same lineage as the difficulty anchors solve only ~17%, while three independent frontier agents (Gemini-3-Pro, Opus-4.7, GPT-5.5) span a wide 29-60% range. The benchmark is thus hard, non-saturating (the best agent still leaves ~33-40\% unsolved), and discriminating across capability tiers. Beyond difficulty, I observe agentic collapse on the hardest questions, where agents stop using their tools. For the most collapse-prone model, blocking tool access entirely barely changes its score -- so tools stop paying off exactly where they are needed most. A frozen per-question checklist raises inter-judge agreement from Spearman 0.35 to 0.82.
- Abstract(参考訳): 作業中の引用は証明のように見えるが、リンクが解決したという事実は、引用された論文が主張を支持しているという意味ではない。
現在のエージェントモデルは、引用を滅多に作らない($99\%以上)が、おおよそ$15.9\%は間違った論文へのリンクである。
問題に固定された応答キーがある場合、モデルは、ソースがクレームをサポートすることを独立して検証するのではなく、そのキーから期待されるソースを再生することができる。
このベンチマークは、12ドル(約1万2000円)のドメインにまたがる未解決のバイオメディカル・リサーチの質問で、オープンな質問を忠実で控えめな調査として扱う。
私の知る限り、これはエージェント的な設定 -- モデルが複数のツールコールを発行しなければならない -- と、答えキーを持たない未解決の質問を組み合わせた最初のバイオメディカルベンチマークです。
開放性はモデルのパラメトリック知識よりも実際の追跡証拠に対して検証される。
3つのオープンウェイトな参照モデルは、主観的な硬さラベルではなく、答えに答えられません。
この最も難しいサブセットでは、難易度アンカーと同じ系統の保留モデルはわずか17%しか解決せず、3つの独立したフロンティアエージェント(Gemini-3-Pro, Opus-4.7, GPT-5.5)は29-60%の範囲にわたっている。
したがって、ベンチマークは困難で、飽和していない(最高のエージェントは、まだ解けていない ~33-40\% を残している)。
難易度を超えて、エージェントがツールの使用をやめる最も難しい質問に対して、エージェントの崩壊を観察します。
最も崩壊しやすいモデルでは、ブロッキングツールへのアクセスがスコアをほとんど変更しない。
フリーズ・パー・クエスト・チェックリストは、スピアマン 0.35 から 0.82 まで、ジャッジ間の合意を引き上げている。
関連論文リスト
- MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning [47.751319722749116]
textscMOCA-Agentは、フリーフォームのマルチエージェントの議論をクレームレベルの検証に置き換える、有望なコードエージェントである。
このシステムは、各質問をタイプされた原子的クレームに分解し、専門家のトレーダーにそれらのクレームの売買を依頼し、信頼度の高い受け入れ/拒絶決定へと命令をクリアする。
コード認識検証器は、実行、構造整合性、一般的な金銭的推論エラーのプログラムをチェックする。
論文 参考訳(メタデータ) (2026-06-10T00:45:39Z) - PBT-Bench: Benchmarking AI Agents on Property-Based Testing [29.035258104995204]
PBT-Benchは、40の実際のPythonライブラリにまたがる100のプロパティベースのテスト問題のベンチマークである。
各問題は1つ以上のセマンティックなバグ(総数365、平均3.65)を注入し、デフォルトのストラテジーなランダムな入力がほとんど起こらないように設計する。
PBT指導によるバグリコールは42.1%から83.4%の範囲で、オープンエンドベースラインでは31.4%から76.7%である。
論文 参考訳(メタデータ) (2026-05-13T18:01:05Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Mitigating False-Negative Contexts in Multi-document QuestionAnswering
with Retrieval Marginalization [29.797379277423143]
応答不能なクエリを適切に処理するset-valued検索の新しいパラメータ化を開発している。
トレーニング中にこの集合を限界化することで、モデルが注釈付き支持証拠の偽陰性を緩和できることを示す。
IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2021-03-22T23:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。