論文の概要: Building Agent Harnesses for Scientific Curation from Multimodal Sources
- arxiv url: http://arxiv.org/abs/2606.21005v1
- Date: Fri, 19 Jun 2026 00:36:34 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:20:00.126316
- Title: Building Agent Harnesses for Scientific Curation from Multimodal Sources
- Title(参考訳): マルチモーダルソースからの科学的キュレーションのための建築エージェントのハーネス
- Authors: Sheng Zhang, Qin Liu, Renqian Luo, Shufang Xie, Reuben Tan, Sean Hayes, Gregory Bryman, Wendong Ge, Roxy Zhang, Oluwaseun Egbelowo, Kelly Yee, Hoifung Poon,
- Abstract要約: 我々はマルチモーダルソースからの科学的キュレーションを研究し、科学論文から構造化情報を抽出するエージェントハーネスであるBeaverを紹介した。
我々は,Beaverがゴールドレコメンデーション・アトリビュート・スコア(GRAS)で81.0に達することを示す。
- 参考スコア(独自算出の注目度): 17.12384426105798
- License:
- Abstract: Scientific discovery workflows often depend on structured curation from the literature. This is difficult for current agents because the key evidence is scattered across long text, dense tables, and figures, and the final records often require reasoning across multiple evidence fragments rather than copying a single span. We study scientific curation from multimodal sources and introduce Beaver, an agent harness that extracts structured information from scientific papers while preserving provenance to the supporting evidence. Beaver combines a frontier agent with multimodal evidence tooling, task scaffolding, and artifact-grounded autoresearch. These components turn curation into a staged, auditable workflow and enable an iterative evaluate--diagnose--revise loop, where persistent run artifacts expose stage-localized failures and guide harness updates. Experiments show that Beaver reaches 81.0 on Gold-Referenced Attribute Score (GRAS), an attribute-level measure of agreement with gold curated records, outperforming frontier agents by over 23 absolute points. Ablations show that task scaffolding, multimodal evidence tooling, and provenance traces each contribute meaningfully to performance, while attribute-level analysis shows the largest gains on high-value attributes that require cross-modal reasoning and normalization. These results show that, for scientific curation from papers with multimodal evidence, harness design is a central determinant of agent performance.
- Abstract(参考訳): 科学的発見のワークフローは、しばしば文学からの構造化キュレーションに依存する。
これは、重要な証拠が長いテキスト、密集した表、数字に散らばっていて、最後の記録は、単一のスパンをコピーするのではなく、複数のエビデンスフラグメントをまたいで推論する必要があるため、現在のエージェントにとって難しい。
本研究は, マルチモーダルソースからの科学的キュレーションを研究対象とし, 科学的論文から構造化情報を抽出し, 裏付けとなる証拠の保存を行うエージェントハーネスであるBeaverを紹介する。
Beaverは、フロンティアエージェントとマルチモーダルエビデンスツール、タスクスキャフォールディング、アーティファクトグラウンドの自動検索を組み合わせたものだ。
これらのコンポーネントはキュレーションをステージ化して監査可能なワークフローに変換し、反復的な評価-診断-修正ループを可能にする。
実験の結果、ビーバーはゴールドレコメンデーション・アトリビュート・スコア(GRAS)で81.0に達した。
アブレーションは、タスクスキャフォールディング、マルチモーダルエビデンスツール、およびプロビタンストレースがそれぞれパフォーマンスに有意義に寄与していることを示し、属性レベルの分析は、クロスモーダル推論と正規化を必要とする高価値属性に対する最大の利益を示している。
これらの結果から,マルチモーダルなエビデンスを持つ論文からの科学的キュレーションにおいては,ハーネス設計がエージェント性能の中心的決定要因であることが示唆された。
関連論文リスト
- TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation [63.89818340842003]
TVIR (Text-Visual Interleaved Report Generation) は、100名の専門家によるマルチモーダルディープリサーチタスクのベンチマークである。
TVIR-Agentは階層的なマルチエージェントフレームワークで、アウトラインの構築と画像検索のための強力なベースラインとして機能する。
テキストアセスメントとビジュアルアセスメントを組み合わせたデュアルパスアセスメントフレームワークを開発した。
論文 参考訳(メタデータ) (2026-06-01T14:35:14Z) - Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation [74.0621258662676]
レポート生成のためのマルチエージェントハーネスであるPtahを提案する。
Ptahは計画、研究、執筆段階を通じて、ユーザクエリからレンダリングされたWebレポートまでのライフサイクルを編成する。
検証エージェントがハーネスの受け入れ機能として機能し、ワークフロー全体を通して事実的接地、引用の忠実性、相互の整合性を強制する。
論文 参考訳(メタデータ) (2026-05-28T12:40:34Z) - The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。
通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文 参考訳(メタデータ) (2026-04-27T16:23:09Z) - EpiBench: Benchmarking Multi-turn Research Workflows for Multimodal Agents [38.845762856105175]
簡単な研究をインスタンス化するエピソードなマルチターンベンチマークであるEpiBenchを紹介する。
調査タスクが与えられた場合、エージェントは複数のターンで論文をナビゲートし、数字や表から証拠を整理し、メモリに蓄積された証拠を使って客観的な疑問に答えなければならない。
実験の結果,主モデルの精度は29.23%程度であり,改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2026-04-07T07:58:55Z) - FlyAOC: Evaluating Agentic Ontology Curation of Drosophila Scientific Knowledge Bases [10.00386797940562]
本研究では,FlyBenchを用いて,エンドツーエンドのエージェントキュレーションにおけるAIエージェントの評価を行う。
遺伝子記号のみが与えられた場合、エージェントは構造化アノテーションを生成するために16,898のフルテキスト文書のコーパスを検索して読み込まなければならない。
このベンチマークには、FlyBaseから引き出された100の遺伝子にまたがる、専門家による7,397のアノテーションが含まれている。
論文 参考訳(メタデータ) (2026-02-09T20:12:38Z) - FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - Multimodal Fact-Checking: An Agent-based Approach [9.55806677152407]
実世界のマルチモーダルファクトチェックのための高品質で説明可能なデータセットであるRW-Postを紹介する。
RW-Postは、実世界のマルチモーダルなクレームと、そのクレームが作成されるリッチなコンテキスト情報を保存するオリジナルのソーシャルメディア投稿を整合させる。
RW-PostをベースとしたエージェントベースのマルチモーダルファクトチェックフレームワークであるAgentFactを提案する。
論文 参考訳(メタデータ) (2025-12-28T13:58:33Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。