論文の概要: AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning
- arxiv url: http://arxiv.org/abs/2606.24526v1
- Date: Tue, 23 Jun 2026 12:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.960962
- Title: AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning
- Title(参考訳): AGORA: エージェントワークプレースドキュメント推論のためのアーカイブ付きベンチマーク
- Authors: Honglin Guo, Qi Zhang, Yu Zhang, Weijie Li, Rui Zheng, Zhikai Lei, Qiyuan Peng, Zhiheng Xi, Tao Gui, Qi Zhang,
- Abstract要約: 大規模言語モデルは、パラメトリックな知識から答えるのではなく、文書を推論するエージェントとして、ますます多くデプロイされている。
大規模な、散らかった職場ファイルの集合にスパース証拠を配置し、一貫性のない用語、単位、時間規則を調整し、答えを計算する。
私たちは、362の質問と9,664の認証ドキュメントと372Mのトークンの8つのドメインコレクションをペアリングするベンチマークであるAgoraを紹介します。
- 参考スコア(独自算出の注目度): 52.23991730630292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly deployed as agents that reason over documents rather than answer from parametric knowledge. We study archive-grounded reasoning: locating sparse evidence across a large, messy collection of workplace files, reconciling inconsistent terminology, units, and time conventions, and computing an answer. Existing benchmarks address only parts of this setting and none jointly stresses archive-groundedness, agentic exploration, and cross-domain coverage. We introduce Agora, a benchmark pairing 362 questions with eight domain collections of 9,664 authentic documents and 372M tokens, far exceeding any model's context window, so agents must explore deliberately rather than scan exhaustively. Agora is built by an agentic pipeline combining cross-document task synthesis, leakage-preventing obfuscation, and difficulty filtering. Evaluating eight models, we find the task far from solved: even the strongest reaches only 59.4% accuracy, with notable variation across domains.
- Abstract(参考訳): 大規模言語モデルは、パラメトリックな知識から答えるのではなく、文書を推論するエージェントとして、ますます多くデプロイされている。
大規模な、散らかった職場ファイルの集合にスパース証拠を配置し、一貫性のない用語、単位、時間規則を調整し、答えを計算する。
既存のベンチマークはこの設定の一部にのみ対応しており、アーカイブ・グラウンドドネス、エージェント探索、クロスドメインカバレッジを共同で強調するものではない。
私たちは、362の質問に9,664の認証ドキュメントと372万のトークンの8つのドメインコレクションをペアリングするベンチマークであるAgoraを紹介します。
Agoraは、クロスドキュメントタスク合成、リーク防止難読化、フィルタリングの難しさを組み合わせたエージェントパイプラインによって構築されている。
最強のモデルでさえ59.4%の精度しか得られず、ドメインごとに顕著な違いがある。
関連論文リスト
- Towards Retrieving Interaction Spaces for Agentic Search [62.666902610940525]
最近の直接コーパス(DCI)の研究は、エージェントが5.4のインタラクションやファイル読み取りといったシェルツールを通じて生コーパスと対話できることを示している。
エージェント検索における検索の役割は, LLMコンテキストウィンドウに適合する文書を選択することだけではなく, インタラクション空間を構築することにある。
論文 参考訳(メタデータ) (2026-06-05T03:47:40Z) - MARDoc: A Memory-Aware Refinement Agent Framework for Multimodal Long Document QA [23.25080415779712]
本稿では,長期文書QAを3つの特殊エージェントに分解するメモリ・アウェア・リファインメント・エージェント・フレームワークを提案する。
イテレーションを通じてエージェントは、完全に蓄積されたインタラクション履歴ではなく、動的に更新された構造化メモリに依存する。
MMLongBench-DocとDocBenchの実験により、MARDocは、同じバックボーンベースラインよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2026-06-04T06:23:01Z) - Self-Conditioned Positional HNSW for Overlap-Aware Retrieval in Chunked-Document RAG Systems: Method and Industrial Evidence-Quality Audit [0.0]
チャンク文書検索は、検索拡張生成システム(RAG)の一般的なコンポーネントである。
本稿では,低次元の位置符号をチャンク埋め込みに付加する軽量な修正法であるSelf-Conditioned Positional HNSWを提案する。
論文 参考訳(メタデータ) (2026-06-01T01:42:55Z) - REVEAL: Reference-Grounded Reasoning for Multimodal Manipulation Detection [33.33464433821003]
マルチモーダル操作検出は、偽画像のペアを同時に識別し、改ざんした領域をローカライズすることを目的としている。
人間の比較推論に触発されて、我々はこのタスクを基準基底検証問題として再検討する。
本稿では,この比較パラダイム用に明示的に設計されたフレームワークであるREVEALを提案する。
論文 参考訳(メタデータ) (2026-05-27T13:24:41Z) - OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries [20.960193343595492]
OBLIQ-Benchは、本物のロングテールコーパスに対する5つの斜め探索問題のスイートである。
OBLIQ-Benchは、検索と検証の間に見落とされた非対称性を公開する。
我々はOBLIQ-Benchが、大規模コーパスにおける潜在パターンや暗黙の信号を効率的にキャプチャする検索アーキテクチャの研究を進めることを願っている。
論文 参考訳(メタデータ) (2026-05-07T13:22:49Z) - SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation [0.0]
SPD-RAG(SPD-RAG)は,クロスドキュメントな質問応答のための階層型マルチエージェントフレームワークである。
各文書は、自身のコンテンツのみで動作する専用文書レベルエージェントによって処理され、集中した検索が可能となる。
SPD-RAGは58.1(GPT-5評価)のAvgスコアを達成し、正規RAG(3.0)とエージェントRAG(32.8)を上回り、フルコンテキストベースライン(68.0)のAPIコストの38%しか使用していない。
論文 参考訳(メタデータ) (2026-03-09T12:46:32Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。