論文の概要: Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus
- arxiv url: http://arxiv.org/abs/2606.15345v1
- Date: Sat, 13 Jun 2026 15:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.375044
- Title: Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus
- Title(参考訳): モノリンガルディープリサーチを超えて:クロスリンガルBrowseComp-Plusを用いたエージェントとリトリーバーの評価
- Authors: Yuheng Lu, Qingcheng Zeng, Heli Qi, Puxuan Yu, Fuheng Zhao, Rui Yang, Hitomi Yanaka, Naoto Yokoya, Weihao Xuan,
- Abstract要約: XBCP (Cross-lingual BrowseComp-Plus) は、BrowseComp-Plusの英語の問合せ空間を保存するが、支援文書の言語は異なる制御されたベンチマークである。
XBCPは2つの補完的な設定をインスタンス化します。
我々は,スパースと高密度多言語検索を用いて,回答精度,エビデンスリコール,探索行動,キャリブレーション,引用忠実度,オラクル検索の4つのディープリサーチエージェントを評価した。
- 参考スコア(独自算出の注目度): 35.39357302837359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research agents are increasingly evaluated on their ability to search for evidence, reason over retrieved sources, and produce grounded answers. Existing browsing benchmarks, however, largely assume that the user's query and the supporting evidence are written in the same language, leaving open whether agentic search systems can operate when relevant evidence appears in another language. We introduce XBCP (Cross-lingual BrowseComp-Plus), a controlled benchmark that preserves the English question-and-answer space of BrowseComp-Plus but varies the languages of the supporting documents. XBCP instantiates two complementary settings: in the cross-lingual setting, each query is paired with evidence in a single assigned language. In the multilingual setting, the full evidence corpus is distributed equally and randomly across 12 languages spanning high-resource and low-resource regimes. We evaluate four deep research agents using sparse and dense multilingual retrievers, measuring answer accuracy, evidence recall, search behavior, calibration, citation fidelity, and oracle retrieval. Results reveal substantial degradation when evidence is translated. Even strong, dense retrievers lose evidence recall, and agents become less calibrated and cite evidence less reliably. Notably, accuracy remains lower even when all gold evidence is supplied directly. These findings suggest that cross-lingual deep research exposes both retrieval failures and an independent, agent-side difficulty in integrating language-mismatched evidence.
- Abstract(参考訳): ディープ・リサーチ・エージェントは、証拠を検索し、検索した情報源を推論し、根拠を得た回答を生成する能力について、ますます評価されている。
しかし、既存のベンチマークでは、ユーザのクエリとサポートされたエビデンスが同じ言語で書かれており、他の言語に関連のあるエビデンスが存在する場合、エージェント検索システムが動作可能かどうかを未確認のままにしている。
我々は,BrowseComp-Plusの英語問合せ空間を保存するが,支援文書の言語は異なる制御ベンチマークであるXBCP(Cross-lingual BrowseComp-Plus)を紹介する。
XBCPは2つの補完的な設定をインスタンス化します。
多言語設定では、全エビデンスコーパスは、高リソースと低リソースのレギュレーションにまたがる12言語に均等にランダムに分散される。
我々は,スパースと高密度多言語検索を用いて,回答精度,エビデンスリコール,探索行動,キャリブレーション,引用忠実度,オラクル検索の4つのディープリサーチエージェントを評価した。
結果は、証拠が翻訳されると著しく悪化する。
さらに強固で密集したレトリバーは証拠のリコールを失い、エージェントは校正を減らし、証拠を確実に引用する。
特に、すべての金の証拠が直接供給された場合でも、精度は低いままである。
これらの結果から,言語間の深い研究は,検索の失敗と,言語ミスマッチした証拠の統合における独立したエージェント側の難しさの両方を露呈していることが示唆された。
関連論文リスト
- The Multilingual Curse at the Retrieval Layer: Evidence from Amharic [49.25758237235551]
マルチリンガルベンチマークの強いゼロショットスコアは、現在のエンコーダが多くの言語で確実に転送される証拠としてしばしば考えられている。
この仮定は、表現が不十分で形態学的にリッチな言語に当てはまると我々は主張する。
我々は,ゼロショット多言語レトリバー,アンハリック細調整多言語レトリバー,単言語多言語レトリバーを比較した。
論文 参考訳(メタデータ) (2026-05-23T12:44:30Z) - All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG [87.74635133954975]
現在のマルチ言語検索・拡張生成システム(mRAG)は,再ランク付け時に言語バイアスに悩まされていることを示す。
textittextbfLanguage-textbfAgnostic textbfUtility-driven textbfReranker textbfAlignment (LAURA)を提案する。
論文 参考訳(メタデータ) (2026-04-22T05:33:06Z) - Litmus (Re)Agent: A Benchmark and Agentic System for Predictive Evaluation of Multilingual Models [18.040787413825793]
6つのタスクと5つのエビデンスシナリオにまたがる1500の質問のベンチマークを導入する。
このベンチマークは、アクセス可能な証拠を根拠の真理から切り離し、不完全な文献証拠から欠落した結果を推測しなければならないシステムの評価を可能にする。
また,DAGをベースとしたエージェントシステムであるLitmus (Re)Agentについても,クエリを仮説に分解し,エビデンスを取得し,特徴認識アグリゲーションを通じて予測を合成する。
論文 参考訳(メタデータ) (2026-04-10T05:16:33Z) - Investigating Language and Retrieval Bias in Multilingual Previously Fact-Checked Claim Detection [4.6738956348193]
大きな言語モデル(LLM)は言語間ファクトチェックに強力な機能を提供する。
LLMは、しばしば言語バイアスを示し、英語のような高リソース言語で不公平に優れた性能を発揮する。
我々は,情報検索システムが他者よりも特定の情報を好む傾向にある場合,検索バイアスという新しい概念を提示し,検証する。
論文 参考訳(メタデータ) (2025-09-29T17:50:32Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
検索したウィキペディア文書と組み合わせた領土紛争のデータセットであるBordIRLinesを49言語で紹介する。
我々は多言語検索のための複数のモードを定式化することにより、このRAG設定の言語間ロバスト性を評価する。
実験の結果,多様な言語からの視点を取り入れることで,ロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Give Me More Details: Improving Fact-Checking with Latent Retrieval [58.706972228039604]
証拠は、自動化された事実チェックにおいて重要な役割を果たす。
既存のファクトチェックシステムは、エビデンス文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。
資料から得られた全文を証拠として組み込んで,2つの豊富なデータセットを導入することを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:01:19Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval [4.4973334555746]
低リソース言語(LRL)における解答に対する既存の解答法は、英語に大きく遅れた。
文書検索を回避し、英語から低リソース言語への知識の確実に転送する、より現実的なタスクセットアップを利用可能なリソースに策定します。
このタスク設定内では、リランク付き英語学習セットに対する意味的類似性検索に類似した、Reranked Maximal Internal Product Search (RM-MIPS)を提案する。
論文 参考訳(メタデータ) (2020-12-28T04:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。