Fugu-MT 論文翻訳(概要): LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake

論文の概要: LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake

arxiv url: http://arxiv.org/abs/2606.10460v1
Date: Tue, 09 Jun 2026 06:15:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.347606
Title: LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake
Title（参考訳）: LakeQA: 数百万規模のデータレイクに関する調査的なQAベンチマーク
Authors: Haonan Wang, Jiaxiang Liu, Yurong Liu, Austin Senna Wijaya, Tianle Zhou, Eden Wu, Yijia Chen, Wanting You, Reya Vir, Daniela Pinto, Grace Fan, Yusen Zhang, Juliana Freire, Eugene Wu,
Abstract要約: データレイクに対する検索中心質問応答のベンチマークであるLakeQAを紹介する。 LakeQAはウィキペディアとオープンソースの政府データから約9.5TBのテキストリソースの異種コレクション上に構築されている。例えば、GPT-5.2はレイクQAで18.37%の正確なマッチスコアしか達成していない。
参考スコア（独自算出の注目度）: 22.40754170625223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent large language models (LLMs) have shown rapid progress in reading-based question answering (QA), where evidence is explicitly provided or can be trivially retrieved. In contrast, real-world questions are often not paired with accurate evidence documents. The useful evidence resides in massive data lakes, making search a prerequisite for answering. However, there is a lack of comprehensive benchmarks that require both searching and reasoning over large data lakes. To this end, we introduce LakeQA, a comprehensive benchmark for search-centric question answering over data lakes that jointly emphasizes searching and reasoning capabilities. LakeQA is built on a heterogeneous collection of approximately 9.5 TB of text resources from Wikipedia and open-source government data, spanning structured and unstructured data. To ensure task quality, each sample is annotated by at least one Ph.D.-level expert. Each task requires long-horizon multi-hop reasoning with implicit intermediate steps: agents need to discover the correct documents and then compose evidence across sources to produce the answer. Experimental results on seven frontier LLMs demonstrate that LakeQA is challenging. For instance, GPT-5.2 achieves only an exact-match score of 18.37% on LakeQA. Overall, LakeQA provides a realistic testbed for developing LLM agents that can both find and analyze data in modern data lakes.
Abstract（参考訳）: 近年の大規模言語モデル (LLM) では, 証拠が明示的に提供されたり, 自明に検索できる, 読解に基づく質問応答 (QA) が急速に進展している。対照的に、現実世界の質問は、しばしば正確な証拠文書と組み合わせられません。有用な証拠は大量のデータレイクに存在し、検索が答える前提条件となっている。しかし、大規模なデータレイクの検索と推論の両方を必要とする包括的なベンチマークが欠如している。この目的のために、検索と推論の能力を共同で強調するデータレイクに対して、検索中心の質問応答のための包括的なベンチマークであるLakeQAを紹介した。 LakeQAはウィキペディアとオープンソースの政府データから約9.5TBのテキストリソースの異種コレクション上に構築されており、構造化データと非構造化データにまたがっている。タスク品質を保証するため、各サンプルは少なくとも1つのPh.D.レベルの専門家によって注釈付けされる。各タスクは、暗黙の中間ステップで長い水平のマルチホップ推論を必要とする:エージェントは正しい文書を発見し、答えを生成するために情報源間で証拠を作成する必要がある。 7つのフロンティアLSMの実験結果から、LakeQAは困難であることが示された。例えば、GPT-5.2はレイクQAで18.37%の正確なマッチスコアしか達成していない。 LakeQAはLLMエージェントを開発するための現実的なテストベッドを提供する。

関連論文リスト

PluriHop: Exhaustive, Recall-Sensitive QA over Distractor-Rich Corpora [0.0]
PluriHopWINDは、ドイツ語と英語の191の現実世界の風力産業レポートから構築された48のプルホップ質問の診断用多言語データセットである。 PluriHopWIND は他の一般的なデータセットよりも 8-40% の反復性を示し,その有効性を示す。本稿では,RAGアーキテクチャであるPluriHopRAGを提案する。
論文参考訳（メタデータ） (2025-10-16T07:22:58Z)
Search-on-Graph: Iterative Informed Navigation for Large Language Model Reasoning on Knowledge Graphs [26.0585592684229]
大規模言語モデル(LLM)は、知識集約型マルチホップ質問では信頼性が保たれていない印象的な推論能力を示している。本稿では,LLMの反復的なグラフナビゲーションを実現するための,シンプルかつ効果的なフレームワークである検索オングラフ(SoG)を提案する。 Wikidataベンチマーク(以前のベストメソッドよりも+16%改善)とFreebaseベンチマークの一貫性のある改善は特に顕著です。
論文参考訳（メタデータ） (2025-10-09T21:20:16Z)
DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections [23.428084176322866]
本稿では,マルチモーダル,マルチドキュメント,マルチホップ質問応答のための大規模ベンチマークであるDocHop-QAを提案する。 DocHop-QAはドメインに依存しないもので、テキストパス、テーブル、構造的なレイアウトキューなど、さまざまな情報フォーマットが組み込まれている。我々は,構造化インデックス予測,生成応答,マルチモーダル統合の4つのタスクを通してDocHop-QAを評価した。
論文参考訳（メタデータ） (2025-08-20T08:17:45Z)
CoLoTa: A Dataset for Entity-based Commonsense Reasoning over Long-Tail Knowledge [19.34131843380852]
我々は、Long-Tailエンティティ(CoLoTa)上でのCommonsense推論のための新しいデータセットを提案する。 CoLoTaは質問応答とクレーム検証タスクから3,300のクエリで構成されている。我々は,LLMコモンセンス推論能力と,長い尾を持つ物体に対する幻覚に対する頑健性の両方を評価するための新しいベンチマークとしてCoLoTaを提案する。
論文参考訳（メタデータ） (2025-04-20T02:47:18Z)
PeerQA: A Scientific Question Answering Dataset from Peer Reviews [51.95579001315713]
実世界の科学的、文書レベルの質問回答データセットであるPeerQAを提示する。データセットには208の学術論文から579のQAペアが含まれており、MLとNLPが多数を占めている。収集したデータセットを詳細に分析し、3つのタスクのベースラインシステムを確立する実験を行う。
論文参考訳（メタデータ） (2025-02-19T12:24:46Z)
Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。既存の属性に対するアプローチはRAG設定でのみ評価されている。これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文参考訳（メタデータ） (2024-07-10T16:16:02Z)
One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文参考訳（メタデータ） (2024-06-24T02:03:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。