論文の概要: TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?
- arxiv url: http://arxiv.org/abs/2606.13148v1
- Date: Thu, 11 Jun 2026 10:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.722387
- Title: TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?
- Title(参考訳): TerraBench: エージェントは不均一な地球系データに対して反抗できるのか?
- Authors: Dat Tien Nguyen, Thao Nguyen, Fadillah Adamsyah Maani, Huy M. Le, Muhammad Umer Sheikh, Numan Saeed, Muhammad Haris Khan, Salman Khan,
- Abstract要約: 地球科学推論のためのベンチマークであるTerraBenchを紹介する。
この分野では、プロセスレベルのツール使用メトリクスと、寛容を意識した数値スコアとを合わせるのは、初めてのことだ。
ベンチマークは3つのトラックにまたがる403のエージェントタスクで構成されている。
- 参考スコア(独自算出の注目度): 32.95801052071361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Climate and environmental decision-making increasingly requires reasoning across heterogeneous inputs, including gridded physical data, satellite imagery, geospatial context, and simulator outputs. Weather and climate foundation models can forecast well, but do not reason interactively in language, while large language models (LLMs) reason in language but cannot operate directly on high-dimensional Earth-system data. As a result, real scientific workflows in Earth-science remain underserved. We introduce TerraBench, a benchmark for grounded Earth-science reasoning, built on TerraAgent, a ReAct-style executable framework that interleaves reasoning, tool calls, and observations to couple LLM planning with scientific tools for environmental retrieval, geospatial processing, simulation, and artifact-backed computation. TerraBench unifies analysis of Earth observation imagery, gridded data, GIS reasoning and simulation in a single executable interface, whereas prior benchmarks isolate these capabilities into narrow individual tasks. It is also the first in this space to pair process-level tool-use metrics with tolerance-aware numeric scoring. The benchmark comprises 403 extensive agentic tasks across three tracks (Fundamentals, Simulator-Grounded, and Document-Grounded Verification) and eight application domains with 24,500 verified execution steps. These results indicate that reliable Earth-science agents must go beyond tool access to coordinate heterogeneous workflows, parameterize tools precisely, and preserve artifact provenance.
- Abstract(参考訳): 気候と環境の意思決定は、グリッド化された物理データ、衛星画像、地理空間的コンテキスト、シミュレータ出力などを含む異種入力の推論をますます必要とします。
気象・気候基礎モデルはよく予測できるが、言語では対話的ではなく、言語では大きな言語モデル(LLM)が理由であるが、高次元の地球系データでは直接操作できない。
その結果、地球科学における実際の科学のワークフローはいまだに保存されていない。
地球科学推論のためのベンチマークであるTerraBenchを紹介した。TerraAgentはReActスタイルの実行可能なフレームワークで、推論、ツールコール、観察をインターリーブし、LLM計画と環境検索、地理空間処理、シミュレーション、アーティファクト支援計算のための科学ツールを結合する。
TerraBenchは、地球観測画像、グリッドデータ、GIS推論とシミュレーションを単一の実行可能インタフェースで統合する。
この分野では、プロセスレベルのツール使用メトリクスと、寛容を意識した数値スコアとを合わせた初めてのものでもある。
ベンチマークは、3つのトラック(Fundamentals、Simulator-Grounded、Document-Grounded Verification)にわたる403のエージェントタスクと、24500の検証実行ステップを持つ8つのアプリケーションドメインで構成されている。
これらの結果は、信頼できる地球科学エージェントがツールアクセスを超えて、異種ワークフローをコーディネートし、ツールを正確にパラメータ化し、アーティファクトを保存しなければならないことを示唆している。
関連論文リスト
- Toward a Scientific Discovery Engine for Weather and Climate Data: A Visual Analytics Workbench for Embedding-Based Exploration [0.0]
地球系科学は、物理学に基づく地球系モデルからAIベースの気象・気候モデルまで、ますます大きくて高次元のデータセットを生み出している。
埋め込みに基づく表現は、類似検索やアナログ検索を通じてこれらのデータを検索できるようにするが、潜伏空間の最も近い隣人は、自動的に科学的に意味を持つものではない。
これらのステップ毎に、オープンソースのビジュアル分析ワークベンチを提示する。
論文 参考訳(メタデータ) (2026-05-01T17:03:33Z) - OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文 参考訳(メタデータ) (2026-02-19T18:59:54Z) - AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents [17.904008870689964]
我々は,Pythonの実行環境であるAgriWorldを紹介し,フィールドパーセル上のクエリ,リモートセンシング時系列分析,作物の成長シミュレーション,タスク固有の予測器(収量,ストレス,病気リスクなど)について,統一的なツールを公開している。
この環境上では,複数ターンのAgroReflectiveエージェントを設計し,コードを反復的に書き,実行結果を観察し,実行-観測-再定義ループを通じて解析を洗練する。
論文 参考訳(メタデータ) (2026-02-17T03:12:57Z) - Discovering High Level Patterns from Simulation Traces [1.8964402635820152]
本稿では,詳細なシミュレーションログから粗粒度パターンを検出する自然言語ガイド手法を提案する。
具体的には、シミュレーションログを操作するプログラムを合成し、それらを一連の高レベル活性化パターンにマッピングする。
2つの物理ベンチマークを通して、このアノテートされたシミュレーションログの表現は、物理系についての自然言語の推論により適していることを示す。
論文 参考訳(メタデータ) (2026-02-10T17:31:39Z) - Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents [49.3216026940601]
地球観測は、地球系の状態を理解するために不可欠である。
近年のMLLMは高度なEO研究を行っているが、多段階推論を必要とする複雑なタスクに対処する能力は乏しい。
我々は,MPPベースのツールエコシステム内でRGBとスペクトルEOデータを統一する最初のエージェントフレームワークであるEarth-Agentを紹介する。
論文 参考訳(メタデータ) (2025-09-27T06:04:28Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。