論文の概要: Scaffold Effects on GAIA: A Controlled Comparison
- arxiv url: http://arxiv.org/abs/2606.08529v1
- Date: Sun, 07 Jun 2026 09:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.186143
- Title: Scaffold Effects on GAIA: A Controlled Comparison
- Title(参考訳): GAIAに対するサッフルド効果:制御された比較
- Authors: Jason Starace,
- Abstract要約: 1つのモデルで最大28ポイントの精度を計測する。
最も有能な人類学モデルは、より厳しいレベルで構造化された足場から最も多くを得る。
構造化されたスキャフォールドは、ツールコールを少なくするが、より難しいレベルで中軌道エラーから、より頻繁にリカバリする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Published agent capability scores conflate what a model can do with what its scaffold lets it do, and the magnitude of this elicitation gap is not well characterized under controlled conditions. This study executes a pre-registered controlled comparison of three scaffolds (ReAct, a Planner-Actor-Rater multi-agent design, and planner-then-executor) across five models from three providers (Claude Opus 4.7, Sonnet 4.6, Haiku 4.5; Gemini 3.1 Pro Preview; GPT-5.5) on GAIA validation Levels 1 and 2, holding tasks and conditions fixed, with three attempts per question. Scaffold choice alone moves measured accuracy by as much as 28 percentage points within a single model (Opus, Level 2, robust slice), confirming the pre-registered hypothesis that scaffold variation produces gaps of at least 10 points. The pre-registered prediction that more capable models would be less scaffold-sensitive is rejected in direction: scaffold effects vary significantly by model in every dataset slice, but the most capable Anthropic model gains the most from structured scaffolds at the harder level, and tier-scaling holds only at Level 1 under the robust slice. The multi-agent advantage over ReAct at Level 2 appears within the Anthropic family but not for the cross-provider models, making model family rather than capability tier the conditioning variable, and the predicted planner-executor advantage on file-reading tasks is falsified. Structured scaffolds make fewer tool calls yet recover more often from mid-trajectory errors at the harder level, and a single cell (Gemini with planner-then-executor) is the cheapest at both levels and the most accurate at Level 2. These results indicate that single-scaffold capability numbers are scaffold-conditional estimates and that the elicitation gap is not guaranteed to shrink as models improve.
- Abstract(参考訳): 発行されたエージェント能力は、モデルが足場でできることで何ができるかを詳述し、このエリケーションギャップの大きさは、制御された条件下ではうまく特徴づけられていない。
本研究では,GAIA 検証レベル 1 と 2 における 3 つの提供者 (Claude Opus 4.7, Sonnet 4.6, Haiku 4.5; Gemini 3.1 Pro Preview; GPT-5.5) による 3 つの足場 (ReAct, Planner-Actor-Rater multi-agent design, Planner-then-executor) の事前登録比較を行った。
スキャフォールドの選択だけで、単一のモデル内の最大28ポイントの精度(Opus、Level 2、ロバストスライス)を計測し、足場変動が少なくとも10ポイントのギャップを生み出すという事前登録された仮説を確認する。
足場効果は、データセットスライス毎にモデルによって大きく異なるが、最も有能な人為的モデルは、より厳しいレベルで構造された足場から最も多くを得、階層スケーリングは、ロバストスライスの下でレベル1にのみ保持される。
レベル2でのReActに対するマルチエージェントのアドバンテージは、Arthropicファミリー内に存在するが、クロスプロデューサモデルには適用されない。
構造的スキャフォールドはツールコールを少なくするが、より難しいレベルで中軌道エラーから回復する頻度は高く、シングルセル(プランナー-then-executor付きGemini)は、両方のレベルで最も安価で、レベル2では最も正確である。
これらの結果から,単一スケールフォールド能力数は足場条件推定値であり,モデルの改善に伴うエリケーションギャップの縮小は保証されていないことが示唆された。
関連論文リスト
- Knowledge Index of Noah's Ark [63.143852586221534]
KINAは,261分野にわたる899項目のベンチマークである。
ボーナス・オン・バートーナメントがFOSDを弱く支配していることを示す。
トップモデルであるGemini-3.1-Pro-Previewは53.17%、Claude-Opus-4.6は49.92%、GPT-5.4は48.55%に達した。
論文 参考訳(メタデータ) (2026-06-03T17:06:49Z) - It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers [0.0]
LLMエージェントのデプロイメントにおける一般的な仮定は、より構造化されたハーネスは信頼性を普遍的に改善する、というものである。
我々はこの仮説を,4つの能力層にまたがる6つのモデルにまたがる制御された432回の実験により検証した。
我々は6ラベルの障害分類を導入し、form_violationが有能なモデル障害を、 wrong_fileが低能力な障害を、それぞれ支配していることを示す。
論文 参考訳(メタデータ) (2026-05-26T09:08:41Z) - GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives [48.545980031973556]
GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
論文 参考訳(メタデータ) (2026-05-09T16:07:23Z) - Two-View Accumulation as the Primary Training Lever for Hybrid-Capture Gaussian Splatting: A Variance-Decomposition View of When Gradient Surgery Helps [7.6889618752994595]
ハイブリッドキャプチャーノベルビュー合成は、かなり異なるカメラビューを組み合わせる。
標準3DGSは、ステップ毎に1つのレンダリングビューで30Kイテレーションでトレーニングされている。
本稿では,この発見を予測・説明する分散分解フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-29T17:45:51Z) - Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents [0.4666493857924357]
複雑なマルチステップ環境において,推論時足場のみに追加のトレーニング計算を使わずに,小さなモデルの性能を向上させることができるかどうかを検討した。
我々は,AppWorldベンチマークのQwen3-8Bを,完全精度と4ビット量子化構成の両方で評価した。
本格的な推測では、私たちの足場付き8Bモデルは、オリジナルのAppWorld評価からDeepSeek-Coder 33Bインストラクション(7.1%)を上回っています。
論文 参考訳(メタデータ) (2026-04-13T13:40:33Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures [0.0]
我々は、モデルのエラーが出力コミット前に検出可能で、一度検出されると修正できる程度、統治性を導入します。
ベンチマーク精度は支配可能性を予測するものではなく、補正能力は検出と独立に異なり、同一のガバナンス足場はモデル間で逆の効果をもたらす。
本稿では,モデルとタスクの組み合わせをGovernable, Monitor Only, Steer Blind, Ungovernableの4つに分類する。
論文 参考訳(メタデータ) (2026-03-22T21:50:28Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Model Patching: Closing the Subgroup Performance Gap with Data
Augmentation [50.35010342284508]
機械学習モデルの堅牢性を改善するためのフレームワークであるモデルパッチを導入する。
モデルパッチは、サブグループの違いに対してモデルを不変にすることを奨励し、サブグループによって共有されるクラス情報にフォーカスする。
CAMELは,(1)CycleGANを用いてクラス内およびサブグループ間拡張を学習し,(2)理論上動機付けられた整合性正規化器を用いてサブグループ性能のバランスをとる。
CAMELの有効性を3つのベンチマークデータセットで示し、最高のベースラインに対して、ロバストなエラーを最大33%削減した。
論文 参考訳(メタデータ) (2020-08-15T20:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。