論文の概要: Recursive Agent Harnesses
- arxiv url: http://arxiv.org/abs/2606.13643v1
- Date: Thu, 11 Jun 2026 17:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.965901
- Title: Recursive Agent Harnesses
- Title(参考訳): Recursive Agent Harnesses
- Authors: Elias Lumer, Sahil Sen, Kevin Paul, Vamse Kumar Subbiah,
- Abstract要約: 再帰的言語モデル (RLM) は、モデル呼び出しに対する再帰が長文推論の効果的な戦略であることを示した。
プロダクションコーディングエージェントは、Anthropicの動的に、大規模にサブエージェントを生成するコードを書き始めた。
私たちはこれをRecursive Agent Harness (RAH)と呼び、それをハーネス再帰としてフレーム化します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recursive language models (RLMs) showed that recursion over model calls is an effective strategy for long-context reasoning, and production coding agents have begun to write code that spawns subagents at scale, most recently in Anthropic's dynamic workflows. We name and study the pattern between these two lines of work, where the recursive unit is a full agent harness with filesystem tools, code execution, and planning rather than a model call with no tools. We call this the Recursive Agent Harness (RAH) and frame it as harness recursion, the code-first extension to the model recursion of RLMs. A parent agent generates and runs an executable script that spawns subagent harnesses in parallel for fine-grained workloads and uses structured function calls for small subtasks. We provide a controlled evaluation on long-context reasoning. With the backbone held fixed at GPT-5 to match the published Codex and RLM baselines, RAH improves the Codex coding-agent baseline from 71.75% to 81.36% on Oolong-Synthetic (199 samples, 13 context-length buckets up to 4M tokens), a gain attributable to the harness rather than the model. With a stronger backbone, Claude Sonnet 4.5, the same design reaches 89.77%.
- Abstract(参考訳): 再帰的言語モデル(RLM)は、モデル呼び出しに対する再帰が長期コンテキスト推論の効果的な戦略であることを示し、プロダクションコーディングエージェントが大規模にサブエージェントを発生させるコードを書き始めた。
再帰的ユニットは、ツールのないモデルコールではなく、ファイルシステムツール、コード実行、プランニングを備えたフルエージェントである。
これをRAH(Recursive Agent Harness)と呼び、RLMのモデル再帰のコードファースト拡張であるハーネス再帰をフレーム化する。
親エージェントは、細かなワークロードのためにサブエージェントハーネスを並列に生成する実行可能なスクリプトを生成し、実行し、小さなサブタスクのために構造化関数呼び出しを使用する。
長文推論の制御評価を行う。
GPT-5のバックボーンが公開されたコーデックスとRLMのベースラインと一致するように固定されているため、RAHはOolong-Synthetic (199サンプル、コンテキスト長のバケット13個から4Mトークンまで)でコーデックスのコーディングエージェントベースラインを71.75%から81.36%に改善し、モデルよりもハーネスに寄与する。
より強力なバックボーンであるクロード・ソネット4.5では、89.77%に達する。
関連論文リスト
- Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses [30.457068495035386]
textbfBayesianAgentは、再利用可能なスキルとSOPを、特定のプロンプト、コンテキスト、利用環境下で凍結モデルが成功するかどうかの仮説として扱う。
ベイジアン=アジェントの記録は、軌道証拠を検証し、各技術に対して特徴条件付きカテゴリー後部を維持し、後方状態をパッチ、分割、圧縮、引退、探索のような検査可能な行動にマッピングする。
論文 参考訳(メタデータ) (2026-06-06T21:40:19Z) - LACUNA: Safe Agents as Recursive Program Holes [3.2613419151327343]
LLMエージェントはますますコードを記述することで振る舞うが、エージェントを駆動するランタイムとモデルが記述するコードの間には分割が持続する。
我々は、安全性を維持しながら、この分割を閉じるエージェントのためのプログラミングモデルであるLACUNAを紹介する。
我々のプリミティブは、通常の制御フローとしてReActループ、サブエージェント、スキル、並列分解、マルチモデル計画を表現する。
論文 参考訳(メタデータ) (2026-05-27T15:27:25Z) - Code as Agent Harness [107.31925305395957]
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
論文 参考訳(メタデータ) (2026-05-18T17:59:03Z) - Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks? [3.636948650519796]
スモール言語モデル(SLM)はエージェント端末実行のタスクにおいてフロンティアモデルに匹敵する性能を達成できる。
教師付ファインタニング(SFT)と強化学習(RL)による訓練後Qwen3-4BモデルであるTerminus-4Bを提案する。
Terminus-4Bは、No Subagentベースラインと比較して、メインエージェントのトークン使用量を最大30%削減できることがわかった。
論文 参考訳(メタデータ) (2026-05-04T22:24:24Z) - Recursive Multi-Agent Systems [106.82473907888497]
本稿では,マルチエージェントフレームワークであるRecursiveMASを紹介する。
RecursiveMASは、軽量なRecursiveLinkモジュールを介して、異種エージェントを協調ループとして接続する。
実行時複雑性と学習力学の理論解析により、RecursiveMASは標準テキストベースMASよりも効率的であることが判明した。
論文 参考訳(メタデータ) (2026-04-28T17:59:34Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。