論文の概要: LemonHarness Technical Report
- arxiv url: http://arxiv.org/abs/2606.24311v1
- Date: Tue, 23 Jun 2026 08:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.853083
- Title: LemonHarness Technical Report
- Title(参考訳): レモンハーネス技術報告
- Authors: Kailong Ren, Fubo Sun, Jiachen Liu, Liu Yang, Zimo Yin, Jiaying Li, Congli Yin, Ming He, Yu Huo, Jiawei Liu, Zeping Chen, Yubin Huangfu, Ronghua Li, Yixuan Wu, Xing Su, Yanzhi Xu, Likang Wu, Hongke Zhao, Lei Zhang, Xiaohui Geng, Jianping Fan,
- Abstract要約: LemonHarnessはロングホライゾンエージェントのための統合実行フレームワークである。
明確に定義されたワークスペース内の状態変更操作を制限します。
モデル呼び出し、ツール実行、ルール知識を単一のコントロールされたバウンダリ内でもたらします。
- 参考スコア(独自算出の注目度): 40.68992799867636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language model (LLM) agents are applied to longer tasks, they increasingly modify workspace state across multiple rounds of iteration. However, agents typically observe only tool outputs and log fragments, while the actual state changes occur in the file system. Without explicit workspace boundaries, state-changing operations such as file writes and temporary artifact generation may scatter changes across paths. Over time, these weakly constrained changes accumulate, making states such as modified files difficult to track. This paper presents LemonHarness, an integrated execution framework for long-horizon agents. LemonHarness establishes an explicit execution boundary by constraining state-changing operations within a clearly defined workspace and bringing model invocation, tool execution, and rule knowledge within a single controlled boundary. State-changing operations, including file writes, dependency installation, and temporary artifact creation, are executed through structured tool interfaces, with execution feedback recorded as observations available to subsequent model decisions. The system also introduces a reusable rule knowledge base, which turns recurring execution rules and acceptance criteria into runtime knowledge. LemonHarness further adds a time-aware execution mechanism that exposes elapsed and remaining budget to the model, so it can rebalance exploration, implementation, and validation effort as time pressure shifts and avoid timeouts from long waits or excessive verification. On Terminal-Bench 2.0, LemonHarness_GPT-5.3-CodeX reached 84.49% accuracy over 445 trials; pairing the same framework with the stronger GPT-5.5 backbone raised the average accuracy to 86.52% across five jobs. The results suggest that a unified runtime boundary, callable rule knowledge, and time-aware execution can improve the stability of long-horizon agent execution.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントがより長いタスクに適用されるにつれて、複数のイテレーションでワークスペースの状態が変更されるようになる。
しかしながら、エージェントは通常、ツール出力とログフラグメントのみを観察し、実際の状態変化はファイルシステム内で発生します。
明示的なワークスペース境界がなければ、ファイル書き込みや一時的なアーティファクト生成といった状態変化操作がパス全体に散在する可能性がある。
時間が経つにつれて、これらの弱い制約のある変更が蓄積され、修正ファイルのような状態の追跡が困難になる。
本稿では,ロングホライゾンエージェントのための統合実行フレームワークであるLemonHarnessについて述べる。
LemonHarnessは、明確に定義されたワークスペース内の状態変更操作を制約し、モデル呼び出し、ツール実行、ルール知識を単一のコントロールされたバウンダリ内にもたらすことで、明示的な実行境界を確立する。
ファイル書き込み、依存関係のインストール、一時的なアーティファクト生成を含む状態変更操作は、構造化されたツールインターフェースを通じて実行される。
また、再利用可能なルール知識ベースを導入し、繰り返し実行されるルールと受け入れ基準をランタイム知識に変換する。
LemonHarnessはさらに、経過した残予算をモデルに公開するタイムアウェアな実行メカニズムを追加して、時間のプレッシャーのシフトや、長時間の待ち時間や過剰な検証からのタイムアウトの回避として、探索、実装、バリデーションのバランスを戻すことができる。
Terminal-Bench 2.0では、LemonHarness_GPT-5.3-CodeXは445回の試験で84.49%の精度に達し、GPT-5.5のバックボーンと組み合わせることで5つのジョブの平均精度が86.52%に向上した。
その結果、統一されたランタイム境界、呼び出し可能なルール知識、タイムアウェアな実行により、長い水平エージェントの実行の安定性が向上する可能性が示唆された。
関連論文リスト
- Cordon: Semantic Transactions for Tool-Using LLM Agents [11.567293065381918]
本稿では,コミット前にエージェント効果のステージングと検証を行うトランザクションランタイムシステムであるCordonを紹介する。
適度な承認とレイテンシのオーバーヘッドで、良質なタスク補完を保ちながら、不可逆的な効率の失敗を減らす。
論文 参考訳(メタデータ) (2026-06-16T06:21:14Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows [67.92316850084575]
ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介する。
各リリースは、公開ワークフロー要求信号から構築される。
Claw-Eval-Liveは実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録する。
論文 参考訳(メタデータ) (2026-04-30T17:23:19Z) - Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics [4.774525456207306]
ツール拡張LDMは、自然言語推論と実行可能なPythonアクションをインターリーブするエージェントとして、ますます多くデプロイされている。
インタプリタの永続化は単に実行時の足場なのか、それともエージェントがインタープリタの使い方を学習する方法を形作るトレーニングデータの特性なのかを問う。
ワンショットソリューションを避けるために設計された、部分的に観測可能な最適化タスクの手続き的に生成されたファミリーであるOpaque Knapsackを紹介する。
論文 参考訳(メタデータ) (2026-03-01T18:08:02Z) - Can Large Language Models Detect Real-World Android Software Compliance Violations? [3.7278558081099544]
現在のモデルは、さまざまな法律フレームワークにわたるAndroidアプリケーションのコンプライアンス違反を検出するのに苦労している。
コンプライアンス違反を検知するLLMの能力を評価するための新しい評価フレームワークであるemphCompliBenchを提案する。
GPT-4OやClaude-3.5を含む6つのモデルによる実験では、emphCompliBenchはコンプライアンス検出を改善している。
論文 参考訳(メタデータ) (2025-11-01T16:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。