論文の概要: AgentMeter: Evaluating Model-CLI Matching for CLI-Based Local Task-Solving Agents
- arxiv url: http://arxiv.org/abs/2606.21140v1
- Date: Fri, 19 Jun 2026 06:26:32 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:19:47.269873
- Title: AgentMeter: Evaluating Model-CLI Matching for CLI-Based Local Task-Solving Agents
- Title(参考訳): AgentMeter:CLIによるローカルタスクソルビングエージェントのモデル-CLIマッチングの評価
- Authors: Han Chi, Jiaxin Qi, Yan Cui, Baisheng Lai, Jianqiang Huang,
- Abstract要約: AgentMETERは、ローカルタスク解決エージェントにおけるモデル-CLIマッチングを評価するためのベンチマークである。
AgentMeterはBenchmark90を完全な検証セットとして、Core30を拡張比較のための低価格サブセットとして使用しています。
これらの結果は、モデル選択とCLI選択は分離されるべきではなく、モデル-CLI設定はデプロイされたユニットとして評価されるべきであることを示している。
- 参考スコア(独自算出の注目度): 17.362300732073173
- License:
- Abstract: LLM agents increasingly solve local tasks through command-line and CLI-based harness interfaces, including code editing, repository inspection, data analysis, and file workflows. Existing evaluations often emphasize task success, but deployed local agents are not models alone: the CLI mediates prompts, context replay, tool outputs, file access, terminal observations, and stopping behavior. As a result, the same model can produce different success, token, and cost profiles under different CLIs. We introduce AGENTMETER, a benchmark for evaluating model-CLI matching in CLI-mediated local task-solving agents, together with AgentMeter Score (AMS), a success-anchored, cost-aware metric over calibrated task-effort tiers. AgentMeter uses Benchmark90 as the full validation set and Core30 as a lower-cost subset for expanded comparison across 24 complete model-CLI configurations. On Core30, common deployment criteria select different configurations: highest Pass/30 selects GLM-5.1 with qwen-coder, lowest Tok./Pass selects GPT-5.3-Codex with kimi-cli, lowest billable USD/Pass selects Qwen3.6+ with Codex, while highest AMS selects Qwen3.6+ with kimi-cli. Benchmark90 validation preserves the Top-1 configuration and Top-3 set, with Spearman correlation 0.765, Kendall correlation 0.567, and AMS MAE 0.0383. These results show that model choice and CLI choice should not be decoupled, and that model-CLI configurations should be evaluated as the deployed unit.
- Abstract(参考訳): LLMエージェントは、コード編集、リポジトリインスペクション、データ分析、ファイルワークフローなど、コマンドラインとCLIベースのハーネスインターフェースを通じて、ローカルタスクをますます解決する。
CLIはプロンプト、コンテキストの再生、ツール出力、ファイルアクセス、端末の観察、動作停止を仲介する。
結果として、同じモデルが、異なるCLIの下で異なる成功、トークン、コストプロファイルを生成することができる。
本稿では,CLIを介するローカルタスク解決エージェントのモデル-CLIマッチング評価のためのベンチマークであるAgentMeTERと,評価されたタスク・エフォート・ティアに対する評価基準であるAgentMeter Score(AMS)を紹介する。
AgentMeterはBenchmark90を完全なバリデーションセットとして、Core30を低価格サブセットとして使用し、24の完全なモデル-CLI構成で比較を拡張する。
Core30では、一般的な配置基準で異なる構成が選択される: 最上位のPass/30は、qwen-coderと最低のTokでGLM-5.1を選択する。
Pass selects GPT-5.3-Codex with kimi-cli, low billable USD/Pass selects Qwen3.6+ with Codex, highest AMS selects Qwen3.6+ with kimi-cli.
Benchmark90 は Top-1 の構成と Top-3 セットを保存しており、Spearman 相関 0.765、Kendall 相関 0.567、AMS MAE 0.0383 である。
これらの結果は、モデル選択とCLI選択は分離されるべきではなく、モデル-CLI構成はデプロイユニットとして評価されるべきであることを示している。
関連論文リスト
- Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks [75.92297551160692]
OpenClawのような汎用エージェントは、自律的なツールユーザとしてますます利用されている。
マルチリンガルなSWEベンチマークおよびアダプタプロトコルであるClaw-SWE-Benchを紹介する。
Claw-SWE-Benchは、SWEスタイルの符号化エージェント評価の第一級軸として、ハーネスとコスト会計を扱う。
論文 参考訳(メタデータ) (2026-06-10T17:16:23Z) - Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents [3.964533007623828]
現代の大規模言語モデル(LLM)エージェントは、行動の時点で決定に関連のある証拠を必要とする。
本稿では、事例コンテキストグラフを構築し、候補単位の決定指向ユーティリティを推定し、選択したエビデンスを型付きメモリカードに圧縮するCICLについて述べる。
CICLは、ツール使用エージェントの意思決定クリティカルコンテキストの測定、ランキング、圧縮のための実用的なレイヤを提供する。
論文 参考訳(メタデータ) (2026-06-06T13:02:28Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Learning CLI Agents with Structured Action Credit under Selective Observation [10.420078730796321]
コマンドラインインタフェース(CLI)エージェントは、進化するエージェントとコンピュータの相互作用、実行可能なコマンドラインプログラム、オンライン実行フィードバックの実践パラダイムとして登場しつつある。
最近の研究では、これらのインタラクション能力を検証可能なタスクフィードバックから学習するために強化学習(RL)を使用しているが、CLIアクションのネイティブな構造化属性を学習信号として活用する手法はほとんどない。
シェル駆動型情報抽出とファイル編集タスクを用いて,これらのボトルネックについて検討する。
論文 参考訳(メタデータ) (2026-05-08T17:02:31Z) - Evaluating LLM-Based 0-to-1 Software Generation in End-to-End CLI Tool Scenarios [13.708123854369303]
CLI-Tool-Benchは、Command-Line Interfaceツールの基底生成を評価するための構造に依存しないベンチマークである。
ブラックボックスの差分テストフレームワークを通じて評価された100の現実世界のリポジトリが特徴だ。
エージェント生成ソフトウェアはサンドボックスで実行され、システムサイドエフェクトと端末出力を人書きのオークルと比較する。
論文 参考訳(メタデータ) (2026-04-08T07:09:10Z) - vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models [58.633451339058986]
VLAモデルは一般的に、各モデルリポジトリによって独立して維持されるベンチマークスクリプト毎に評価される。
本稿では、ベンチマーク実行からモデル推論を分離するオープンソースの評価ハーネスであるvla evalを紹介する。
完全な評価では、vla eval serveとvla eval runの2つのコマンドしか必要としない。
論文 参考訳(メタデータ) (2026-03-14T14:38:53Z) - RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents [0.9821874476902969]
LLMエージェントは、単一のスカラーテストメトリクスで成功を判断するエンドツーエンドのMLエンジニアリングタスクをますます実行します。
エージェントは、モデルを改善するのではなく、評価パイプラインを妥協することで、報告されたスコアを増やすことができる。
ワークスペースベースのベンチマークであるRewardHackingAgentsを導入する。
論文 参考訳(メタデータ) (2026-03-11T22:06:44Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。