論文の概要: Agent trajectories as programs: fingerprinting and programming coding-agent behavior
- arxiv url: http://arxiv.org/abs/2606.16988v1
- Date: Mon, 15 Jun 2026 17:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.100559
- Title: Agent trajectories as programs: fingerprinting and programming coding-agent behavior
- Title(参考訳): プログラムとしてのエージェント・トラジェクトリ:フィンガープリントとプログラミング・コーディング・エージェントの振る舞い
- Authors: Hamidah Oderinwale,
- Abstract要約: ベンチマークスコアは、エージェントが正しいことを教えてくれます。
本研究では,モデル,タスク,アプローチが異なる状況下で,エージェントを手続き的に比較する手法を提案する。
これらの手続き的シグネチャに対する調査では、正しいエージェントに対して85.7%の精度で見当たらない軌跡があり、タスク間のリークを制御している。
- 参考スコア(独自算出の注目度): 0.49316866264940024
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Benchmark scores tell you what an agent got right; they do not tell you how it got there. In this work, we introduce methods for comparing agents procedurally in different contexts, where the model, tasks, and approaches vary. We compare ten agents and find that they are identifiable by their behavioral habits, which we define as fingerprints: a probe over these procedural signatures attributes an unseen trajectory to the correct agent at 85.7% accuracy, controlling for leakage across tasks. We develop procedural representations for agent problem-solving procedures with an emergent vocabulary induction technique that is meant to be maximally compressive to avoid surface-level variation while being expressive enough to unveil the quirks of the models' patterns. We apply our framework to the software engineering evaluation dataset SWE-Bench to study the structural distinctness of agent trajectories and find that behavior is most similar between models from similar release periods and those that are distilled from one another (e.g., a distilled student model and its teacher have a Jensen-Shannon divergence of 0.25, about half the distance between other model pairs). As more models saturate evaluations, we believe that it will be important to probe model behavior along more holistic dimensions than success rates alone. We introduce ProcGrep, a library for auditing and evaluating agents for how they approach tasks at a procedural level given their traces in a top-down fashion. We believe this work has a range of applications to help developers work with and program coding agents, such as task-aware model routing, agent monitoring, and finer-grained cost analysis.
- Abstract(参考訳): ベンチマークスコアは、エージェントが正しいことを教えてくれます。
本研究では,モデル,タスク,アプローチが異なる状況下で,エージェントを手続き的に比較する手法を提案する。
これらの手続き的シグネチャに対する調査は、正しいエージェントに対して、85.7%の精度で、タスク間の漏洩を制御している、見当たらない軌跡を特徴付けている。
モデルパターンのクォークを明らかにするのに十分な表現性を持ちながら、表面レベルの変動を避けるために、最大圧縮を意図した創発的な語彙誘導技術を用いて、エージェント問題解決手順の手続き表現を開発する。
我々は,ソフトウェア工学評価データセットSWE-Benchに適用し,エージェント軌跡の構造的相違について検討し,類似したリリース期間と蒸留期間のモデル間での挙動が最もよく似ていることを確認する(例えば,蒸留した学生モデルとその教師は,他のモデルペアの約半分であるJensen-Shannonの偏差が0.25である)。
モデルが飽和するにつれて、我々は、成功率のみよりも、より全体論的次元に沿ってモデル行動を研究することが重要であると信じている。
ProcGrepはプロシージャレベルでタスクにどのようにアプローチするかを監査・評価するためのライブラリである。
この作業には、タスク対応モデルルーティング、エージェント監視、よりきめ細かいコスト分析など、開発者がコーディングエージェントと連携し、プログラムするのに役立つ、さまざまなアプリケーションがある、と私たちは信じています。
関連論文リスト
- How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories [10.751728274263536]
本稿では,エージェントのトラジェクトリ,すなわちソフトウェア問題の解決に際し,エージェントが行うステップを捉えた実行トレースについて,実証的研究を行う。
我々は、SWE-Benchベンチマークで、最先端の3つのコードエージェント(OpenHands、SWE-agent、Prometheus)の軌跡を分析し、成功と失敗の両方について検討した。
論文 参考訳(メタデータ) (2025-10-31T18:58:13Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - Interpretable Interaction Modeling for Trajectory Prediction via Agent Selection and Physical Coefficient [1.6954753390775528]
本稿では、手動で対話エージェントを選択し、Transformerの注目スコアを新たに計算された物理相関係数に置き換えるASPILinを提案する。
驚くべきことに、これらの単純な修正は予測性能を大幅に改善し、計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2024-05-21T18:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。