論文の概要: Getting Better at Working With You: Compiling User Corrections into Runtime Enforcement for Coding Agents
- arxiv url: http://arxiv.org/abs/2606.13174v1
- Date: Thu, 11 Jun 2026 10:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.731345
- Title: Getting Better at Working With You: Compiling User Corrections into Runtime Enforcement for Coding Agents
- Title(参考訳): コードエージェントの実行時強制にユーザ補正をコンパイルする
- Authors: Yujun Zhou, Kehan Guo, Haomin Zhuang, Xiangqi Wang, Yue Huang, Zhenwen Liang, Pin-Yu Chen, Tian Gao, Nuno Moniz, Nitesh V. Chawla, Xiangliang Zhang,
- Abstract要約: Test-time Rule Acquisition and Compiled Enforcement (TRACE)は、コーディングエージェントランタイムのためのスキル層パイプラインである。
開発者が事前に記述した実行時チェックとは異なり、TRACEスキルはユーザのチャット修正に由来する。
- 参考スコア(独自算出の注目度): 99.67681154381803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive LLM agents are becoming part of daily work, but they do not reliably become easier to work with over time: a correction remembered in one session may still be violated in the next. We study this gap between preference access and preference compliance. In tasks derived from anonymized real-user friction cases, Mem0 memory still leaves 57.5% of applicable preference checks violated. We introduce Test-time Rule Acquisition and Compiled Enforcement (TRACE), a drop-in skill-layer pipeline for coding-agent runtimes that mines user corrections, rewrites them as atomic rules, and compiles them into runtime checks that must pass before an agent completes future tasks. Unlike runtime checks written ahead of time by developers, TRACE skills come from the user's own chat corrections. We evaluate TRACE with simulated user-in-the-loop experiments on ClawArena coding-agent tasks and MemoryArena-derived memory-intensive tasks. On ClawArena, TRACE reduces held-out preference violation from 100.0% to 37.6% on in-distribution tasks and from 100.0% to 2.0% on out-of-distribution tasks. On MemoryArena-derived tasks, TRACE reduces in-distribution violation from 100.0% to 60.5% while matching or exceeding the strongest memory baseline on task pass. These results suggest that compiling corrections into runtime enforcement can address a repeated-friction failure mode that memory alone does not reliably solve, reducing the need for users to restate the same correction across future sessions. Experiment code is available at https://github.com/YujunZhou/TRACE_exp, and the deployable skill is available at https://github.com/YujunZhou/tellonce.
- Abstract(参考訳): 対話型LLMエージェントは日々の作業の一部になっているが、時間が経つにつれて作業が確実に簡単になるわけではない。
嗜好アクセスと嗜好コンプライアンスのギャップについて検討する。
匿名化された実際のユーザの摩擦ケースから派生したタスクでは、Mem0メモリは57.5%のプライオリティチェックが違反している。
テストタイムルール取得およびコンパイル実行(TRACE)は、コーディングエージェントランタイム用のドロップインスキル層パイプラインで、ユーザの修正をマイニングし、それらをアトミックルールとして書き直し、エージェントが将来のタスクを完了する前にパスしなければならないランタイムチェックにコンパイルする。
開発者が事前に記述した実行時チェックとは異なり、TRACEスキルはユーザのチャット修正に由来する。
ClawArenaのコーディングエージェントタスクとMemoryArenaのメモリ集約タスクを模擬したユーザ・イン・ザ・ループ実験によりTRACEを評価した。
ClawArena では、TRACE は非分配タスクでは 100.0% から 37.6% に、非分配タスクでは 100.0% から 2.0% に減じている。
MemoryArena由来のタスクでは、TRACEはタスクパス上で最強のメモリベースラインをマッチまたは超過しながら、分散違反を100.0%から60.5%に削減する。
これらの結果は、メモリだけで確実に解決できない繰り返しフリクション障害モードに対処し、ユーザーが将来のセッションで同じ修正を再開する必要がなくなることを示唆している。
実験コードはhttps://github.com/YujunZhou/TRACE_expで、デプロイ可能なスキルはhttps://github.com/YujunZhou/tellonceで入手できる。
関連論文リスト
- SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows [16.693609667845948]
SKILL.nbは,エビデンス・リバース・キャリブレーションによるライフサイクルポリシーによる再利用可能なエージェント管理のためのフレームワークである。
SKILL.nbは選択的な形式化を使用する: 実行はどのワークフローステップを実行可能なコードにするかを決定する。
ゲート条件付き実行では、各ステップがゲートの検証時にコードを実行したり、ドリフトが実行可能実現を無効にした場合にローカルにフォールバックすることが可能になる。
論文 参考訳(メタデータ) (2026-06-06T08:27:18Z) - From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - When Should an AI Workflow Release? Always-Valid Inference for Black-Box Generate-Verify Systems [2.805986764620217]
LLM対応AIは、繰り返し生成・評価・修正ループを通じて出力を生成する。
デプロイメント時間評価器のスコアが適応的に生成され、繰り返し監視されるため、これは統計的課題を提起する。
既存のジェネレータ評価パイプラインに対して,常に有効なリリースラッパーを提案する。
論文 参考訳(メタデータ) (2026-05-13T03:30:39Z) - Feedback-Normalized Developer Memory for Reinforcement-Learning Coding Agents: A Safety-Gated MCP Architecture [0.0]
本稿では、RLコーディングエージェントのためのローカルファーストのモデルコンテキストプロトコル(MCP)ネイティブな開発者メモリアーキテクチャであるRL Developer Memoryについて述べる。
メモリ選択をログ化されたコンテキスト決定プロセスとして扱う。
システムは、RLアルゴリズムのバグ、ハードネガ、レビューゲートされたRL/コントロールケース、低リスク障害を含む決定論的200ケースのベンチマークで評価される。
論文 参考訳(メタデータ) (2026-05-02T18:37:36Z) - TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis [0.0]
TDADはソースコードとテスト間の依存性マップを構築し、パッチをコミットする前に、エージェントはどのテストを検証して自己修正するかを知っている。
本稿では,AI符号化エージェントの事前変更影響分析を行うオープンソースツールであるTDADを提案する。
論文 参考訳(メタデータ) (2026-03-18T17:38:22Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering [0.0]
機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。
我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。
このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
論文 参考訳(メタデータ) (2025-05-16T18:19:38Z) - STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。
本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。
本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T16:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。