論文の概要: Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph
- arxiv url: http://arxiv.org/abs/2606.10241v1
- Date: Mon, 08 Jun 2026 23:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.223697
- Title: Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph
- Title(参考訳): Regimes: ActiveGraphでLongMemEval上にデモされた、監査可能な、Held-Out-Gated改善ループ
- Authors: Yohei Nakajima,
- Abstract要約: イベントソースのエージェントランタイムは、制御された改善をファーストクラスのワークフローに変換する。
エージェントの状態が追加のみのイベントログの決定論的プロジェクションである場合、障害が記録され、実行がログから正確にリプレイされ、候補パッチスコープがタイプされたパイプラインシームに反映され、ゲートが監査可能である。
我々は、ActiveGraphランタイムのループであるRegimesでこれを実証し、失敗した評価を診断し、パイプラインポイントで修復を提案し、静的チェック、サンドボックスの実行、インサンプル評価、ホールドアウトバリデーションの後にのみそれを促進します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous improvement loops are hard to trust because the improvement process is usually external scaffolding bolted onto the agent: failures go unlogged, diagnoses cannot be replayed, and promote-or-discard decisions land in a side database rather than the agent's own history. We show that an event-sourced agent runtime removes that friction and turns controlled improvement into a first-class workflow. When the agent's state is a deterministic projection of an append-only event log, failures are recorded, a run replays exactly from its log, candidate patches scope to typed pipeline seams, gates are auditable, and every promotion or discard is itself an event. We demonstrate this with Regimes, a loop on the ActiveGraph runtime that diagnoses failed evaluations, proposes a repair at a pipeline point, and promotes it only after static checks, sandbox execution, in-sample evaluation, and held-out validation. The loop is target-agnostic: the same control flow runs against different tasks through a common interface. On LongMemEval-S the dominant failure is not retrieval but reconciliation: the evidence is already in the assembled context, yet the reader answers incorrectly. Across five seeded held-out splits, Regimes discovers reader-prompt repairs that improve final held-out accuracy by +0.05 to +0.10 in four splits and +0.01 in one over-promotion split; two splits are individually significant (seed 5 unadjusted for its sequential promotion structure), and the pooled count is descriptive only, since the splits share one 500-question pool. The durable contributions are ActiveGraph as an auditable substrate that makes controlled improvement loops tractable, the held-out-gated loop it supports, the failure-regime taxonomy routing each failure to a pipeline location (whose marginal value over an unrouted baseline is the primary open question), and the prompt-as-discovery-probe hypothesis.
- Abstract(参考訳): 自律的な改善ループは、改善プロセスが通常エージェントにボルトされた外部の足場であるため、信頼できない。
イベントソースエージェントランタイムは、その摩擦を排除し、制御された改善をファーストクラスのワークフローに変換する。
エージェントの状態が追加のみのイベントログの決定論的プロジェクションである場合、障害が記録され、実行がログから正確にリプレイされる。
我々は、ActiveGraphランタイムのループであるRegimesでこれを実証し、失敗した評価を診断し、パイプラインポイントで修復を提案し、静的チェック、サンドボックスの実行、インサンプル評価、ホールドアウトバリデーションの後にのみそれを促進します。
同じ制御フローが共通のインターフェースを通じて異なるタスクに対して実行される。
LongMemEval-Sでは、主要な失敗は検索ではなく和解である。
シードされた5つのホールトアウトスプリットの中で、Regimesは最終ホールトアウト精度を+0.05から+0.10に改善し、1つのオーバープロモーションスプリットで+0.01に改善するリーダー・プロンプト修理を発見する。
永続的なコントリビューションは、コントロールされた改善ループを抽出可能な監査可能な基板としてActiveGraph、サポート対象のホールド・アウト・ゲートループ、各障害をパイプラインロケーションにルーティングするフェール・レジームの分類(未使用のベースラインに対する限界値が主要なオープンな問題である)、そして、プロンプト・アズ・ア・ディスカバリー・プローブ仮説である。
関連論文リスト
- REFLECT: Intervention-Supported Error Attribution for Silent Failures in LLM Agent Traces [10.98846592145896]
大規模言語モデル(LLM)エージェントは、長いプラン・アンド・エグゼクティブトレースを通じて複雑なタスクを解決するが、完了したトレース内のエラーを見つける能力はまだ遅れている。
本稿では,このギャップを解消する手法として,候補となるエラーステップの診断,診断固有のパッチによるリプレイによるテスト,および検証結果のフリップを比較的証拠として用いて最終帰属を洗練させる手法を提案する。
論文 参考訳(メタデータ) (2026-06-08T06:11:57Z) - Auditable Graph-Guided Root Cause Analysis for Kubernetes Incidents [1.116726665785374]
LLM推論と特殊なツールを組み合わせたグラフ誘導RCAエージェントであるグラフトラバースエージェントを提案する。
我々は、読み取り専用エビデンス収集、伝搬認識診断、有界実行、独立に検証された検証を含む運用上の制約をマップする。
ある固定されたqwenオーバージャッジによってスコアされたITBenchスナップショットでは、監査されたシステムは、同じシステムの初期のイテレーションに対してルート因果F1を上昇させる。
論文 参考訳(メタデータ) (2026-06-07T12:05:09Z) - Self-Healing Agentic Orchestrators for Reliable Tool-Augmented Large Language Model Systems [0.10210859604701106]
セルフヒーリングエージェントオーケストレータは、信頼性をランタイム境界制御問題として扱う。
セルフヒーリングは98.8%のタスク成功を達成し、リトライオンリーでは94.5%、フルリプランでは93.8%を達成している。
論文 参考訳(メタデータ) (2026-05-31T19:27:22Z) - Benchmarking Recursive-Collapse Warning Claims Under Matched False-Positive Control [0.0]
再帰的なシステムは、過度な失敗が見える前に、崩壊のような状態に入ることができる。
障害が指向性テレメトリパターンに従うかどうかをテストするためのクレームバウンド型ベンチマークフレームワークであるLoopzeroを紹介した。
凍結した2つの公開アーティファクトベンチマークのブリッジを評価する。
論文 参考訳(メタデータ) (2026-05-29T20:12:42Z) - TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories [61.51984029109709]
グラフベースのフレームワークであるTraceGraphを紹介した。
各タスクに対して、TraceGraphは、モデルIDが導入される前に、プールされたロールアウトから観測可能なアクション・オブザーブレーション状態のグラフを構築する。
次に、結果インフォームされた生産的なコアとトラップリージョンをオーバーレイし、各ロールアウトを3つのイベント – アクセス、トラップ露出、修復 – で要約する。
論文 参考訳(メタデータ) (2026-05-29T13:40:31Z) - Survive or Collapse: The Asymmetric Roles of Data Gating and Reward Grounding in Self-Play RL [76.45061154544568]
セルフプレイ強化学習は、言語モデルを独自の生成タスクで訓練し、人間ラベルなしでプロジェクタとソルバを共進化させる。
最近のシステムでは強い推理効果が報告されているが、崩壊と不安定性は広く観察され、理解されていない。
代わりに、自己プレイの安定性は、提案者生成タスクがトレーニングプールに入るかを判断するデータレベルゲートと、すでに認められたタスクに関するポリシーを更新する報酬信号の2つの異なるレバーによって管理されていると論じる。
論文 参考訳(メタデータ) (2026-05-21T09:19:23Z) - ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling [57.42714978834704]
ExCommは、探索段階のエージェントテストタイムスケーリングのための通信プロトコルである。
ExCommは、強いテスト時間スケーリングベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-21T07:38:44Z) - From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。