論文の概要: PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents
- arxiv url: http://arxiv.org/abs/2606.08106v1
- Date: Sat, 06 Jun 2026 11:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.786397
- Title: PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents
- Title(参考訳): PACE: 自己進化型エージェントに対する任意のValidアクセプタンステスト
- Authors: Zayx Shawn,
- Abstract要約: 自己進化型エージェントは、自身のプロンプト、スキル、オーモーフィケーションの変更を繰り返し提案することで改善する。
Qwen2.5 のエージェント (0.5B-3B) が GSM8K, SVAMP, ARC-Challenge のプロンプトレベルで自己進化する際、greedy は 30-42% の偽陽性と 10-33% の有害な編集をコミットする。
PACEは実際のものをコミットし、グリーディのホールトアウトの精度を著しく低いばらつきと約18%低い評価コストで一致させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-evolving agents improve by repeatedly proposing changes to their own prompts, skills, or workflows and keeping those that score higher on a small held-out set. Almost all effort has gone into the proposer that generates candidates; we argue the weak point is the acceptor, the rule that decides whether to commit a change. Applied hundreds of times against the same noisy dev estimate, the ubiquitous "keep it if the score went up" rule is uncontrolled adaptive multiple testing: the agent effectively p-hacks itself, accumulating false commits that make it churn and drift rather than improve. We recast committing as a sequential hypothesis test and propose PACE (Paired Anytime-valid Commit Evaluation), a training-free, anytime-valid commit gate. Each candidate is compared to the incumbent on identical instances and committed only when a testing-by-betting e-process accumulates decisive evidence, stopping early to save evaluations and controlling each candidate's false-commit probability at a user-set level even under optional stopping (a per-decision guarantee). On Qwen2.5 agents (0.5B-3B) self-evolving at the prompt level on GSM8K, SVAMP, and ARC-Challenge, greedy acceptance commits 30-42% false and 10-33% harmful edits when a genuine improvement is hidden among noisy proposals, while PACE commits the real one and essentially nothing else, matching greedy's held-out accuracy at sharply lower variance and about 18% lower evaluation cost. With no real gain available, greedy commits 13-21 spurious self-modifications per run (72-100% false) and degrades the most fragile agent by 4.9 points, while PACE holds at baseline. Reliability of self-evolution depends on the acceptor, not only on the proposer.
- Abstract(参考訳): 自己進化エージェントは、自身のプロンプトやスキル、ワークフローの変更を繰り返し提案し、小さなホールトアウトセットでスコアを上げることで改善する。
弱い点は、変更をコミットするかを決めるルールであるアクセプタである、と私たちは主張します。
同じノイズの多い開発見積もりに対して数百回適用された、ユビキタスな "keep it if the score went up" ルールは、非制御の適応的多重テストである。
PACE (Paired Anytime-valid Commit Evaluation) は, トレーニング不要で, 有意なコミットゲートである。
各候補は、同一インスタンス上の既存候補と比較され、テストバイベッティングのeプロセスが決定的な証拠を蓄積した場合にのみコミットされ、早期に評価を保存し、オプション停止(判定毎保証)下であっても、各候補の偽コミット確率をユーザセットレベルで制御する。
Qwen2.5 エージェント (0.5B-3B) は GSM8K, SVAMP, ARC-Challenge のプロンプトレベルで自己進化するが、Greedy の受け入れコミットは 30-42% と 10-33% で、ノイズの多い提案の間に真の改善が隠されているときに有害な編集を行う。
真の利得が得られず、グレディは1ラン当たり13-21の急激な自己修正(72-100%偽)をコミットし、最も脆弱なエージェントを4.9ポイント減らし、PACEはベースラインで保持する。
自己進化の信頼性は、提案者だけでなく、受理者に依存する。
関連論文リスト
- Proper Scoring Rules for Agentic Uncertainty Quantification [0.038379177968040606]
Trajectory Proper Score (TPS) は、厳密に適切なトラジェクトリレベルスコアルールの予測非依存のファミリーである。
軌道ECEは分解能が弱いが、スカラー化された軌道ブライアは崩壊したスカラーのみを付与する。
論文 参考訳(メタデータ) (2026-05-23T22:22:00Z) - Empirical Bayes Conformal Prediction for Vision and Language Models [20.40115871314124]
コンフォーマル予測(CP)は、現代のビジョンと言語モデルに対して、分布のないカバレッジを提供する。
標準CP は 1 つの実現法を使い、平均列キャリブレートの変種は点推定に滑らかな多重実現法を用いる。
実験的なベイズ共形予測フレームワークについて述べる。これは$r$-valuesを用いて、スコアの変動性を不確実な非整合性スコアに変換する。
論文 参考訳(メタデータ) (2026-05-22T03:17:14Z) - Pause and Reflect: Conformal Aggregation for Chain-of-Thought Reasoning [8.024041325202612]
自己整合性を考慮した思考の連鎖(CoT)推論は、複数のサンプル推論パスを集約することで性能を向上させる。
集約不確実性に直接対処するCoT推論のコンフォメーション手順を導入する。
提案手法は,多数決を推理経路よりも重み付けしたスコアアグリゲーションに置き換え,共形リスク制御を用いた棄権規則を校正する。
論文 参考訳(メタデータ) (2026-05-13T20:33:59Z) - Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文 参考訳(メタデータ) (2026-04-02T01:13:40Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - CGES: Confidence-Guided Early Stopping for Efficient and Accurate Self-Consistency [3.2807118426157493]
大規模な言語モデル(LLM)はテスト時に何度もクエリされ、多数決によって予測される。
本稿では,ベイズ的フレームワークであるCGES(Confidence-Guided Early Stopping)を紹介する。
CGESは、候補者の後部質量が閾値を超えるとサンプリングを適応的に停止する。
論文 参考訳(メタデータ) (2025-11-04T14:25:54Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Certified Error Control of Candidate Set Pruning for Two-Stage Relevance
Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。
提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文 参考訳(メタデータ) (2022-05-19T16:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。