論文の概要: RECAP: Regression Evaluation for Continual Adaptation of Prompts
- arxiv url: http://arxiv.org/abs/2606.06698v2
- Date: Mon, 08 Jun 2026 14:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.062804
- Title: RECAP: Regression Evaluation for Continual Adaptation of Prompts
- Title(参考訳): RECAP: プロンプトの継続的適応のための回帰評価
- Authors: Harsh Deshpande, Kushal Chawla, Sangwoo Cho, William Campbell,
- Abstract要約: 生産エージェントシステムは、常に進化する制約に直面し、次の相互作用に従わなければならない。
現在のベンチマークでは、静的制約セットか、評価フィードバックを伴うリアクティブプロトコルのいずれかを前提としている。
本稿では,制約レベルの連続学習現象を測定するベンチマークRECAPを紹介する。
- 参考スコア(独自算出の注目度): 6.121913766847634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Production agentic systems routinely face evolving constraints and must comply from the very next interaction. Scenarios like a tool-call notification changing a compliance threshold or a policy update adding disclosure requirements fit this criteria, having close to no room for errors in production. This proactive adaptation setting is common in deployment, but absent from current benchmarks, which assume either static constraint sets or reactive protocols with evaluation feedback. We introduce RECAP, a benchmark that measures continual-learning phenomena (forgetting, regression, forward transfer) at the constraint level under a strictly proactive adapt-then-test protocol: prompt optimization methods receive only the constraint specification and must generalize before seeing any test data. Evaluating six methods across four LLMs and three schedules with evolving constraints, we find that these methods show no significant improvement in performance, even after incurring a higher latency. These methods, designed for offline or reactive settings, are inadequate for the proactive paradigm. Our work emphasizes the growing need for designing proactive prompt adaptation methods, where the models must remain robust to evolving needs in deployment.
- Abstract(参考訳): 生産エージェントシステムは、常に進化する制約に直面し、次の相互作用に従わなければならない。
コンプライアンスのしきい値を変更するツールコール通知や、開示要件を追加するポリシー更新のようなシナリオはこの基準に適合し、本番環境でエラーを起こす余地がほとんどない。
このプロアクティブ適応設定はデプロイメントでは一般的だが、静的制約セットか、評価フィードバックのあるリアクティブプロトコルのいずれかを前提とする現在のベンチマークは欠落している。
本稿では,制約レベルの連続学習現象(フォーゲッティング,回帰,転送)を,厳密なプロアクティブなAdapt-then-testプロトコルの下で測定するベンチマークRECAPを紹介する。
4つのLSMと3つのスケジュールの6つのメソッドを評価すると,これらのメソッドはレイテンシが高くても性能が著しく向上しないことがわかった。
これらのメソッドは、オフラインまたはリアクティブな設定のために設計されており、プロアクティブパラダイムには不十分である。
私たちの研究は、積極的にプロンプト・アダプティブ・メソッドを設計する必要性が高まっていることを強調しています。
関連論文リスト
- Efficient Online Conformal Selection with Limited Feedback [14.326282143930769]
我々は、エージェントが最低限の選択肢のサブセットを選択して、少なくとも1つの成功が特定されるようにしなければならない共形選択の問題に対処する。
適応型コンフォーマル推論(ACI)更新ルールは、適切な制御パラメータや双対変数に適用された場合、逆向きに有効かつ効率的であることを示す。
論文 参考訳(メタデータ) (2026-05-14T15:22:46Z) - OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents [74.20327254615854]
大規模言語モデルエージェントは、シーケンシャルな意思決定タスクを解決するために、推論、行動選択、観察をインターリーブする。
LLMエージェントの既存の推論時間適応法は、主にプロンプトや検索に依存している。
提案するOLIVIAは,ReAct型エージェントのための推論時行動適応フレームワークである。
論文 参考訳(メタデータ) (2026-05-11T19:28:20Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model [54.35791816657227]
適応型テスト時間計算でVLAモデルを実現するフレームワークである textbfVLA-ATTC' を導入する。
VLA-ATTCは、不確実性に基づく認知クラッチ'を用いて、反射的実行からTTC熟考フェーズへ動的に移行する。
LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
論文 参考訳(メタデータ) (2026-05-02T02:13:11Z) - Adaptive Conformal Prediction for Improving Factuality of Generations by Large Language Models [86.8650252164764]
大規模言語モデル(LLM)は、事実的に誤った出力を生成する傾向にある。
本研究では,LLMへのコンフォメーションスコア変換法を拡張する適応型コンフォメーション予測手法を提案する。
これにより、アクシデントに依存したキャリブレーションが可能となり、条件付きカバレッジを改善しながら、限界範囲のカバレッジ保証が維持される。
論文 参考訳(メタデータ) (2026-04-15T15:35:42Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging [29.58798660724693]
連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを順次統合する。
テスト時間連続モデルマージの新しいフレームワークであるMINGLEを提案する。
MINGLEは堅牢な一般化を実現し、忘れることを大幅に減らし、従来の最先端の手法を平均で7-9%上回っている。
論文 参考訳(メタデータ) (2025-05-17T07:24:22Z) - WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales [22.789611187514975]
非パラメトリックシーケンシャルテストのメソッド -- 特にコンフォーマルテストマーチンチャル(CTM)と任意の時間価推論 -- は、この監視タスクに有望なツールを提供する。
既存のアプローチは、限られた仮説クラスやアラーム基準の監視に限られています。」
論文 参考訳(メタデータ) (2025-05-07T17:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。