論文の概要: EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents
- arxiv url: http://arxiv.org/abs/2606.11182v1
- Date: Tue, 09 Jun 2026 17:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.662465
- Title: EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents
- Title(参考訳): EEVEE: 自己改善エージェントのための実世界でのテストタイムプロンプト学習を目指して
- Authors: Weixian Xu, Shilong Liu, Mengdi Wang,
- Abstract要約: EEVEEは、LLMエージェントのための最初のマルチデータセットテスト時プロンプト学習フレームワークである。
実世界のタスクストリーム下でテスト時のプロンプト学習を可能にする。
EEVEEはQwen3-4B-InstructとDeepSeek-V3.2で平均マルチベンチマークスコアを10.38点、24.32点改善している。
- 参考スコア(独自算出の注目度): 64.96332056338923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for single-dataset settings, while real-world applications require models to handle heterogeneous input streams drawn from multiple datasets, domains, and task distributions, limiting their practical applicability. To mitigate cross-dataset interference, EEVEE introduces a router that partitions incoming inputs into task clusters and assigns them to suitable prompt configurations. This design is optimized via a router-prompt co-evolution strategy, which employs interleaved router and prompt learning phases to address their mutual dependency. Experiments across multiple datasets demonstrate that the framework improves robustness under heterogeneous data streams while maintaining single-benchmark learning capability and efficiency. Specifically, EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%.
- Abstract(参考訳): 本稿では,LLMエージェントのための最初のマルチデータセットテスト時プロンプト学習フレームワークであるEEVEEを提案し,実世界のタスクストリーム下でのテスト時プロンプト学習を可能にする。
既存の方法は、主にシングルデータセット設定用に設計されているが、現実のアプリケーションは、複数のデータセット、ドメイン、タスク分散から引き出された異種入力ストリームを扱うモデルを必要とし、実用性を制限する。
データセット間の干渉を軽減するため、EEVEEは入力をタスククラスタに分割し、適切なプロンプト設定に割り当てるルータを導入した。
この設計は、ルータ間の相互依存に対処するためにインターリーブされたルータと学習フェーズを利用するルータ-プロンプト共進化戦略によって最適化される。
複数のデータセットにわたる実験により、このフレームワークは、単一ベンチマーク学習能力と効率を維持しながら、不均一なデータストリーム下で堅牢性を向上させることが示されている。
具体的には、EEVEEはQwen3-4B-InstructとDeepSeek-V3.2で平均的なマルチベンチマークスコアを10.38点、24.32点改善し、SOTA法を最大37.2%、ACE法を最大48.2%上回っている。
関連論文リスト
- COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - Data-Local Autonomous LLM-Guided Neural Architecture Search for Multiclass Multimodal Time-Series Classification [0.4925906256430175]
LLM誘導型ニューラルネットワークサーチ(NAS)は、この探索を自動化することができるが、ほとんどの場合、クラウドの実行や、公開できないデータ由来のアーティファクトへのアクセスを前提としている。
固定されたプロトコルで全てのトレーニングと評価をローカルに実行しながら、遠隔で候補パイプラインを処理できる新しいデータローカルLLM誘導探索フレームワークを提案する。
本フレームワークは,クラスごとの1-vs-restバイナリエキスパートによるマルチクラス・マルチモーダル学習,軽量融合,エキスパートアーキテクチャとモダリティ特化前処理に関する共同探索を対象とする。
論文 参考訳(メタデータ) (2026-03-16T21:46:05Z) - Relatron: Automating Relational Machine Learning over Relational Databases [50.94254514286021]
本稿では, RDL と DFS を共有設計空間に統合し, 多様な RDB タスクを対象としたアーキテクチャ中心の検索を行う。
RDLはDFSを一貫して上回り、高いタスク依存性を持つ。(2)タスク全体において単一のアーキテクチャが支配的であり、タスク認識モデル選択の必要性を強調し、精度は選択アーキテクチャの信頼性の低いガイドである。
論文 参考訳(メタデータ) (2026-02-26T02:45:22Z) - CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory [19.64051996386645]
CREAMは、メモリベースの連続検索のための自己教師型フレームワークである。
教師なしの環境では、目に見えないトピックと見えないトピックの両方に適応します。
2つのベンチマークデータセットの実験は、CREAMが優れた適応性と精度を示すことを示した。
論文 参考訳(メタデータ) (2026-01-06T04:47:49Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Self-Supervised Human Activity Recognition with Localized Time-Frequency
Contrastive Representation Learning [16.457778420360537]
スマートフォン加速度計データを用いた人間行動認識のための自己教師付き学習ソリューションを提案する。
加速度計信号から強い表現を学習し,クラスラベルへの依存度を低減させるモデルを開発した。
提案手法の性能をMotionSense, HAPT, HHARの3つのデータセットで評価した。
論文 参考訳(メタデータ) (2022-08-26T22:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。