論文の概要: APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection
- arxiv url: http://arxiv.org/abs/2606.11459v1
- Date: Tue, 09 Jun 2026 21:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.185401
- Title: APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection
- Title(参考訳): APEX: 動的データ選択を備えた自動プロンプトエンジニアリングeXpert
- Authors: Fei Wang, Si Si, Cho-Jui Hsieh, Inderjit S. Dhillon,
- Abstract要約: 大規模言語モデルは、迅速な定式化に非常に敏感であり、その潜在能力を最大限に活用するためには、自動的なプロンプト最適化が必要である。
現在の手法では、開発データセットを静的なベンチマークとして扱い、非形式的なデータに対するかなりの計算予算を浪費している。
本稿では,APEX(Automatic Prompt Engineering eXpert)について紹介する。
- 参考スコア(独自算出の注目度): 60.504476571531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.
- Abstract(参考訳): 大規模言語モデルは、迅速な定式化に非常に敏感であり、その潜在能力を最大限に活用するためには、自動的なプロンプト最適化が必要である。
進化的アルゴリズムが支配的なパラダイムとして登場したが、それらは重要なボトルネック、すなわちデータ効率に悩まされている。
現在の手法では、開発データセットを静的なベンチマークとして扱い、非形式的なデータに対するかなりの計算予算を浪費している。
本稿では,データ利用を最適化する新しいフレームワークであるAPEX(Automatic Prompt Engineering eXpert)を紹介する。
APEXは最適化の系統に基づいてデータセットをイージー、ハード、ミックスの各層に動的に階層化する。
LLMが混合性能を持つデータを特定するMixedティアを優先順位付けすることにより、情報突然変異を生成するアドレス可能なフロンティアと、候補品質を識別するランクセンシティブフロンティアの2つのハイレベレッジサブセットを識別する。
IFBench、SimpleQA Verified、FACTS Groundingの3つのベンチマークでAPEXを評価した。
データ効率のため、5,000件の評価コールの固定予算の下で、APEXはGemini 2.5 Flashで平均11.2%、Gemma 3 27Bで6.8%、データ中心のアプローチが効率的かつ効果的なプロンプト最適化の鍵であることを実証した。
関連論文リスト
- From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models [73.72877445629383]
Interpretability-Guided Data Selection (IGDS) は、まず周波数リコールと干渉フィルタリングによって因果タスクの特徴を識別するフレームワークである。
我々は,数学的推論,要約,翻訳タスクに関するIGDSをGemma-2,LLaMA-3.1,Qwen3モデルで検証する。
論文 参考訳(メタデータ) (2026-04-28T03:16:24Z) - Model Performance-Guided Evaluation Data Selection for Effective Prompt Optimization [12.683042228674694]
IPOMPは、セマンティッククラスタリングとバウンダリ分析を使用して、代表的で多様なサンプルを選択する2段階のアプローチである。
我々は、IPOMPがSOTAベースラインと比較して、効率を1.6%から5.3%改善し、安定性を少なくとも57%向上させることを示した。
論文 参考訳(メタデータ) (2025-05-15T22:41:30Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。