論文の概要: FAPO: Fully Automated Prompt Optimization of Multi-Step LLM Pipelines
- arxiv url: http://arxiv.org/abs/2606.19605v2
- Date: Sat, 20 Jun 2026 12:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.822389
- Title: FAPO: Fully Automated Prompt Optimization of Multi-Step LLM Pipelines
- Title(参考訳): FAPO:マルチステップLLMパイプラインの完全自動プロンプト最適化
- Authors: Paul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi,
- Abstract要約: FAPOは、Claude Codeが標準化されたフレームワーク内でLLMパイプラインを最適化することを可能にするフレームワークです。
FAPOはパイプラインを評価し、中間ステップを検査し、障害を診断し、スコープ変更を提案し、変種を検証する。
FAPOは18のモデルベンチマーク比較のうち15でベースラインのEPAを上回っている。
- 参考スコア(独自算出の注目度): 27.787143341955698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present Fully Automated Prompt Optimization (FAPO), a framework that lets Claude Code optimize an LLM pipeline inside a standardized codebase. FAPO evaluates a pipeline, inspects intermediate steps, diagnoses failures, proposes scoped changes, and validates variants repeatedly to optimize against a score function. It first tries prompt edits and, only when prompt optimization appears insufficient, changes chain structure within the permitted scope when attribution identifies a structural bottleneck. Across six benchmarks and three task models, FAPO beats the baseline GEPA in 15 of 18 model-benchmark comparisons. In 11 model-benchmark comparisons, FAPO wins with non-overlapping mean $\pm$ trial-standard-deviation ranges, and the mean FAPO-GEPA gain is +14.1 pp. In the six HoVer and IFBench comparisons where prompt-first search escalated to structural changes, FAPO wins all six with a mean gain of +33.8 pp. FAPO also improves performance on security tasks: on CTIBench-RCM, a security CVE-to-CWE task, prompt-only FAPO lifts test accuracy by +4.0 pp on GPT-5, +7.1 pp on Foundation-Sec-8B-Instruct, and +2.0 pp on Foundation-Sec-8B-Reasoning. These results position FAPO as a state-of-the-art pipeline optimization technique for both general-purpose and security-focused tasks.
- Abstract(参考訳): マルチステップLLMパイプラインは、検索、推論、フォーマットステップ間の相互作用によって失敗するため、プロンプトのみの最適化はチェーンのボトルネックを見逃す可能性がある。
私たちは、Claude Codeが標準化されたコードベース内でLLMパイプラインを最適化できるフレームワークであるFlly Automated Prompt Optimization (FAPO)を紹介します。
FAPOはパイプラインを評価し、中間ステップを検査し、障害を診断し、スコープ変更を提案し、変種を繰り返し検証してスコア関数に対して最適化する。
最初にプロンプト編集を試みるが、プロンプト最適化が不十分な場合にのみ、アトリビューションが構造的ボトルネックを特定するとき、許容範囲内のチェーン構造を変更する。
6つのベンチマークと3つのタスクモデルで、FAPOは18のモデルベンチマーク比較のうち15でベースラインのEPAを上回っている。
11のモデルベンチマーク比較では、FAPOは非重複平均$\pm$トライアル標準偏差範囲で勝利し、FAPO-GEPAの平均利得は+14.1 pp.である。
HoVer と IFBench の6つの比較では、初期探索が構造変化にエスカレートされ、FAPO は平均利得+33.8 pp で6つすべてに勝利した。
CTIBench-RCMでは、セキュリティCVE-to-CWEタスクであるFAPOは、GPT-5では+4.0pp、Foundation-Sec-8B-Instructでは+7.1pp、Foundation-Sec-8B-Reasoningでは+2.0pp、テスト精度を+4.0pp引き上げる。
これらの結果から,FAPOは汎用タスクとセキュリティタスクの両方を対象とした最先端パイプライン最適化手法として位置づけられた。
関連論文リスト
- Trace2Policy: From Expert Behavior Traces to Self-Evolving Decision Agents [5.689042186242701]
企業の専門家が暗黙的に適用する決定ルールは、反復的エラー分析によって体系的に回復し、改善することができる。
基本機構は textbfEISR である textbfTrace2Policy について述べる。
各ラウンドは検証セット上でルールを実行し、ルート原因によるエラーをMISSING、WRONG、CONFLICTタイプにクラスタし、ターゲットパッチを適用し、レグレッションゲートを通過するもののみをコミットする。
論文 参考訳(メタデータ) (2026-06-09T06:05:29Z) - Prompt Codebooks: Discrete Compositional Optimization for Language Model Instruction Refinement [10.441136483320205]
本稿では,新しい合成プロンプト最適化フレームワークであるPrompt Codebooksを提案する。
これは、APOを自然言語本能の有限語彙上の離散学習であると再認識する。
ゼロショット以上は+30.36ポイントまで改善され、HotpotQAでは+3.34、アグリゲートでは+1.11で最強のベースライン(GEPA)を超える。
論文 参考訳(メタデータ) (2026-05-27T11:57:12Z) - F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking [79.49893545611779]
大規模言語モデル(LLM)はサブセットを生成し、それを1つの自己回帰パス内で順序付けることができる。
この柔軟性は、新しい最適化課題をもたらす: モデルが出力空間を検索し、完全なランクリストが生成された後にのみユーティリティフィードバックを受けなければならない。
このクレジット割り当てギャップは、エンドツーエンドの最適化を不安定にし、サンプル非効率にする。
本稿では,単一自己回帰的ロールアウト内の両方を実行する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-13T04:52:33Z) - PPO guided Agentic Pipeline for Adaptive Prompt Selection and Test Case Generation [0.30786914102688595]
本稿では,強化学習駆動型エージェントフレームワークを用いた新しいテストケース生成手法を提案する。
フェーズ1では、ToT誘導最適化エージェントが冗長性を取り除き、ソースコードを分割し、最小化する。
フェーズIIでは、8つの異なるプロンプト技術の中からプロンプトを選択する問題を解くために、PPOベースのポリシーネットワークを訓練する。
PPOエージェントは、ラインとブランチのカバレッジの増加、探索されていないブランチに対する罰則、ソースコードの長さを減らす報酬の組み合わせに基づいて報酬を受け取る。
論文 参考訳(メタデータ) (2026-05-01T06:19:51Z) - PARM: Pipeline-Adapted Reward Model [60.769414637325326]
リワードモデル(RM)は、大規模言語モデル(LLM)を人間の好みと整合させることの中心であり、高度な復号化戦略を推進している。
これまでの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションはますますマルチステージパイプラインを採用するようになっている。
我々は、最適化のためのコード生成を通じてこれを調査し、報酬モデルを定式化とソリューション段階の両方に統合するパイプラインを構築する。
論文 参考訳(メタデータ) (2026-04-20T14:29:08Z) - Adaptive Prompt Structure Factorization: A Framework for Self-Discovering and Optimizing Compositional Prompt Programs [18.579725648410815]
APIのみのフレームワークであるAdaptive Prompt Structure Factorization (aPSF)を提案する(prompt-in/text-out; モデル内部へのアクセスなし)。
aPSFはアーキテクトモデルを使用して、タスク固有のプロンプト構造を意味要因として発見する。
aPSFは、原則認識を含む強力なベースラインを上回り、平均で最大2.16ポイントの精度を向上させる。
論文 参考訳(メタデータ) (2026-04-08T05:25:40Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - carps: A Framework for Comparing N Hyperparameter Optimizers on M Benchmarks [61.79411281702448]
carpsはComprehensive Automated Research Performance Studiesのベンチマークフレームワークである。
我々は、ブラックボックス、マルチオブジェクト、マルチオブジェクト、マルチオブジェクトの4つの重要なタイプのHPOタスクに焦点をあてる。
5つのコミュニティベンチマークコレクションから336のタスクと28種類の9つのファミリーで、私たちはこれまでで最大のGotoライブラリを提供しています。
論文 参考訳(メタデータ) (2025-06-06T15:01:39Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning [25.742830118709424]
Proximal Policy Optimization (PPO)は、大規模言語モデル(LLM)の機能を改善するためのフレームワークである。
PPOは監督された微調整よりも一貫して優れており、GLUEでは平均6.3ポイント向上している。
本研究は,LLMを強化学習問題とみなすことで,新たなタスクに適応する上で有望な方向性を示すものである。
論文 参考訳(メタデータ) (2024-10-14T19:16:56Z) - Generalized Preference Optimization: A Unified Approach to Offline Alignment [54.97015778517253]
本稿では,一般的な凸関数のクラスによってパラメータ化されるオフライン損失の族である一般化された選好最適化(GPO)を提案する。
GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含む、優先最適化に関する統一的なビューを可能にする。
本研究は,新たなアルゴリズムツールキットと経験的洞察を実践者のアライメントに提示する。
論文 参考訳(メタデータ) (2024-02-08T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。