論文の概要: SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration
- arxiv url: http://arxiv.org/abs/2606.18902v1
- Date: Wed, 17 Jun 2026 10:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.116123
- Title: SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration
- Title(参考訳): SAGE:エージェントガイドによる確率的プロンプト最適化
- Authors: Ziyi Zhu, Luka Smyth, Saki Shinoda, Jinghong Chen,
- Abstract要約: 本稿では,プロンプト空間を探索するフレームワークであるSPO(Stochastic Prompt Optimization)を紹介する。
進化的演算子を用いた遺伝的アルゴリズムであるエラーインフォームドランダムサーチとSAGE(SPO via Agent-Guided Exploration)の比較を行った。
我々は,定量的検証と定性診断の結合がエージェント最適化をオープンなタスク指向対話に効果的にすると主張している。
- 参考スコア(独自算出の注目度): 4.5848302154106815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context engineering has emerged as a primary lever for improving AI systems without parameter updates. Recent work showing that textual gradients do not function as real gradients motivates treating automatic prompt optimization (APO) as black-box search. We introduce SPO (Stochastic Prompt Optimization), a framework for stochastic search over prompt space, and compare three strategies of increasing sophistication: error-informed random search, a genetic algorithm with evolutionary operators, and SAGE (SPO via Agent-Guided Exploration), a multi-agent pipeline with diagnostic code execution. Across three benchmarks, no single strategy dominates; effectiveness depends on the interaction of landscape structure with error type. We further deploy SAGE on a mental-health chatbot under a continuous optimization paradigm, where it compounds eight cycles of individually-noisy A/B tests into a statistically robust gain in next-day retention. We argue that coupling qualitative diagnosis with quantitative validation is what makes agentic optimization effective for open-ended task-oriented dialogue.
- Abstract(参考訳): コンテキストエンジニアリングは、パラメータ更新なしでAIシステムを改善するための主要なレバーとして登場した。
近年の研究では、テキストの勾配が実際の勾配として機能しないことが示されており、自動プロンプト最適化(APO)をブラックボックス検索として扱う動機となっている。
本稿では,SPO(Stochastic Prompt Optimization)という,プロンプト空間上の確率的探索のためのフレームワークを導入し,高度化のための3つの戦略を比較する。
有効性はランドスケープ構造とエラータイプとの相互作用に依存する。
我々はさらに、SAGEをメンタルヘルスチャットボットに継続的最適化パラダイムの下でデプロイし、個々のノイズの多いA/Bテストの8サイクルを翌日の継続において統計的に堅牢なゲインに合成する。
我々は,定量的検証と定性診断の結合がエージェント最適化をオープンなタスク指向対話に効果的にすると主張している。
関連論文リスト
- IterInject: Indirect Prompt Injection Against LLM Agents via Feedback-Guided Iterative Optimization [33.58630045185762]
既存の攻撃は、エージェント固有の防御に適応できない静的ペイロードに依存している。
インジェクション,診断,診断のループを閉じるフィードバック誘導反復型フレームワークである oursys を導入する。
ステップは、失敗パターンから新しい偽の種を生成し、戦略空間を自己進化させる。
論文 参考訳(メタデータ) (2026-05-23T17:00:06Z) - Towards a Virtual Neuroscientist: Autonomous Neuroimaging Analysis via Multi-Agent Collaboration [53.772014300855375]
我々は,自律型エンドツーエンド神経画像解析のためのマルチエージェントシステムであるNIAgentを紹介する。
従来のフラットなツール呼び出しエージェントとは異なり、NIAgentはコード中心の実行パラダイムを採用している。
本稿では,コホートレベルの検定とエージェント視覚検査を組み合わせた,自律的品質管理のための階層的検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-10T06:30:19Z) - Agent-GWO: Collaborative Agents for Dynamic Prompt Optimization in Large Language Models [69.55139736609367]
Agent-GWOは複雑な推論のための動的プロンプト最適化フレームワークである。
本稿では,Agent-GWOが既存のプロンプト最適化手法よりも精度と安定性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2026-04-14T07:35:37Z) - ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue [9.221285189821396]
本稿では,新しい不確実性を考慮した適応木ポリシー最適化 (ATPO) アルゴリズムを提案する。
提案手法は,ベルマン誤差とアクション値分散の複合測定値を用いて,高い不確実性のある状態にロールアウト予算を適応的に割り当てる。
3つの公開医療対話ベンチマークの実験により、我々のアルゴリズムはいくつかの強力なベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-10T07:47:23Z) - ATLAS : Adaptive Self-Evolutionary Research Agent with Task-Distributed Multi-LLM Supporters [6.13905106667213]
ATLASは、軽量な研究エージェントを反復的に開発するタスク分散フレームワークである。
我々のコアアルゴリズムであるEvolving Direct Preference Optimization (EvoDPO)は、位相インデックス付き参照ポリシーを適応的に更新する。
その結果,ATLASは静的単一エージェントベースラインの安定性と性能を向上させることがわかった。
論文 参考訳(メタデータ) (2026-02-02T19:23:33Z) - ContextEvolve: Multi-Agent Context Compression for Systems Code Optimization [8.046059974853858]
本稿では,厳密なパラメータブラインド制約の下でRLレベルの探索効率を実現するマルチエージェントフレームワークであるContextEvolveを紹介する。
ADRSベンチマークでは、ContextEvolveは最先端のベースラインを33.3%上回り、トークン消費を29.0%削減している。
論文 参考訳(メタデータ) (2026-02-01T16:50:07Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - GenPilot: A Multi-Agent System for Test-Time Prompt Optimization in Image Generation [13.197958581564256]
本稿では,入力テキストを直接操作するテスト時間プロンプト最適化手法を提案する。
私たちのアプローチは、モデルに依存しず、解釈可能で、長く複雑なプロンプトを扱うのに適しています。
論文 参考訳(メタデータ) (2025-10-08T16:51:52Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。