論文の概要: Environment-Grounded Automated Prompt Optimization for LLM Game Agents
- arxiv url: http://arxiv.org/abs/2606.17838v1
- Date: Tue, 16 Jun 2026 12:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.420054
- Title: Environment-Grounded Automated Prompt Optimization for LLM Game Agents
- Title(参考訳): LLMゲームエージェントの環境追従型自動プロンプト最適化
- Authors: Rean Clive Fernandes, Lukas Fehring, Theresa Eimer, Marius Lindauer, Matthias Feurer,
- Abstract要約: LLMエージェントのための自動プロンプト最適化フレームワークを提案する。
観察対アクションパイプラインをゴール条件記述エージェントとアクション選択エージェントに分解する。
環境リターンによって誘導されるLLM駆動の進化ループを通じて、各モジュールのプロンプトを反復的に洗練する。
- 参考スコア(独自算出の注目度): 11.148496916101989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents in interactive environments are highly sensitive to their prompts, yet prompt engineering remains a manual, task-specific process. We introduce an automated prompt optimization framework for LLM agents that decomposes the observation-to-action pipeline into a goal-conditioned descriptor agent and an action selection agent, and iteratively refines each module's prompt through an LLM-driven evolutionary loop guided by environment returns. We propose a behavior analyzer to attribute episode outcomes to specific prompt components, and a mutator to propose targeted revisions to the prompt, before validating them through environment rollouts. We evaluate on all five BabyAI tasks in the BALROG benchmark, comparing our pipeline against BALROG's RobustCoTAgent under both plain and guided prompt initializations. Optimization improves performance consistently across tasks and conditions, without requiring updates to the model weights. On PutNext, a multi-step coordination task where the RobustCoTAgent achieves 0% success, our framework reaches up to 72.5% success rate using the same underlying LLM with optimized prompts. These results suggest that a multi-agent framework, combined with automatic prompt optimization, enhances LLMs without the need for fine-tuning or extensive human supervision.
- Abstract(参考訳): 対話環境におけるLLMエージェントは、そのプロンプトに非常に敏感であるが、プロンプトエンジニアリングは手動のタスク固有のプロセスのままである。
本研究では,LLMエージェントの自動プロンプト最適化フレームワークを導入し,目標条件付き記述子エージェントとアクション選択エージェントにパイプラインを分解し,環境リターンによって誘導されるLLM駆動の進化ループを通じて各モジュールのプロンプトを反復的に洗練する。
本研究では,特定のプロンプトコンポーネントに対するエピソード結果の属性付けを行う行動解析器と,環境のロールアウトによって検証する前に,プロンプトを対象とするリビジョンを提案するミューテータを提案する。
BALROGベンチマークのBabyAIタスクを5つすべて評価し,BALROGのRobustCoTAgentと比較した。
最適化は、モデルウェイトのアップデートを必要とせずに、タスクや条件を越えたパフォーマンスを一貫して改善する。
PutNextでは、ロバストCoTAgentが0%の成功を達成するマルチステップコーディネートタスクとして、最適化されたプロンプトを持つ基盤となるLLMを使用して、最大72.5%の成功率に達する。
これらの結果から,マルチエージェントフレームワークと自動プロンプト最適化が組み合わさって,微調整や広範囲の人的監督を必要とせず,LLMを強化できることが示唆された。
関連論文リスト
- Agent-GWO: Collaborative Agents for Dynamic Prompt Optimization in Large Language Models [69.55139736609367]
Agent-GWOは複雑な推論のための動的プロンプト最適化フレームワークである。
本稿では,Agent-GWOが既存のプロンプト最適化手法よりも精度と安定性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2026-04-14T07:35:37Z) - Auto-Prompting with Retrieval Guidance for Frame Detection in Logistics [0.0]
プロンプトエンジニアリングは、大規模な言語モデル(LLM)を大規模な微調整を必要とせずに複雑な推論やラベル付けタスクに適応する上で重要な役割を担っている。
本稿では,ロジスティクステキストにおけるフレーム検出のための新しいプロンプト最適化パイプラインを提案し,検索強化生成(RAG),少数ショットプロンプト,チェーン・オブ・シークレット(CoT)推論,自動CoT合成(Auto-CoT)を組み合わせて,タスク固有のプロンプトを生成する。
このフレームワークは実世界のロジスティクステキストアノテーションタスクで評価され、推論精度とラベリング効率が重要となる。
論文 参考訳(メタデータ) (2025-12-22T10:29:51Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Meta-Prompt Optimization for LLM-Based Sequential Decision Making [24.050701239196876]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクを解決するエージェントとして採用されている。
メタプロンプトにおけるタスク記述とメタインストラクションを自動的に最適化する,プロンプト最適化(EXPO)のためのEXPonential-weightアルゴリズムを提案する。
また、EXPOを拡張して、メタプロンプトの例を最適化し、パフォーマンスをさらに向上する。
論文 参考訳(メタデータ) (2025-02-02T09:22:39Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。
人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。
これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。