論文の概要: Graph-based Target Back-Propagation for Context Adaptation in Multi-LLM Agentic Systems
- arxiv url: http://arxiv.org/abs/2606.14155v1
- Date: Fri, 12 Jun 2026 06:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.774076
- Title: Graph-based Target Back-Propagation for Context Adaptation in Multi-LLM Agentic Systems
- Title(参考訳): マルチLLMエージェントシステムにおけるコンテキスト適応のためのグラフベースターゲットバックプロパゲーション
- Authors: Tan Zhu, Tong Yao, Kananart Kuwaranancharoen, Amit Singh, Yushang Lai, Deepa Mohan, Shankara Bhargava,
- Abstract要約: コンテキスト適応は、モデル重みを変更することなく、タスクフィードバックからのプロンプトを反復的に修正することで、LLMベースのシステムにおけるプロンプトエンジニアリングを自動化する。
有向非巡回グラフとしてモデル化されたエージェントグラフのコンテキスト適応フレームワークである textbfGraph ベースの textbfTarget textbfBack-textPropagation (GTBP) を提案する。
- 参考スコア(独自算出の注目度): 1.6138730252470326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context adaptation automates prompt engineering in LLM-based systems by iteratively revising tunable prompts from task feedback, without modifying model weights. Extending this paradigm to multi-LLM agentic systems is crucial: existing methods suffer from inaccurate credit assignment and lack convergence guarantees. We propose \textbf{G}raph-based \textbf{T}arget \textbf{B}ack-\textbf{P}ropagation (GTBP), a context adaptation framework for agentic workflows modeled as directed acyclic graphs. GTBP propagates local target outputs backward through the workflow graph and uses target--output discrepancies to guide a stage-wise prompt update mechanism. Theoretically, we show that GTBP's stage-wise prompt updates become stable over iterations, and that a sufficiently capable LLM optimizer can decrease the overall objective. Empirically, GTBP consistently outperforms strong baselines across three benchmarks while maintaining comparable computational cost.
- Abstract(参考訳): コンテキスト適応は、モデル重みを変更することなく、タスクフィードバックから変更可能なプロンプトを反復的に修正することで、LLMベースのシステムにおけるプロンプトエンジニアリングを自動化する。
このパラダイムをマルチLLMエージェントシステムに拡張することは重要であり、既存のメソッドは不正確なクレジット割り当てと収束保証の欠如に悩まされている。
本稿では、有向非巡回グラフとしてモデル化されたエージェントワークフローのコンテキスト適応フレームワークである、textbf{G}raph-based \textbf{T}arget \textbf{B}ack-\textbf{P}ropagation (GTBP)を提案する。
GTBPは、ワークフローグラフを通じてローカルターゲット出力を後方に伝播し、ターゲット出力の相違を利用してステージワイズ更新メカニズムをガイドする。
理論的には、GTBPの段階的即時更新が反復よりも安定し、十分に能力のあるLLM最適化器が全体の目的を減らできることが示される。
実証的には、GTBPは3つのベンチマークにおいて、同等の計算コストを維持しながら、強いベースラインを一貫して上回っている。
関連論文リスト
- Adaptive Multimodal Agents-Based Framework for Automatic Workflow Execution [1.2132786136735432]
本稿では,異なる2相パイプラインによる自動ワークフロー実行を実現するための,新しいマルチエージェントフレームワークを提案する。
推論の間、エージェントはこの固定された事前確立されたグラフに対して適応検索拡張生成(RAG)を利用する。
実世界の文脈でフレームワークを検証し、限られたトレーニングデータであっても高い信頼性とセマンティックな認識を維持する能力を示す。
論文 参考訳(メタデータ) (2026-05-27T15:23:22Z) - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GLOW: Graph-Language Co-Reasoning for Agentic Workflow Performance Prediction [51.83437071408662]
本稿では,AW性能予測のための統合フレームワークGLOWを提案する。
GLOWは、GNNのグラフ構造モデリング能力とLLMの推論能力を組み合わせる。
FLORA-Benchの実験では、GLOWは予測精度とランキングユーティリティにおいて最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-11T13:30:46Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.829572148850563]
ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。
エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。
ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
論文 参考訳(メタデータ) (2025-10-06T09:30:18Z) - HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。
対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5~10%向上し、リソース効率が向上した。
論文 参考訳(メタデータ) (2025-08-29T18:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。