論文の概要: Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent Workflows
- arxiv url: http://arxiv.org/abs/2606.14672v1
- Date: Fri, 12 Jun 2026 17:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:43.016089
- Title: Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent Workflows
- Title(参考訳): LLM-Agentワークフローにおける並列分岐の直接遅延空間合成に向けて
- Authors: Shikun Liu, Mufei Li, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li,
- Abstract要約: 大規模言語モデルはエージェントシステムの実行エンジンとしてますます機能するが、それでもシーケンシャルなテキストインターフェースを通じてコンテキストを消費する。
本研究では,並列ワーカーエージェントが生成するKVキャッシュを直接消費するプラグイン・アンド・プレイフレームワークであるParallel-Synthesisを紹介する。
我々は、並列キャッシュコンテキストにシンセサイザーを露出するデータを用いて並列合成を訓練し、キャッシュされた分岐間の集約を教え、標準テキスト結合に基づく合成から推論の振る舞いを蒸留する。
- 参考スコア(独自算出の注目度): 32.86656152626106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models increasingly serve as execution engines for agentic systems, yet they still consume context through a sequential text interface. This creates a mismatch with modern structured agent workflows, in which independent branches explore subtasks, retrieve evidence, or generate candidate solutions before a final synthesis step. Existing systems typically merge these branches by concatenating their textual outputs, which discards the parallel structure and incurs redundant prefill computation. In this work, we introduce Parallel-Synthesis, a plug-and-play framework that enables a synthesizer to directly consume the KV caches produced by parallel worker agents. Parallel-Synthesis combines a cache mapper that calibrates independently generated branch caches with a fine-tuned synthesizer adapter that enables generation from this non-sequential cache interface. We train Parallel-Synthesis using data that exposes the synthesizer to parallel cache contexts, teaches aggregation across cached branches, and distills reasoning behavior from standard text-concatenation-based synthesis. Across nine downstream datasets spanning math, science QA, code generation, GAIA, and multi-agent database diagnosis, Parallel-Synthesis matches or outperforms text-based synthesis on seven datasets and remains close on the other two. It also reduces time-to-first-token by 2.5x-11x, suggesting that direct cache-based synthesis is a promising interface for more native and efficient synthesis over parallel agent branches.
- Abstract(参考訳): 大規模言語モデルはエージェントシステムの実行エンジンとしてますます機能するが、それでもシーケンシャルなテキストインターフェースを通じてコンテキストを消費する。
これにより、独立したブランチがサブタスクを探索したり、エビデンスを検索したり、最終的な合成ステップの前に候補解を生成するという、現代的な構造化エージェントワークフローとのミスマッチが生じる。
既存のシステムはテキスト出力を結合することでこれらのブランチをマージし、並列構造を捨て、冗長なプリフィル計算を発生させる。
本研究では,並列ワーカーエージェントが生成するKVキャッシュを直接消費するプラグイン・アンド・プレイフレームワークであるParallel-Synthesisを紹介する。
Parallel-Synthesisは、独立に生成されたブランチキャッシュを校正するキャッシュマッパーと、この非シーケンスキャッシュインターフェースから生成可能な微調整のシンセサイザーアダプタを組み合わせる。
我々は、並列キャッシュコンテキストにシンセサイザーを露出するデータを用いて並列合成を訓練し、キャッシュされた分岐間の集約を教え、標準テキスト結合に基づく合成から推論の振る舞いを蒸留する。
数学、科学QA、コード生成、GAIA、マルチエージェントデータベース診断にまたがる9つの下流データセットで、Parallel-Synthesisは7つのデータセットでテキストベースの合成にマッチするか、上回っている。
直接キャッシュベースの合成は、並列エージェントブランチよりもよりネイティブで効率的な合成のための有望なインターフェースであることを示唆している。
関連論文リスト
- SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation [29.545442480332515]
プリコンパイルされたリンクではなく静的を超越する統一メモリアーキテクチャであるSynapseを紹介する。
この結果から,Synapseは時間的およびマルチホップの複雑な推論タスクにおいて,最先端の手法を著しく上回ることがわかった。
私たちのコードとデータは受け入れ次第公開されます。
論文 参考訳(メタデータ) (2026-01-06T06:19:58Z) - Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation [13.289870835946347]
大規模言語モデル(LLM)に基づく音声生成モデルは、テキストトークンと基本的に異なる離散音響符号で動作する。
各段階において、モデルはNのコードブックエントリを共同で予測し、単純な並列予測アプローチに挑戦する依存関係を導入する必要がある。
これを解決するために階層戦略では、ローカルトランスフォーマー(LT)を使用して予測を洗練し、タイムステップ内依存関係をキャプチャする。
本稿では,計算効率や合成忠実度などのデプロイメントの優先順位に基づいて,デコード戦略を選択するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2025-09-23T21:31:00Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。