論文の概要: When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2606.20113v2
- Date: Fri, 19 Jun 2026 09:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.030789
- Title: When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented Generation
- Title(参考訳): ストリーミングツールはいつ役に立つのか? ストリーミング検索強化生成におけるツールインテリジェンス安定化の特徴
- Authors: Elroy Galbraith,
- Abstract要約: Streaming Retrieval-Augmented Generationは、発話が完了する前に、ユーザのまだ到着している入力と並行して検索クエリを発行することで、ツールのレイテンシを隠蔽する。
我々は,この特性,ツールインテリジェンス安定化,すなわち,投機的クエリの検索が解答結果に収束する入力ストリーム内の点を命名し,測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming Retrieval-Augmented Generation (Streaming RAG) hides tool latency by issuing retrieval queries in parallel with the user's still-arriving input, before the utterance is complete. Speculation can only help, though, when the correct query becomes determinable before the user stops speaking or typing -- a property of the query, not the system. We name and measure this property, tool-intent stabilization: the point in the input stream at which a speculative query's retrieval converges on the answer-bearing result. On the CRAG benchmark (1371 validation questions) we (i) characterize how stabilization is distributed across queries; (ii) derive a model-agnostic bound H on the share of tool latency hideable behind the remaining input, given tool latency L and input cadence delta; (iii) validate it against a working streaming pipeline; and (iv) ask which query properties predict early versus late stabilization. Stabilization is typically early: at a realistic operating point a 73.9% streamable fraction of the benchmark admits latency hiding, and H acts as a conservative aggregate floor that realized savings meet or exceed -- though it does not predict savings query by query. Question type yields a statistically significant but small early/late split. The study needs no model training and runs on commodity CPU hardware; a dense-retriever replication confirms the early-stabilization effect is not a BM25 lexical artifact.
- Abstract(参考訳): Streaming Retrieval-Augmented Generation (Streaming RAG)は、発話が完了する前に、ユーザの入力と並行して検索クエリを発行することで、ツールのレイテンシを隠蔽する。
推測は、ユーザが話すのをやめる前に正しいクエリが決定可能になったとき、つまり、システムではなくクエリのプロパティである場合にのみ有効である。
我々は,この特性,ツールインテリジェンス安定化,すなわち,投機的クエリの検索が解答結果に収束する入力ストリーム内の点を命名し,測定する。
CRAGベンチマーク(1371)について
i) クエリ間で安定化がどのように分散しているかを特徴付ける。
(ii) 与えられたツール待ち時間Lと入力待ち時間デルタの入力に隠れ可能なツール待ち時間シェアのモデル非依存境界Hを導出すること。
三 動作中のストリーミングパイプラインに対して検証すること、及び
(iv)どのクエリプロパティが早期と後期の安定化を予測するかを尋ねる。
現実的な運用ポイントでは、73.9%のストリーム可能なベンチマークがレイテンシの隠蔽を認め、Hは、クエリによるセーブクエリを予測していないにも関わらず、セーブが一致または超えることを認識した保守的な集約フロアとして機能する。
質問タイプは統計的に有意であるが、早期/後期の分裂が小さい。
この研究はモデルトレーニングを必要とせず、コモディティなCPUハードウェア上で実行される。
関連論文リスト
- Closing the Loop on Latent Reasoning via Test-Time Reconstruction [45.08180971427891]
最近の研究は、中間推論を自然言語のトレースから潜時あるいはキャッシュレベルの表現に移行している。
本稿では,クエリ自体を参照としてループをクローズする自己教師型テストタイムトレーニング手法であるRELATを提案する。
ReLATは、単一モデル推論、テキストベースのコラボレーション、オープンループラテントコラボレーション、代替テストタイムトレーニング目標よりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2026-06-04T14:54:40Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance [9.771590610969918]
WMF-AM(Working Memory Fidelity-Active Manipulation)を紹介する。
その結果,20種類のオープンウェイトモデル (0.5B-35B, 13ファミリー) で10タスク・エージェント・バッテリを発売した。
論文 参考訳(メタデータ) (2026-03-28T17:25:11Z) - First-Mover Bias in Gradient Boosting Explanations: Mechanism, Detection, and Resolution [0.0]
第1モーバーバイアス(英: First-mover bias)は、勾配上昇における逐次的残留フィッティングに起因する特徴量の集中である。
モデル独立性は線形状態における最優先バイアスを解くのに十分であり、非線形データ生成プロセス下では最も効果的な緩和法であることを示す。
論文 参考訳(メタデータ) (2026-03-22T02:59:40Z) - Interpretable AI-Assisted Early Reliability Prediction for a Two-Parameter Parallel Root-Finding Scheme [0.0]
我々は,kNN-LLEプロキシ安定度プロファイルとマルチ水平早期予測に基づくパラメータ化ルートフィンディングスキームのAI支援信頼性診断フレームワークを提案する。
このフレームワークは解釈可能な安定性指標を提供し、継続、再起動、パラメータの調整など、ソルバ実行時の早期決定をサポートする。
論文 参考訳(メタデータ) (2026-03-17T15:17:35Z) - Constraint-Aware Discrete-Time PID Gain Optimization for Robotic Joint Control Under Actuator Saturation [18.71390061417015]
実効ループは離散時間実行、アクチュエータ飽和、小さな遅延と測定の不完全さによって連続時間理論から逸脱する。
飽和離散時間ジョイント制御のための実装認識分析およびチューニングワークフローを提案する。
論文 参考訳(メタデータ) (2026-01-26T16:11:05Z) - Can We Predict Before Executing Machine Learning Agents? [74.39460101251792]
データ中心のソリューション優先のタスクを形式化し、18,438対比較の包括的コーパスを構築する。
検証データ解析レポートを作成した場合, LLM は重要な予測能力を示すことを示す。
このフレームワークをForEAGENT(Predict-then-Verifyループを利用するエージェント)でインスタンス化し、実行ベースラインを+6%超えながらコンバージェンスを6倍高速化する。
論文 参考訳(メタデータ) (2026-01-09T16:44:17Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。