論文の概要: The Latent Bridge: A Continuous Slow-Fast Channel for Real-Time Game Agents
- arxiv url: http://arxiv.org/abs/2606.24470v1
- Date: Tue, 23 Jun 2026 12:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.936278
- Title: The Latent Bridge: A Continuous Slow-Fast Channel for Real-Time Game Agents
- Title(参考訳): The Latent Bridge: リアルタイムゲームエージェントのための連続的なスローダウンチャンネル
- Authors: Bojie Li, Noah Shi,
- Abstract要約: リアルタイムエージェントは、数ミリ秒以内に動作しつつ、数秒以上計画しなければなりません。
推論VLMは効果的に意図するが、応答毎に1.5秒を要する。
反応性のVLMはミリ秒で作用するが、計画的な作業では不十分である。
- 参考スコア(独自算出の注目度): 0.33451037881913753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A real-time agent for general computer use - with games as the most demanding case - must act within tens of milliseconds while still planning over seconds. These two regimes sit at opposite ends of the latency-quality tradeoff. A reasoning VLM (Qwen3-VL-8B-Thinking) deliberates effectively but requires ~1.5 s per response - far too slow for a 15 Hz control loop. In contrast, a reactive VLM (MiniCPM-o 4.5) acts in milliseconds but underperforms on planning-heavy tasks. We couple two frozen models of matched scale (9B reactive, 8B reasoning), leaving the communication channel as the sole trainable component. The standard coupling is a Text Bridge (T): the slow model writes a suffix the fast model reads. We introduce a learned continuous Latent Bridge (L) that projects the slow model's residuals into the fast model's input-embedding space in a LLaVA-style manner, avoiding any text round-trip; both are compared against Fast-Only (F). On 7 Atari games and a driving domain (MetaDrive), tuning the action decoder per channel on held-out seeds, the Latent Bridge matches or beats the Text Bridge in every domain: it significantly improves two games (MsPacman +57%, RoadRunner +28%) and is a safe drop-in elsewhere. Combining both channels interferes destructively (RoadRunner -96%), so only one should be used. The benefit is highly predictable: the bridge helps if and only if slow reasoning already beats fast reaction (T > F) - the Latent and Text gains over Fast-Only move together at r=0.93. MetaDrive is the controlled negative, where the Latent Bridge is demonstrably inert because the Text Bridge adds no value. We release replay recordings and reproducible pipelines.
- Abstract(参考訳): ゲームが最も要求されるケースである、汎用コンピュータ用のリアルタイムエージェントは、数ミリ秒以内に動作しつつ、数秒以上の計画を立てなければならない。
これら2つの体制は、レイテンシ品質のトレードオフの反対側にあります。
推論VLM(Qwen3-VL-8B-Thinking)は、効果的に意図するが、1応答あたり1.5秒を要する。
対照的に、反応性VLM(MiniCPM-o 4.5)はミリ秒で作用するが、計画重タスクでは性能が劣る。
マッチングスケール(9Bリアクティブ,8B推論)の凍結モデル2つを分離し,通信チャネルを唯一のトレーニング可能なコンポーネントとして残した。
標準結合はText Bridge (T): 遅いモデルは高速モデルが読み取る接尾辞を書く。
LLaVA方式で高速モデルの入力埋め込み空間にスローモデルの残余を投影し,テキストのラウンドトリップを回避し,Fast-Only(F)と比較する学習連続潜時橋(L)を提案する。
7つのAtariゲームとドライブドメイン(MetaDrive)で、チャンネル毎のアクションデコーダをホールトアウトシードでチューニングし、ラテントブリッジは各ドメインのテキストブリッジにマッチまたは打ち勝つ。
両方のチャネルの組み合わせは破壊的に干渉する(RoadRunner -96%)。
この橋は、遅い推論が高速反応 (T > F) を既に打ち負かしている場合にのみ有効である。
MetaDriveはコントロールされた負であり、テキストブリッジに値が加わらないため、遅延ブリッジは明らかに不活性である。
リプレイ録音と再現可能なパイプラインをリリースします。
関連論文リスト
- VLMaxxing through FrameMogging Training-Free Anti-Recomputation for Video Vision-Language Models [0.0]
ビデオビジョン言語モデル(VLM)は、すでに教えてくれたストリームが安定している視覚状態に対して支払いを続けています。
我々は、無駄をトレーニングなしの反再計算として研究する: バリデーションが生き残るという状態の再利用。
凍結したQwen2.5-VL-7B-Instruct-4bitでは、適応的な同ビデオ追従再利用がペア選択と正確性を保存する。
論文 参考訳(メタデータ) (2026-05-05T04:13:32Z) - Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference [22.977205925809134]
本稿では,VLM出力の時間差を推定する軽量モデルであるLatent Bridgeを提案する。
ラテントブリッジは95-100%の性能維持を実現し、VLMコールを50-75%削減し、エピソード当たり1.65-1.73xネットのスピードアップを実現している。
論文 参考訳(メタデータ) (2026-05-04T15:37:55Z) - StreamingVLM: Real-Time Understanding for Infinite Video Streams [23.94087606884915]
StreamingVLMは、無限視覚入力のリアルタイムで安定した理解のために設計されたモデルである。
私たちのアプローチは、トレーニングとストリーミング推論を整合させる統合フレームワークです。
Inf-Streams-Evalでは、StreamingVLMはGPT-4O miniに対して66.18%の勝利率を獲得し、1つのNVIDIA H100上で最大8FPSで安定したリアルタイムパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-10T17:59:58Z) - Combating the effects of speed and delays in end-to-end self-driving [0.8287206589886881]
専門家の運転のデータセットがどのように収集され、モデルが専門家が異なる状況で何をするかを推測することを学ぶ。
高速運転を訓練したモデルでは、遅い運転と逆運転という一見簡単な作業が実行できないことを実験的に示す。
ここで議論されているアイデアのいくつかは、より広範な自動運転のコンテキストに移行可能である可能性がある。
論文 参考訳(メタデータ) (2023-12-06T10:09:10Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - TadML: A fast temporal action detection with Mechanics-MLP [0.5148939336441986]
時間的行動検出(TAD)はビデオ理解において不可欠だが難しい課題である。
現在のモデルでは、TADタスクにRGBとOpto-Flowストリームが採用されている。
本稿では,RGBストリームのみを用いたワンステージアンカーフリー時間的ローカライズ手法を提案し,新しいニュートン力学-MLPアーキテクチャを構築した。
論文 参考訳(メタデータ) (2022-06-07T04:07:48Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。