論文の概要: Kwai Keye-VL-2.0 Technical Report
- arxiv url: http://arxiv.org/abs/2606.10651v1
- Date: Tue, 09 Jun 2026 09:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.431215
- Title: Kwai Keye-VL-2.0 Technical Report
- Title(参考訳): Kwai Keye-VL-2.0テクニカルレポート
- Authors: Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang,
- Abstract要約: Keye-VL-2.0は、長期ビデオ理解とエージェントインテリジェンスを促進するために設計されたマルチモーダル基盤モデルである。
DeepSeek Sparse Attention (DSA)をGQAベースのマルチモーダルアーキテクチャに適応したのは,これが初めてである。
コンテクスト-RLとビデオ-RLを併用したMOPD(Cross-Modal Multi-Teacher On-Policy Distillation)は破滅的忘れのアルゴリズム的ジレンマを克服する。
- 参考スコア(独自算出の注目度): 53.82434681649277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Kwai Keye-VL-2.0-30B-A3B, an open-source Mixture-of-Experts (MoE) multimodal foundation model designed to advance long-video understanding and agentic intelligence. To address the challenges of ultra-long contexts, information redundancy, and prohibitive computational costs inherent in hour-level videos, Keye-VL-2.0 is the first to adapt DeepSeek Sparse Attention (DSA) to GQA-based multimodal architectures, enabling lossless 256K context processing while capturing critical frames and long-range temporal dependencies. This architecture is underpinned by a highly optimized training and inference infrastructure, including scalable video I/O, heterogeneous ViT-LM parallelism, and custom DSA kernels that significantly maximize throughput and minimize computational overhead. Furthermore, to overcome the algorithmic dilemma of catastrophic forgetting during multi-task alignment, we introduce Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) paired with Context-RL and Video-RL. By distilling dense token-level teacher feedback from on-policy rollouts back into the MoE backbone, which activates only 3B parameters, Keye-VL-2.0 natively empowers advanced agent collaboration across Code, Tool, and Search scenarios with multimodal self-correction. Extensive evaluations across video understanding, temporal grounding, reasoning, STEM, and agent benchmarks demonstrate that Keye-VL-2.0-30B-A3B achieves state-of-the-art performance among models of similar scale, particularly excelling in fine-grained temporal localization on TimeLens and long-video comprehension on Video-MME-v2 and LongVideoBench. We release our model checkpoints to accelerate community progress toward scalable and robust multimodal agentic applications.
- Abstract(参考訳): Kwai Keye-VL-2.0-30B-A3BはオープンソースのMixture-of-Experts(MoE)マルチモーダル基盤モデルで,長期映像理解とエージェントインテリジェンスの向上を目的としている。
超長期のコンテキスト、情報冗長性、時間単位の動画に固有の禁忌計算コストの課題に対処するため、Keye-VL-2.0は、DeepSeek Sparse Attention (DSA)をGQAベースのマルチモーダルアーキテクチャに適用し、重要なフレームと長時間の時間依存性をキャプチャしながら、損失のない256Kコンテキスト処理を可能にする。
このアーキテクチャは、スケーラブルなビデオI/O、ヘテロジニアスなVT-LM並列性、スループットを著しく最大化し計算オーバーヘッドを最小限にするカスタムDSAカーネルなど、高度に最適化されたトレーニングと推論のインフラによって支えられている。
さらに,マルチタスクアライメントにおける壊滅的忘れのアルゴリズム的ジレンマを克服するために,Context-RL と Video-RL を併用したクロスモーダルマルチTeacher On-Policy Distillation (MOPD) を導入する。
3BパラメータのみをアクティベートするMoEバックボーンに、オンラインのロールアウトから高密度のトークンレベルの教師フィードバックを蒸留することで、Keye-VL-2.0は、コード、ツール、検索シナリオを多モーダルな自己補正で横断する高度なエージェントコラボレーションをネイティブに強化する。
ビデオ理解、時間的接地、推論、STEM、エージェントベンチマークの広範な評価により、Keye-VL-2.0-30B-A3Bは、特にTimeLensにおける微粒な時間的局所化と、Video-MME-v2およびLongVideoBenchにおける長ビデオ理解に優れた、類似スケールのモデル間で、最先端のパフォーマンスを達成していることが示された。
我々は、スケーラブルで堅牢なマルチモーダルエージェントアプリケーションに向けたコミュニティの進展を加速するために、モデルチェックポイントをリリースします。
関連論文リスト
- Qwen3-VL Technical Report [153.3964813640593]
Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。
最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。
Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
論文 参考訳(メタデータ) (2025-11-26T17:59:08Z) - Kwai Keye-VL 1.5 Technical Report [91.07838286692815]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。
まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。
次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。
第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (2025-09-01T15:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。