論文の概要: Rethinking Air-Ground Collaboration: A Progressive Cross-Task Benchmark and Socialized Learning Framework
- arxiv url: http://arxiv.org/abs/2606.18841v1
- Date: Wed, 17 Jun 2026 09:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.083513
- Title: Rethinking Air-Ground Collaboration: A Progressive Cross-Task Benchmark and Socialized Learning Framework
- Title(参考訳): エアグラウンドコラボレーションを再考する - プログレッシブなクロスタスクベンチマークとソーシャル学習フレームワーク
- Authors: Zhoupeng Guo, Yunqi Zhu, Zhihe Fan, Xinjie Yao, Ruipu Zhao, Boan Tao, Yiming Sun, Zhen Wang, Pengfei Zhu,
- Abstract要約: 社会的共知覚(Socialized Co-Perception, SCP)は、航空的グローバルローカライゼーションからグラウンドターゲット・アソシエーション、アイデンティティ・アウェア・パーシングまで、段階的にコラボレーションを組織する。
SCPは3.73%の進化的増加と7.86%のダウンストリーム性能向上を実現している。
- 参考スコア(独自算出の注目度): 12.881497228808078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Air-ground collaborative perception is crucial for robust visual understanding in real-world dynamic environments. However, existing studies typically formulate collaboration as single-task cross-view fusion, overlooking the functional dependencies among localization, target association, and fine-grained parsing. In addition, the heterogeneous nature of aerial and ground views introduces substantial geometric, scale, and occlusion discrepancies, making uniform feature sharing vulnerable to negative transfer. To tackle these issues, we model air-ground perception as a progressive cross-task collaboration task and construct the Air-Ground Progressive Collaboration (AGPC) benchmark, a spatio-temporally aligned benchmark comprising more than 745K raw video frames. Built upon this benchmark, we propose Socialized Co-Perception (SCP), a coarse-to-fine framework that organizes collaboration progressively from aerial global localization to ground target association and identity-aware parsing. Its core module, the Dual-Layer Router (DLR), decouples input-side multi-scale expert selection from output-side task-conditioned modulation, enabling selective cross-view and cross-task interaction while suppressing harmful interference. Extensive experiments demonstrate the effectiveness of SCP. It achieves a 3.73\% coevolutionary gain and a 7.86\% improvement in average downstream performance. These results show that task-conditioned collaboration is more effective than uniform fusion for heterogeneous air-ground perception. The code is available at https://github.com/g1136639260-spec/AGSCP.
- Abstract(参考訳): 地上での協調認識は、現実世界の動的環境における堅牢な視覚的理解に不可欠である。
しかし、既存の研究は通常、単一タスクのクロスビュー融合として、ローカライゼーション、ターゲットアソシエーション、きめ細かいパーシングの間の機能的依存関係を見越して、協調を定式化している。
さらに、空中と地上のビューの不均一な性質は、相当な幾何学的、スケール、オクルージョンの相違を導入し、均一な特徴共有を負の移動に弱いものにしている。
これらの課題に対処するために, 空中認識をプログレッシブ・タスク・クロスタスク・コラボレーション・タスクとしてモデル化し, 745K 以上の生ビデオフレームからなる時空間整合性ベンチマークである Air-Ground Progressive Collaboration (AGPC) ベンチマークを構築した。
このベンチマークに基づいて,空域のグローバルローカライゼーションから地上のターゲットアソシエーションやアイデンティティ認識解析まで,段階的に協調を組織する粗大なフレームワークであるSocialized Co-Perception (SCP)を提案する。
コアモジュールであるDual-Layer Router (DLR)は、出力側タスク条件変調から入力側の専門家選択を分離し、有害な干渉を抑えながら、選択的なクロスビューとクロスタスクの相互作用を可能にする。
大規模な実験はSCPの有効性を示す。
3.73\%のコエボリューショナルゲインと7.86\%のダウンストリームパフォーマンス向上を実現している。
これらの結果から, 作業条件付き協調作業は, 不均一な空地認識のための均一な融合よりも効果的であることが示唆された。
コードはhttps://github.com/g1136639260-spec/AGSCPで入手できる。
関連論文リスト
- Uni-Synergy: Bridging Understanding and Generation for Personalized Reasoning via Co-operative Reinforcement Learning [56.99010101756807]
我々は、パーソナライズされた理解と生成を共同で最適化する、エンドツーエンドの強化学習フレームワークSync-R1を提案する。
Sync-R1はパーソナライズされた理解を可能にしてコンテンツ生成をガイドし、生成した品質は相互に理解を洗練させる。
また,低電位トラジェクタを適応的にフィルタして勾配分散を低減し,収束を加速する動的グループスケーリング(DGS)も導入する。
実験結果から,Sync-R1は高度なクロスタスク推論とロバストなパーソナライゼーションを実現していることがわかった。
論文 参考訳(メタデータ) (2026-05-11T12:18:26Z) - Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling [31.36539752384395]
クロスビューUAVジオローカライゼーションは、ドローンが捉えた画像の正確な空間座標を、地理的に参照された広範囲な衛星データベースと整列させることを目的としている。
改良されたUAV-Satellite画像マッチングのための共同関係モデリングを明示的に行うために設計された,新しいプラグアンドプレイランキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-09T07:57:29Z) - Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation [14.262846967061947]
微粒化対応ポース推定(FiCoP)は、ノイズの発するグローバルマッチングから空間的に制約されたパッチレベル対応へ移行するフレームワークである。
FiCoPは、最先端の手法と比較して平均リコールを8.0%と6.1%改善する。
論文 参考訳(メタデータ) (2026-01-20T03:48:54Z) - INSTINCT: Instance-Level Interaction Architecture for Query-Based Collaborative Perception [6.018757656052237]
協調認識システムは、マルチエージェントの知覚データを統合し、精度と安全性を向上させることで、単一車両の制限を克服する。
これまでの研究は、クエリベースのインスタンスレベルのインタラクションが帯域幅の要求と手作業による事前処理を減らすことを証明してきたが、協調認識におけるLiDARによる実装は未開発のままである。
InSTINCTは,(1)高品質なインスタンス特徴選択のための品質認識型フィルタリング機構,2)協調関連インスタンスと協調関連インスタンスを分離するデュアルブランチ検出ルーティングスキーム,3)クロスエージェントローカルインスタンスフュージョンモジュール,の3つのコアコンポーネントを特徴とする新しい協調認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T07:16:32Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark [15.405137983083875]
航空と地上の協力は、UAVの空中視界と地上の車両の局部的な観測を統合することで、有望な解決策を提供する。
本稿では,3つの重要な貢献を通じて,地上3次元協調認識のための包括的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:00:07Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Asynchronous Interaction Aggregation for Action Detection [43.34864954534389]
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
論文 参考訳(メタデータ) (2020-04-16T07:03:20Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。