論文の概要: AerialClaw: An Open-Source Framework for LLM-Driven Autonomous Aerial Agents
- arxiv url: http://arxiv.org/abs/2606.12142v1
- Date: Wed, 10 Jun 2026 14:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.507671
- Title: AerialClaw: An Open-Source Framework for LLM-Driven Autonomous Aerial Agents
- Title(参考訳): AerialClaw: LLM駆動の自律型エアリアルエージェントのためのオープンソースフレームワーク
- Authors: Ke Li, Jianfei Yang, Luyao Zhang, Guo Yu, Chengwei Yan, Yuan Ding, Di Wang, Nan Luo, Gang Liu, Xiao Gao, Quan Wang,
- Abstract要約: 無人航空機(UAV)は、検査、捜索救助、環境監視、緊急対応にますます利用されている。
本稿では,UAVを意思決定航空エージェントとして動作させるオープンソースソフトウェアフレームワークであるAerialClawを提案する。
- 参考スコア(独自算出の注目度): 28.465530476682684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicles (UAVs) are increasingly used in inspection, search and rescue, environmental monitoring, and emergency response. However, most UAV applications still rely on pre-defined command sequences or task-specific pipelines, where developers manually connect perception, planning, flight control, simulation, logging, and safety modules. This limits the flexibility, reproducibility, and extensibility of autonomous aerial systems. This paper presents AerialClaw, an open-source software framework that enables UAVs to operate as decision-making aerial agents rather than merely command-following platforms. Given a natural-language mission, AerialClaw allows an LLM-based agent to understand the task, maintain context, invoke executable aerial skills, observe perception and runtime feedback, and iteratively update its decisions in a closed loop. The framework adopts a modular brain-skill-runtime architecture, combining hard skills for atomic UAV operations, Markdown-based soft skills for reusable task strategies, document-driven agent state and capability boundaries, memory-driven reflection, safety-oriented runtime validation, and platform-agnostic execution adapters. AerialClaw supports lightweight mock execution, PX4 SITL with Gazebo, and AirSim-based simulation, together with a web console, pluggable model backends, example missions, simulation assets, and staged deployment scripts. By combining standardized aerial skills, document-driven agent state, memory, and closed-loop LLM decision-making, AerialClaw provides a reproducible and extensible open-source framework for building UAV systems that can interpret missions, make decisions, execute skills, and adapt their behavior from feedback.
- Abstract(参考訳): 無人航空機(UAV)は、検査、捜索救助、環境監視、緊急対応にますます利用されている。
しかしながら、ほとんどのUAVアプリケーションは、開発者が手動で知覚、計画、飛行制御、シミュレーション、ロギング、安全モジュールを接続する、事前に定義されたコマンドシーケンスやタスク固有のパイプラインに依存している。
これにより、自律飛行システムの柔軟性、再現性、拡張性が制限される。
本稿では,UAVを単なるコマンドフォロープラットフォームではなく,意思決定航空エージェントとして動作させるオープンソースソフトウェアフレームワークであるAerialClawを提案する。
自然言語のミッションを与えられたAerialClawは、LLMベースのエージェントがタスクを理解し、コンテキストを維持し、実行可能な空中スキルを実行し、知覚と実行時のフィードバックを観察し、決定をクローズドループで反復的に更新することを可能にする。
このフレームワークはモジュール型のブレインスキル・ランタイムアーキテクチャを採用し、原子UAV操作のハードスキル、再利用可能なタスク戦略のためのMarkdownベースのソフトスキル、ドキュメント駆動エージェントの状態と機能境界、メモリ駆動リフレクション、安全指向ランタイム検証、プラットフォームに依存しない実行アダプタを組み合わせた。
AerialClawは軽量モック実行、Gazeboを使ったPX4 SITL、AirSimベースのシミュレーション、Webコンソール、プラグイン可能なモデルバックエンド、例ミッション、シミュレーションアセット、ステージ化されたデプロイメントスクリプトをサポートする。
AerialClawは、標準化された航空技術、文書駆動エージェントの状態、メモリ、クローズドループのLCM意思決定を組み合わせることで、ミッションを解釈し、意思決定し、スキルを実行し、フィードバックから行動に適応できる、再現可能で拡張可能なオープンソースフレームワークを提供する。
関連論文リスト
- VASO: Formally Verifiable Self-Evolving Skills for Physical AI Agents [57.240036084348354]
本稿では,ロボットスキルコントラクトの検証誘導自己進化のためのフレームワークであるVASOを紹介する。
VASOは論理的に一貫性のないスキル契約を検証し、グローバルおよびローカルな時間的仕様に対してスキルによって誘発される計画を検証する。
Clearpath Jackal と PX4 のクアッドコプタータスクでは、VASO は100点未満の最適化サンプルを使用して97.2% の形式的な仕様準拠に達した。
論文 参考訳(メタデータ) (2026-06-03T20:02:35Z) - Say the Mission, Execute the Swarm: Agent-Enhanced LLM Reasoning in the Web-of-Drones [0.8492672431361252]
本稿では,UAVスワム制御のためのミッション非依存,エージェント強化LLMフレームワークを提案する。
提案アーキテクチャはLLMベースのエージェントコアとModel Context ProtocolゲートウェイとWeb-of-Drones抽象化を組み合わせたものだ。
我々は,ArduPilotをベースとした4つのSwarmミッションと6つの最先端LCMのシミュレーションによるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-05-05T14:14:57Z) - AeroGen: Agentic Drone Autonomy through Single-Shot Structured Prompting & Drone SDK [3.1941554288428193]
AeroGenは、一貫した正しい単発AI生成ドローン制御プログラムを可能にするオープンループフレームワークである。
実環境とシミュレーションの両方において,AeroGenが約40行のAeroD Pythonコードを生成することを示す。
論文 参考訳(メタデータ) (2026-03-15T06:16:02Z) - A Unified Experimental Architecture for Informative Path Planning: from Simulation to Deployment with GuadalPlanner [69.43049144653882]
本稿では,車種別制御から高レベルの意思決定を分離する統一アーキテクチャを提案する。
提案アーキテクチャは、計画、センシング、車両実行の標準化されたインターフェースを定義するGuaralPlannerを通じて実現されている。
論文 参考訳(メタデータ) (2026-02-11T10:02:31Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - LLM-VLM Fusion Framework for Autonomous Maritime Port Inspection using a Heterogeneous UAV-USV System [1.9965927292119217]
本研究は,自律的な海上港検査を可能にする新しい統合工学フレームワークを提案する。
提案手法は,従来のミッションプランナをLCM駆動のシンボリックプランニングに置き換えるものである。
VLMモジュールはリアルタイムなセマンティックインスペクションとコンプライアンスアセスメントを実行し、コンテキスト推論による構造化レポートを生成する。
論文 参考訳(メタデータ) (2026-01-19T14:36:50Z) - AirSpatialBot: A Spatially-Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognization and Retrieval [25.233263762328836]
空間認識型データセットAirSpatialを導入し,206K以上の命令を含む。
3DBBを提供する最初のリモートセンシンググラウンドデータセットである。
本研究では,航空機属性の微粒化認識と検索が可能な航空エージェントAirSpatialBotを開発した。
論文 参考訳(メタデータ) (2026-01-04T07:38:51Z) - Integrating Symbolic RL Planning into a BDI-based Autonomous UAV Framework: System Integration and SIL Validation [3.5966087153300057]
本稿では,自律ミッションエージェント・フォー・ドローン(AMAD)認知マルチエージェントアーキテクチャの拡張版を提案する。
我々は、ハードウェア・イン・ザ・ループ・シミュレーション(HILS)プラットフォームと同じ構成のSoftware-in-the-Loop(SIL)環境で、我々のフレームワークを検証した。
実験の結果、モジュールの安定な統合と相互運用、BDI駆動と象徴的なRL駆動の計画フェーズ間の遷移の成功、一貫したミッション性能が示された。
論文 参考訳(メタデータ) (2025-08-16T03:27:26Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。