論文の概要: Steering Multirobot Behavior via Closed-Loop Affine Activation Editing
- arxiv url: http://arxiv.org/abs/2606.11489v1
- Date: Tue, 09 Jun 2026 22:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 14:54:23.749167
- Title: Steering Multirobot Behavior via Closed-Loop Affine Activation Editing
- Title(参考訳): 閉ループアフィン活性化編集によるマルチロボットのステアリング
- Authors: Satyajeet Das, Darren Chiu, Shashank Hegde, Gaurav S. Sukhatme,
- Abstract要約: CLAEは、凍結されたポリシーの振舞いを制御するための推論時フレームワークである。
基本方針の重みを保ちながら中間活性化を編集し、下流のアクションヘッドを無傷で操作する。
CLAEは,各ロボットの速度プロファイルを制御することにより,個々のロボットの動作を制御可能であることを示す。
- 参考スコア(独自算出の注目度): 16.82661659623732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world robots need to adapt their behavior beyond the envelope of their pre-trained policy. Policy finetuning or retraining are options, but they risk catastrophic forgetting, degrading the pretrained policy's base performance. To combat this, we introduce CLAE: Closed-Loop Affine Activation Editing, an inference-time framework for steering the behavior of a frozen policy by editing intermediate activations while keeping the base policy weights and downstream action head untouched. CLAE approaches behavior steering as a closed-loop problem whose outputs edit policy activations that adapt online to the robot state, environment, target behavior, and multi-robot context. It trains a sparse autoencoder over frozen-policy activations, selects behavior-relevant latent features via post-hoc probing, and learns a lightweight RL-based steering policy that applies state-dependent affine edits to selected latents during inference. We validate CLAE on a frozen multi-quadrotor navigation policy trained to perform a single task: navigating robots to a set of goal locations while avoiding obstacles. Through extensive simulations and physical tests, we show that while navigating to their goal positions, CLAE can 1. steer individual robot behavior by controlling each robot's velocity profile; 2. coordinate multirobot behavior by preserving a desired formation; and 3. produce entirely new behavior wherein robots are required to reduce their exposure to surveillance cameras in the environment.
- Abstract(参考訳): 現実世界のロボットは、事前訓練されたポリシーの封筒を越えて行動に適応する必要がある。
政策の微調整や再訓練は選択肢だが、それらは破滅的な忘れ込みを危険にさらし、事前訓練された政策の基本性能を低下させる。
これに対抗するために, CLAE: Closed-Loop Affine Activation Editingを紹介した。
CLAEは、ロボットの状態、環境、ターゲット行動、マルチロボットコンテキストにオンラインで適応する編集ポリシーアクティベーションを出力するクローズドループ問題として振舞いステアリングにアプローチする。
凍結した政治活動に対してスパースオートエンコーダを訓練し、ポストホック探索を通じて行動関連潜伏特徴を選択し、推論中に選択した潜伏者に対して状態依存アフィン編集を適用する軽量なRLベースのステアリングポリシーを学習する。
CLAEは,ロボットを目標地点へ移動させ,障害物を回避するという,単一のタスクを実行するように訓練された凍結したマルチクワッドロータナビゲーションポリシーで検証する。
広範囲なシミュレーションと物理実験により, CLAEは目標位置へ移動しながらも, CLAEが実現可能であることを示す。
1 各ロボットの速度プロファイルを制御して個々のロボットの動作を制御すること。
2 所望の形成を保ったままのマルチロボットの挙動を調整し、及び
3. 環境中の監視カメラへの露出を減らすためにロボットが要求される、全く新しい行動を生み出す。
関連論文リスト
- VAIC: Vision-Guided Humanoid Agile Object Interaction Control via Decoupled Commands [56.029505206531155]
Vision Guided Agile Interaction Control (VAIC)は、現在のコントローラとヒューマノイドロボットのギャップを埋める統合フレームワークである。
まず、特権教師政策は、正確な物体運動学と正確な環境状態を用いて多様な相互作用スキルを習得する。
第二に、デプロイ可能な学生ポリシーは、全体追跡を複数の軸にまたがる速度目標に置き換えることで、これらの能力を蒸留する。
論文 参考訳(メタデータ) (2026-06-08T09:52:55Z) - TAM: Torque Adaptation Module for Robust Motion Transfer in Manipulation [32.68351241308298]
接触に富んだダイナミックな操作では、小さな動きのずれでさえ参照動作の追跡に失敗することがある。
本稿では,学習モジュールであるTorque Adaptation Module (TAM)を紹介した。
論文 参考訳(メタデータ) (2026-06-04T14:31:54Z) - Closed-Loop Action Chunks with Dynamic Corrections for Training-Free Diffusion Policy [52.106797722292896]
我々は,チャンクベースのアクション生成とリアルタイム修正を統合した動的クローズドループ拡散ポリシーフレームワークDCDPを提案する。
動的PushTシミュレーションでは、DCDPは5%の計算しか必要とせず、再トレーニングなしに適応性を19%改善する。
論文 参考訳(メタデータ) (2026-03-02T15:04:18Z) - Vision-based Goal-Reaching Control for Mobile Robots Using a Hierarchical Learning Framework [4.014524824655106]
本稿では,システム全体を密結合した関数モジュールの集合に分解する。
提案手法は,アクティベーションシステムの均一な指数的安定性と全動作の安全性を保証する。
論文 参考訳(メタデータ) (2026-01-02T08:41:47Z) - CHIP: Adaptive Compliance for Humanoid Control through Hindsight Perturbation [70.5382178207975]
hIsight Perturbation (CHIP)は、制御可能なエンドエフェクタ剛性を実現するプラグイン・アンド・プレイモジュールである。
CHIPの実装は簡単で、データ拡張も追加の報酬チューニングも必要ありません。
そこで本研究では,CHIPでトレーニングした汎用モーショントラッキングコントローラが,多種多様な操作タスクを実行できることを示す。
論文 参考訳(メタデータ) (2025-12-16T18:56:04Z) - Steering Robots with Inference-Time Interactions [0.5801621787540268]
事前訓練されたポリシーがデプロイメント中にエラーを発生させる場合、ユーザがその動作を修正するための制限されたメカニズムが存在する。
私の研究は、トレーニング済みのポリシーを固定されたスキルレパートリーとして凍結させながら、ユーザーのインタラクションが推論時に行動生成をガイドできるようにする方法を提案する。
具体的には,(1)個別のスキルの切り替えにユーザインタラクションを活用する推論時ステアリング,(2)個別のシンボリックプランで定義されたタスク制約を満たしつつ,ユーザインタラクションによる連続的な動作の編集を可能にするタスクと動作の模倣を提案する。
論文 参考訳(メタデータ) (2025-06-17T07:59:07Z) - Task and Domain Adaptive Reinforcement Learning for Robot Control [0.34137115855910755]
課題や環境条件に応じて動的にポリシーを適応する新しい適応エージェントを提案する。
このエージェントはIsaacGym上に作られたカスタムで高度に並列化されたシミュレータを使って訓練されている。
実世界において、さまざまな課題を解くために、飛行飛行のためにゼロショット転送を行う。
論文 参考訳(メタデータ) (2024-04-29T14:02:02Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。