論文の概要: Advancing DialNav through Automatic Embodied Dialog Augmentation
- arxiv url: http://arxiv.org/abs/2606.19948v1
- Date: Thu, 18 Jun 2026 08:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.743452
- Title: Advancing DialNav through Automatic Embodied Dialog Augmentation
- Title(参考訳): 自動ダイアログ拡張によるDialNavの改善
- Authors: Leekyeung Han, Sangwon Jung, Hyunji Min, Jinseong Jeong, Minyoung Kim, Paul Hongsuck Seo,
- Abstract要約: 本研究では,DialNavの238Kエピソードを含む大規模トレーニングデータセットを構築するための自動生成パイプラインを提案する。
我々のパイプラインは、既存のVLNデータセットをマルチターンダイアログに変換し、コスト効率と高品質なデータセットを作成する。
これらの解を組み合わせることで、textbfVal Seen (58.24, textbf+89%) と textbfVal Unseen (29.05, textbf+100%) の両方で、我々のモデルは成功率のベースラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 20.34068609643078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For embodied agents capable of physical interaction, the capability to create and understand dialog is crucial to ensure both safety and effectiveness. While DialNav~\cite{han2025dialnav} provides a framework for holistic evaluation of the dialog--execution loop in photorealistic indoor navigation, its performance remains limited by a critical scarcity of training data (2K episodes). To address this, we propose an automatic generation pipeline, and construct the \textbf{RAINbow} dataset, a large-scale training dataset with 238K episodes for DialNav. Our pipeline converts existing VLN datasets into multi-turn dialog and creates cost-efficient and high-quality dataset. Then, we introduce two additional complementary advances to unlock the data's full potential: (1) Dual-Strategy Training, a navigation training scheme to align the navigation training with the dynamic dialog-navigation loop, and (2) a localization model that leverages VLN knowledge. By combining these complementary solutions, our model substantially outperforms the baseline in success rate on both \textbf{Val Seen} (58.24, \textbf{+89\%}) and \textbf{Val Unseen} (29.05, \textbf{+100\%}) splits, establishing a new state of the art.
- Abstract(参考訳): 物理的相互作用が可能なエンボディエージェントにとって、ダイアログの作成と理解能力は、安全性と有効性の両方を保証するために不可欠である。
DialNav~\cite{han2025dialnav}は、フォトリアリスティック屋内ナビゲーションにおけるダイアログ実行ループの全体的評価のためのフレームワークを提供するが、その性能はトレーニングデータの致命的不足(2Kエピソード)によって制限されている。
そこで本稿では,DialNav の238K エピソードを持つ大規模トレーニングデータセットである \textbf{RAINbow} データセットを自動生成するパイプラインを提案する。
我々のパイプラインは、既存のVLNデータセットをマルチターンダイアログに変換し、コスト効率と高品質なデータセットを作成する。
次に,2つの補完的手法を導入して,データの潜在能力を最大限に活用する。(1)Dual-Strategy Training,2)動的ダイアログナビゲーションループとナビゲーショントレーニングを整合させるナビゲーショントレーニングスキーム,2)VLN知識を活用するローカライゼーションモデルである。
これらの相補解を組み合わせることで、我々のモデルは \textbf{Val Seen} (58.24, \textbf{+89\%}) と \textbf{Val Unseen} (29.05, \textbf{+100\%}) の双方で成功率のベースラインを大幅に上回り、新しい最先端技術を確立する。
関連論文リスト
- DeCoNav: Dialog enhanced Long-Horizon Collaborative Vision-Language Navigation [51.978605314711835]
ロングホライゾン協調視覚言語ナビゲーション(Long-Horizon collaborative vision- language navigation, VLN)は、マルチロボットシステムにおいて、単一のエージェントの能力を超える複雑なタスクを達成するために重要である。
ダイアログを改良したLong-Horizon Collaborative Vision-Language Navigation (DeCoNav)を提案する。
DeCoNavは、イベントトリガーされた対話と動的タスク割り当てとリアルタイム適応調整のための再計画を結合する分散フレームワークである。
論文 参考訳(メタデータ) (2026-04-14T09:11:55Z) - CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification [17.56502992098113]
textbfCoVe(textbfConstraint-textbfVerification)は、対話型ツール使用エージェントのトレーニング用に設計されたトレーニング後のデータ合成フレームワークである。
それらは、複雑な軌跡の生成をガイドし、軌道品質を評価するための決定論的検証器として機能する。
論文 参考訳(メタデータ) (2026-03-02T14:56:35Z) - History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。
既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。
この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T09:16:07Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - Ground then Navigate: Language-guided Navigation in Dynamic Scenes [13.870303451896248]
屋外環境での自律運転における視覚・言語ナビゲーション(VLN)問題について検討する。
テキストコマンドに対応するナビゲーション可能な領域を明示的にグラウンドすることで、この問題を解決する。
提案手法の有効性を検証するために, 定性的かつ定量的な実験結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T09:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。