論文の概要: When Does Language Matter? Multilingual Instructions Reveal Step-wise Language Sensitivity in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.11906v1
- Date: Wed, 10 Jun 2026 10:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.4131
- Title: When Does Language Matter? Multilingual Instructions Reveal Step-wise Language Sensitivity in Vision-Language-Action Models
- Title(参考訳): 言語はいつ重要か?多言語指導は視覚言語行動モデルにおけるステップワイド言語感性を明らかにする
- Authors: Xuan Dong, Zhe Han, Tianhao Niu, Qingfu Zhu, Wanxiang Che,
- Abstract要約: VLA(Vision-Language-Action)モデルは、言語条件のロボット操作において強力な性能を示している。
LIBEROベンチマークを10言語に翻訳することで,VLAモデルの最初の体系的多言語評価を行う。
- 参考スコア(独自算出の注目度): 45.78252494839804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown strong performance in language-conditioned robotic manipulation, yet their robustness to linguistic variation remains poorly understood. In this work, we present the first systematic multilingual evaluation of VLA models by translating the LIBERO benchmark into ten languages, revealing severe performance degradation under non-English instructions, with success rates dropping by 30-50%. Through fine-grained analysis of task executions, we find that language influence is highly non-uniform across steps: certain steps exhibit strong language dependence and dominate overall task failure, while others are largely language-agnostic. Based on this insight, we propose a step-wise inference-time intervention that aligns representations according to step language sensitivity, substantially improving performance under linguistic variation. Our results indicate that language robustness in VLA models is fundamentally a step-wise control problem, highlighting the importance of temporally structured analysis for reliable embodied agents.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、言語条件のロボット操作において強力な性能を示しているが、言語的変化に対する頑健さはよく分かっていない。
本研究では、LIBEROベンチマークを10言語に翻訳し、VLAモデルの最初の体系的多言語評価を行い、非英語命令による性能劣化を明らかにし、成功率を30~50%下げた。
タスク実行のきめ細かい分析を通して、言語の影響はステップによって非常に一様でないことが分かりました。
この知見に基づいて,ステップ言語感度に応じて表現を調整し,言語的変動下での性能を大幅に向上させるステップワイズ推論時間介入を提案する。
以上の結果から,VLAモデルにおける言語頑健性は基本的にステップワイズ制御の問題であり,信頼性のあるエンボディエージェントに対する時間的構造解析の重要性を強調した。
関連論文リスト
- LANG: Reinforcement Learning for Multilingual Reasoning with Language-Adaptive Hint Guidance [77.58408743830314]
強化学習は大規模言語モデルにおける多段階推論の強化に有効であることが証明されている。
しかし、その利点は多言語文脈に完全には翻訳されていない。
我々は、言語条件付きヒントを利用して、英語以外の推論タスクの探索をガイドする新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2026-05-21T14:47:52Z) - LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models [4.54067274409672]
VLA(Vision-Language-Action)モデルは標準ベンチマークで95%以上の成功を収めている。
現状のVLAモデルは言語命令をほとんど無視していることがわかった。
本稿では,4次元意味摂動法に基づくLangGapベンチマークを構築した。
論文 参考訳(メタデータ) (2026-02-28T10:53:33Z) - Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Language Surgery in Multilingual Large Language Models [39.66404344691661]
大規模言語モデル(LLM)はタスクや言語にまたがる顕著な一般化機能を示している。
本稿では, LLMにおける自然に出現する表現アライメント, 特に中層における表現アライメントについて検討する。
Inference-Time Language Control (ITLC) を提案する。
論文 参考訳(メタデータ) (2025-06-14T11:09:50Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。