論文の概要: Generating Natural and Expressive Robot Gestures through Iterative Reinforcement Learning with Human Feedback using LLMs
- arxiv url: http://arxiv.org/abs/2606.18747v1
- Date: Wed, 17 Jun 2026 06:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.03723
- Title: Generating Natural and Expressive Robot Gestures through Iterative Reinforcement Learning with Human Feedback using LLMs
- Title(参考訳): LLMを用いた人間フィードバックを用いた反復強化学習による自然・表現型ロボットジェスチャの生成
- Authors: Chris Lee, Flora Salim, Benjamin Tag, Francisco Cruz,
- Abstract要約: ユーザ評価に基づいてジェスチャー生成を微調整する反復強化学習システムを提案する。
以上の結果から,RLHFはLLMの音声合成能力を向上し,より表現力,関連性,流動性を高めた。
- 参考スコア(独自算出の注目度): 8.348973067897093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressive gestures are essential for natural and effective communication, complementing speech when verbal cues alone are insufficient (e.g., pointing). For social robots such as the humanoid Pepper, producing natural and expressive movements is critical for improving human-robot interaction (HRI) and long-term acceptance. However, generating gestures remains challenging due to reliance on expert-authored animations, resulting in rigid behaviors that are impractical for dynamic and diverse environments. Alternatively, machine learning approaches often struggle to capture perceived naturalness, becoming increasingly challenging with more degrees of freedom. Consequently, producing expressive robot gestures requires a system that can adapt to the environment while adhering to social norms and physical constraints. Recent advances in large language models (LLMs) enable dynamic code generation, offering new opportunities for runtime gesture synthesis from natural language. In this paper, we integrate ChatGPT into the humanoid robot Pepper to generate co-speech gestures aligned with conversational output. While this baseline enables flexible gesture generation, the resulting motions are often perceived as stiff and unnatural. To address this limitation, we introduce an iterative reinforcement learning with human feedback (RLHF) system that finetunes gesture generation based on user evaluations, leveraging an iterative user study to compare Pepper's generated gestures. Our results show that RLHF improved the LLM's co-speech generative capabilities, producing more expressive, relevant and fluid movements.
- Abstract(参考訳): 表現的ジェスチャーは自然と効果的なコミュニケーションには不可欠であり、動詞の手がかりだけでは不十分な音声を補完する(例:ポインティング)。
ヒューマノイドペッパーのような社会ロボットにとって、自然かつ表現力のある動きを生み出すことは、人間とロボットの相互作用(HRI)の改善と長期の受容に不可欠である。
しかし、専門家が作成したアニメーションに頼ってジェスチャーを生成することは依然として困難であり、結果として動的で多様な環境では不可能な厳格な振る舞いをもたらす。
あるいは、機械学習のアプローチは、知覚された自然性を捉えるのに苦労することが多く、より多くの自由度でますます困難になる。
その結果、表現力のあるロボットジェスチャを生成するには、社会的規範や身体的制約に固執しながら環境に適応できるシステムが必要である。
大規模言語モデル(LLM)の最近の進歩は、動的コード生成を可能にし、自然言語から実行時ジェスチャ合成の新しい機会を提供する。
本稿では,ChatGPTをヒューマノイドロボットPepperに統合し,会話出力に合わせた音声ジェスチャーを生成する。
このベースラインはフレキシブルなジェスチャー生成を可能にするが、結果として得られる動きは硬く、不自然なものと見なされることが多い。
この制限に対処するために、ユーザ評価に基づいてジェスチャー生成を微調整し、反復的ユーザスタディを活用してPepperのジェスチャの比較を行うRLHFシステムによる反復的強化学習を導入する。
以上の結果から,RLHFはLLMの音声合成能力を向上し,より表現力,関連性,流動性を高めた。
関連論文リスト
- WaveSync: Constrained Wavefront Optimization for Synchronized Co-Speech Gestures in Humanoid Robots [2.0424038686449006]
自然な人間とロボットの相互作用には表現力のある共同音声ジェスチャーが不可欠であるが、物理的ヒューマノイドロボットではそれらを生成することは困難である。
大規模言語モデルが対話応答を構造化セマンティックスキーマに分解するハイブリッドフレームワークである textbfWaveSync を提案する。
提案手法は,高同期精度を実現し,主観的評価と主観的評価の両面において3つのベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-06-15T11:47:30Z) - ReFree: Towards Realistic Co-Speech Video Generation via Reward-Free RL and Multilevel Speech Guidance [50.482989497576476]
音声による会話キャラクタアニメーションは、自然な会話行動を伝えるライフライクなポートレートビデオを生成する。
既存のアプローチは通常、動的表情や頭部の動きに対して正確な音素間同期をオフにする。
本稿では,事前学習したビデオ生成モデルに基づく,フローマッチング型音声-画像間アニメーションフレームワークReFree-S2Vを提案する。
論文 参考訳(メタデータ) (2026-06-11T13:00:58Z) - MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions [147.04372611893032]
FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。
我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。
その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
論文 参考訳(メタデータ) (2026-01-19T07:59:32Z) - Semantic Co-Speech Gesture Synthesis and Real-Time Control for Humanoid Robots [5.531678625546847]
本稿では,意味論的に意味のある共同音声ジェスチャーを合成し,人間型ロボット上でリアルタイムに展開する,革新的なエンドツーエンドフレームワークを提案する。
私たちの中核的なイノベーションは、セマンティックスを意識したジェスチャー合成モジュールの巧妙な統合にあります。
本システムでは, セマンティックに適切かつリズミカルにコヒーレントなジェスチャーを生成する。
論文 参考訳(メタデータ) (2025-12-19T02:55:10Z) - Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary [59.98573566227095]
本稿では,Humanoid-LLAについて紹介する。Humanoid-LLAは,表現型言語コマンドを人型ロボットの身体的実行可能な全身動作にマッピングする,大規模言語行動モデルである。
提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
論文 参考訳(メタデータ) (2025-11-28T08:11:24Z) - From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:57:47Z) - EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。
本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文 参考訳(メタデータ) (2024-10-30T17:22:45Z) - A Comprehensive Review of Data-Driven Co-Speech Gesture Generation [11.948557523215316]
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。
ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。
本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
論文 参考訳(メタデータ) (2023-01-13T00:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。