論文の概要: MUSE: Agentic 3D Scene Authoring via Memory-Grounded Incremental Requirement Satisfaction
- arxiv url: http://arxiv.org/abs/2606.14168v1
- Date: Fri, 12 Jun 2026 06:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.783726
- Title: MUSE: Agentic 3D Scene Authoring via Memory-Grounded Incremental Requirement Satisfaction
- Title(参考訳): MUSE: メモリ集約型インクリメンタル要件満足度によるエージェント3Dシーンオーサリング
- Authors: Ruijie Xu, Xinnan Zhu, Jiayu Ying, Daoguo Dong, Yuzhou Ji, Xin Tan,
- Abstract要約: テキスト駆動3Dシーン生成は、デジタルコンテンツ作成、具体的AIシミュレーション、インタラクティブデザインのための有望なテクニックである。
既存の手法は現実的で構造的に妥当なシーンを生成することができるが、一般的には要求レベルの状態追跡による編集性に欠ける。
制御可能な3Dシーンオーサリングのためのメモリ基底型マルチエージェントフレームワークであるMUSEを提案する。
- 参考スコア(独自算出の注目度): 6.5614559745150975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven 3D scene generation is a promising technique for digital content creation, embodied AI simulation, and interactive design, yet practical workflows often require refining, extending, or correcting existing scenes while preserving non-target content. Existing methods can produce realistic and structurally plausible scenes, but they generally lack editability with requirement-level state tracking, so part-level failures often lead to full-scene regeneration or manual intervention. To tackle this challenge, we formulate controllable 3D scene authoring as incremental requirement satisfaction, unifying construction and editing. In this paper, we present MUSE, a memory-grounded multi-agent framework in which an Architect compiles instructions into structured requirements, a Sculptor executes local scene operations, and an Inspector verifies each step while updating Working, Scene, and Skill Memory. To evaluate requirement-level controllability and preservation-aware editing, we introduce AuthorBench, offering 145 constrained construction cases and a 1,584-case preservation-aware editing pool paired with external structured checks. On full construction cases, MUSE improves All-Goal success from 37.9 to 80.7 and surface-constraint fulfillment from 35.0 to 92.6 over the strongest baseline. On a stratified 240-case editing test split, MUSE achieves 49.6 All-Goal success, 99.9 preservation rate, and only 0.6 unintended change rate. Beyond automated metrics, human evaluations on compared local-editing baselines support stronger alignment with user intent, and downstream navigation-proxy tests indicate stronger spatial stability. Combined with ablations validating our memory designs, these results establish MUSE as an effective framework for controllable 3D scene authoring.
- Abstract(参考訳): テキスト駆動の3Dシーン生成は、デジタルコンテンツ作成、具体的AIシミュレーション、インタラクティブデザインのための有望なテクニックであるが、実用的なワークフローでは、ターゲット外のコンテンツを保存しながら、既存のシーンを洗練、拡張、修正する必要があることが多い。
既存の手法は現実的で構造的に妥当なシーンを生成することができるが、一般的に要求レベルの状態追跡による編集性が欠如しているため、部分レベルの障害は多くの場合、フルシーンの再生や手動による介入につながる。
この課題に対処するために、制御可能な3Dシーンのオーサリングをインクリメンタルな要求満足度として定式化し、構築と編集を統一する。
本稿では、MUSEについて、アーキテクトが命令を構造化された要求にコンパイルし、Sculptorがローカルシーン操作を実行し、インスペクタがWorking, Scene, Skill Memoryを更新しながら各ステップを検証する、メモリグラウンドのマルチエージェントフレームワークを提案する。
要求レベルの制御性と保存意識の編集を評価するために,外部構造チェックと組み合わせた1,584ケースの保存意識編集プールと,145ケースの制約のある構成ケースを提供する AuthorBench を導入する。
完全な建設の場合、MUSEは全目標の成功を37.9から80.7に改善し、最強のベースラインを35.0から92.6に制限した。
240ケースの編集テストの分割で、MUSEは49.6のオールゴール成功、99.9の保存率、わずか0.6の意図しない変更率を達成した。
自動測定の他に、ローカル編集ベースラインの比較による人間による評価は、ユーザの意図との整合性を高め、下流ナビゲーションプロキシテストはより強い空間安定性を示す。
これらの結果は,メモリ設計の検証と組み合わせて,MUSEを制御可能な3Dシーンオーサリングの有効なフレームワークとして確立する。
関連論文リスト
- MAPS: A Synthetic Dataset for Probing Vision Models in a Controlled 3D Scene Space [9.579861438286601]
我々は,視覚モデル行動がシーンパラメータに寄与するスケーラブルな楽器MAPS(Manifolds of Artificial Parametric Scenes)を紹介する。
MAPSは560のImageNetクラスにまたがる認識性を検証する2,618個のキュレートされた3Dメッシュで構成されている。
回帰に基づく感度解析により,20の畳み込みモデルと変圧器モデルの評価を行った。
論文 参考訳(メタデータ) (2026-05-19T22:51:54Z) - Robust Prior-Guided Segmentation for Editable 3D Gaussian Splatting [6.290910602456353]
2Dセグメンテーションを3Dドメインに持ち上げる既存のアプローチは、視界の不整合と粗いマスクに悩まされている。
本稿では,Segment Anything Model High Qualityを利用して正確な2次元マスクを生成する新しいフレームワークを提案する。
提案手法は最先端のセグメンテーション精度を実現し,高視力を維持しながらインタラクティブなリアルタイムオブジェクト編集を可能にする。
論文 参考訳(メタデータ) (2026-05-15T15:29:30Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - EditRefiner: A Human-Aligned Agentic Framework for Image Editing Refinement [76.76247443244293]
EditRefinerは、編集後の修正を人間のような認識・推論・行動評価ループとして再構成するエージェントフレームワークである。
歪み、診断精度、人間の知覚アライメントにおいて、最先端の手法を一貫して上回る。
論文 参考訳(メタデータ) (2026-05-08T09:05:08Z) - CAMEO: A Conditional and Quality-Aware Multi-Agent Image Editing Orchestrator [8.901958956012072]
条件付き画像編集は、厳密な構造制御を必要とするシナリオにおいて不可欠である。
ほとんどのアプローチは単一ステップ生成に依存します。
我々は、条件付き編集を品質に配慮したフィードバック駆動プロセスとして再構成する構造化マルチエージェントフレームワーク、textbfCAMEOを提案する。
論文 参考訳(メタデータ) (2026-04-03T16:27:02Z) - SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes [49.117927512531715]
我々はエージェント固有の制約の下で3Dシーン機能を検証するフレームワークであるSceneTeractを紹介する。
SceneTeractは複雑なアクティビティをアトミックアクションのシーケンスに分解し、アクセシビリティ要求に対して各ステップを検証する。
具体化された3Dシーン理解における知覚と身体的現実を橋渡しするSceneTeract検証スイートとデータをリリースする。
論文 参考訳(メタデータ) (2026-03-31T14:31:18Z) - Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling [69.36546486569146]
エージェント・バナは階層的なエージェント・プランナー・エグゼクティブ・フレームワークであり、高忠実で、オブジェクト指向で、熟考的な編集を行う。
Context Foldingは、長い相互作用履歴を構造化メモリに圧縮し、安定した長距離制御を行う。
Image Layer Decompositionは、非ターゲット領域を保存するために、ローカライズされたレイヤベースの編集を実行する。
論文 参考訳(メタデータ) (2026-02-09T18:59:18Z) - Towards Scalable and Consistent 3D Editing [32.16698854719098]
3D編集は没入型コンテンツ制作、デジタルエンターテイメント、AR/VRに広く応用されている。
2D編集とは異なり、クロスビューの一貫性、構造的忠実さ、きめ細かい制御性を必要とするため、依然として困難である。
我々はこれまでで最大の3D編集ベンチマークである3DEditVerseを紹介した。
モデル側では、3次元構造保存条件変換器である3DEditFormerを提案する。
論文 参考訳(メタデータ) (2025-10-03T13:34:55Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。