論文の概要: Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence
- arxiv url: http://arxiv.org/abs/2606.15932v2
- Date: Tue, 16 Jun 2026 15:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.812961
- Title: Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence
- Title(参考訳): NL2Codeを超えて - マルチモーダルコードインテリジェンスに関する構造化された調査
- Authors: Xuanle Zhao, Qiushi Sun, Jingyu Xiao, Xuexin Liu, Haoyue Yang, Qiaosheng Chen, Xianzhen Luo, Jing Huang, Yufeng Zhong, Lei Chen, Shuai Fu, Zhenlin Wei, Jinhe Bi, Lei Jiang, Haibo Qiu, Siqi Yang, Peng Shi, Jian Hu, Zhixiong Zeng,
- Abstract要約: このサーベイは、視覚的に接地された入力と出力の下でコードを生成し、編集し、洗練し、理屈を定めているシステムを調べます。
まず、コードが各タスクで果たす役割によってフィールドを定式化します。
次に、ベンチマークとメソッドをグラフィカルユーザインタフェース、システミックビジュアライゼーション、構造化グラフィックス、フロンティアタスクとフレームワークの4つのドメインにまとめます。
- 参考スコア(独自算出の注目度): 31.954261925882452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have substantially advanced text-to-code synthesis, many real programming tasks specify intent through visual artifacts such as screenshots, charts, vector drawings, videos, and interactive states. These tasks require models to connect visual perception to executable programs, because correctness depends not only on syntax but also on layout, data semantics, interaction behavior, and domain-specific constraints that apply after execution. This survey examines Multimodal Code Intelligence, covering systems that generate, edit, refine, or reason with code under visually grounded inputs and outputs. We first formulate the field by the role that code plays in each task, distinguishing code as a rendered artifact, an editable symbolic structure, a scientific representation, an intermediate reasoning trace, or an executable policy or tool interface. We then organize benchmarks and methods into four domains: Graphical User Interface, Scientific Visualization, Structured Graphics, and Frontier Tasks and Frameworks. This taxonomy connects mature artifact-generation problems to emerging agentic and unified settings and allows us to compare how different tasks treat evidence of correctness. Looking ahead, we argue that future research may benefit from four verification-centered directions. Multi-signal validation can combine complementary evidence of correctness, multi-state verification can test behavior across execution trajectories, cross-task transfer testing can probe reusable visual-code skills, and verifiable agent traces can reveal whether agent actions are grounded in visual evidence. Together, these directions may move this field from single-output imitation toward evidence-grounded executable systems. An ongoing project and resources are available on \href{https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code}{GitHub}.
- Abstract(参考訳): LLM(Large Language Models)はテキストからコードへの合成が大幅に進歩しているが、実際のプログラミングタスクの多くは、スクリーンショット、チャート、ベクトル描画、ビデオ、インタラクティブな状態などの視覚的なアーティファクトによって意図を規定している。
なぜなら、正確性は構文だけでなく、レイアウト、データセマンティクス、相互作用の振る舞い、実行後に適用されるドメイン固有の制約にも依存するためである。
このサーベイはマルチモーダルコードインテリジェンス(Multimodal Code Intelligence)を調査し、視覚的に接地された入力と出力の下でコードを生成し、編集し、洗練し、あるいは推論するシステムをカバーしている。
まず、コードが各タスクで果たす役割によってフィールドを定式化し、コードが描画されたアーティファクト、編集可能なシンボル構造、科学的表現、中間的推論トレース、実行可能なポリシーまたはツールインターフェースとして区別する。
次に、ベンチマークとメソッドをグラフィカルユーザインタフェース、システミックビジュアライゼーション、構造化グラフィックス、フロンティアタスクとフレームワークの4つのドメインにまとめます。
この分類法は、成熟したアーティファクト生成問題と、新たなエージェント的かつ統一的な設定を結びつけ、異なるタスクが正当性の証拠をどのように扱うかを比較することができる。
今後の研究は、検証中心の4つの方向から恩恵を受ける可能性がある、と私たちは主張する。
マルチシグナル検証は、相補的な正当性の証拠を組み合わせることができ、マルチステート検証は実行軌跡間の動作をテストすることができ、クロスタスク転送テストは再利用可能なビジュアルコードスキルを探索し、検証可能なエージェントトレースは、エージェントアクションが視覚的エビデンスに根ざされているかどうかを明らかにすることができる。
同時に、これらの方向は、この場を単一出力の模倣からエビデンス基底の実行可能なシステムへと移動させる。
進行中のプロジェクトとリソースは、 \href{https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code}{GitHub}で入手できる。
関連論文リスト
- Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation [74.0621258662676]
レポート生成のためのマルチエージェントハーネスであるPtahを提案する。
Ptahは計画、研究、執筆段階を通じて、ユーザクエリからレンダリングされたWebレポートまでのライフサイクルを編成する。
検証エージェントがハーネスの受け入れ機能として機能し、ワークフロー全体を通して事実的接地、引用の忠実性、相互の整合性を強制する。
論文 参考訳(メタデータ) (2026-05-28T12:40:34Z) - VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents [25.141059096863255]
VISTAは、LLMベースのエージェントのエンドツーエンドのWebアプリケーション生成機能を評価するためのベンチマークである。
視覚的/構造的忠実度とスタック制約の2つの軸に沿って変化する5つのプロンプト情報条件を定義する。
ベンチマークの各ページは、インタラクティブなUIコンポーネントと約3つの視覚的アンカーポイントで手動で注釈付けされる。
論文 参考訳(メタデータ) (2026-05-22T20:29:12Z) - Code as Agent Harness [107.31925305395957]
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
論文 参考訳(メタデータ) (2026-05-18T17:59:03Z) - MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning [37.02901476078596]
MM-CondChainは、視覚的に深い合成推論のためのベンチマークである。
MM-CondChainは多層推論チェーンとして構成され、各層は非自明な構成条件を含む。
プランナーは構成条件の層間生成をオーケストレーションし、検証可能なプログラム中間表現(VPIR)は各層の状態が機械的に検証可能であることを保証する。
論文 参考訳(メタデータ) (2026-03-12T17:59:56Z) - How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。
我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T17:05:37Z) - Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions [44.13195091964096]
フレキシブルな命令誘導6-DoFグルーピングは、現実世界のロボットシステムにとって重要な課題である。
物理特性を指向したChainof-Thought(CoT)推論機構を統合した6-DoFグリップ検出フレームワークGraspCoTを提案する。
IntentGraspは、多目的把握検出のための公共データセットのギャップを、多言語および間接的なコマンドで埋める大規模なベンチマークである。
論文 参考訳(メタデータ) (2025-03-20T10:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。