論文の概要: Self-Distillation Policy Optimization via Visual Feedback: Bridging Code and Visual Artifacts
- arxiv url: http://arxiv.org/abs/2606.10334v1
- Date: Tue, 09 Jun 2026 02:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.272306
- Title: Self-Distillation Policy Optimization via Visual Feedback: Bridging Code and Visual Artifacts
- Title(参考訳): 視覚フィードバックによる自己蒸留政策の最適化:コードのブリッジとビジュアルアーティファクト
- Authors: Haoyu Dong,
- Abstract要約: コード生成ビジュアルアーティファクトの視覚自己蒸留について検討する。
Visual-SDPOは、描画された視覚フィードバックを、重量共有教師の特権的な文脈として扱う。
Visual-SDPOはゼロショットベースを10以上の絶対点で改善する。
- 参考スコア(独自算出の注目度): 4.312910873423553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-generating large language models (LLMs) increasingly produce visual artifacts such as charts, web pages, and slides by writing programs that are executed by non-differentiable renderers, committing to code before observing the render. As a result, otherwise executable code often yields artifacts with visually salient defects, including overlapping elements, clipped text, broken alignment, low contrast, and overflow. We study visual-feedback self-distillation for code-generated visual artifacts. We propose Visual-SDPO, a self-distillation policy-optimization framework that treats rendered visual feedback as privileged context for a weight-sharing teacher and distills this feedback into a coding student. To make supervision spatially targeted rather than uniform, we introduce Visual-Grounded Code Credit Weighting, which traces each detected defect back to the code statements responsible for the affected elements and amplifies the distillation signal on those statements. A sequence-level GRPO (Group Relative Policy Optimization) term complements the dense token-level objective by rewarding executable, visually high-quality rollouts, while failed executions remain learnable through the self-distillation path by passing execution errors as privileged context to the teacher. We instantiate Visual-SDPO for chart, web/UI, and slide generation with a unified Qwen3-VL-8B-Instruct backbone. Across chart-to-code, UI-to-code, and slide-generation benchmarks (ChartMimic, Design2Code, and AeSlides), Visual-SDPO improves over the zero-shot base by more than 10 absolute points in the primary metric and over GRPO by at least 2.4 points, with fewer training steps and no added inference-time cost.
- Abstract(参考訳): コード生成可能な大規模言語モデル(LLM)は、チャートやWebページ、スライドなどの視覚的なアーティファクトを、非微分可能なレンダラによって実行されるプログラムを記述し、レンダリングを観察する前にコードにコミットすることによって、より多く生成する。
その結果、実行可能コードは、オーバーラップ要素、クリップされたテキスト、アライメントの壊れ、コントラストの低さ、オーバーフローなど、視覚的に健全な欠陥を持つアーティファクトを生成することが多い。
コード生成ビジュアルアーティファクトに対する視覚フィードバック自己蒸留について検討する。
筆者らは,視覚的フィードバックを重み付け教師の特権的文脈として扱う自己蒸留政策最適化フレームワークであるVisual-SDPOを提案し,そのフィードバックをプログラミング学生に蒸留する。
これは,検出された各欠陥を,影響を受ける要素に責任のあるコードステートメントに遡り,それらのステートメントに蒸留信号を増幅するものだ。
シーケンスレベルのGRPO(Group Relative Policy Optimization)という用語は、実行可能で視覚的に高品質なロールアウトを報酬することで、密集したトークンレベルの目的を補完する。
Qwen3-VL-8B-Instructバックボーンを統一して、チャート、Web/UI、スライド生成のためのVisual-SDPOをインスタンス化する。
チャート・トゥ・コード、UI-to-code、スライド生成ベンチマーク(ChartMimic、Design2Code、AeSlides)を通じて、Visual-SDPOはゼロショットベースに対して、プライマリメトリックで10以上の絶対ポイント、GRPOで少なくとも2.4ポイント改善し、トレーニングステップが減り、推論時間コストが加算されない。
関連論文リスト
- GALA: Multimodal Graph Alignment for Bug Localization in Automated Program Repair [40.228155198574356]
本稿では,マルチモーダル自動プログラム修復(APR)を暗黙的な意味的推測から明示的な構造的推論に移行するフレームワークであるGALAを提案する。
GALAは、まずイメージUIグラフを構築して、視覚要素とその構造的関係をキャプチャし、続いて、このUIグラフをリポジトリレベルの構造と相互参照することで、ファイルレベルのアライメントを実行する。
モダリティ間のセマンティクスとリレーショナルの整合性を強制することにより、GALAは高度に正確なビジュアル・ツー・コードマッピングを確立する。
論文 参考訳(メタデータ) (2026-04-09T11:06:25Z) - OmniDiagram: Advancing Unified Diagram Code Generation via Visual Interrogation Reward [8.227370271724162]
ビジュアル・インターロゲーション・エフェクト・オール(textscViva)という新しい視覚フィードバック戦略を導入する。
textscVivaは、生成的アプローチを通じて描画された図形の視覚構造に報酬を与える。
最初の大規模図形コード生成データセットであるM3$2$Diagramを構築した。
論文 参考訳(メタデータ) (2026-04-07T07:10:24Z) - Visual-ERM: Reward Modeling for Visual Equivalence [59.317480168347664]
Visual Equivalence Reward Model (Visual-ERM)は、細粒度、解釈可能、タスクに依存しないフィードバックを提供するマルチモーダル生成報酬モデルである。
Visual-ERM は Qwen3-VL-8B-Instruct を 8.4 で改善し、テーブルとSVGのパースで一貫したゲインを得る。
VisualCritic-RewardBench(VC-RewardBench)は、構造化された視覚データに対して微細な画像と画像の相違を判定するためのベンチマークである。
論文 参考訳(メタデータ) (2026-03-13T17:58:14Z) - Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing [76.2602505940467]
既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。
複雑なチャートを読む際の精度を確保するために指を視覚アンカーとして使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。
VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
論文 参考訳(メタデータ) (2026-02-18T13:40:53Z) - Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization [50.13408999553116]
テキスト2Vis生成のための最初の強化学習フレームワークであるRL-Text2Visを提案する。
本手法では,テキストの精度,コードの有効性,可視化品質を共同で最適化する新しい多目的報酬を用いている。
その結果,GRPOは可視化生成における構造的マルチモーダル推論の効果的な戦略として確立された。
論文 参考訳(メタデータ) (2026-01-08T04:29:07Z) - Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation [63.042451267669485]
Inference-time Scaling のための Prompt Redesign を提案する。これは、拡張された視覚世代に対応するために、推論中にプロンプトを適応的に修正するフレームワークである。
そこで我々は,素早い属性と生成した視覚の微粒化レベルでのアライメントを評価する,新しい検証手法である要素レベルの事実補正を導入する。
テキスト・ツー・イメージ・ベンチマークとテキスト・ツー・ビデオ・ベンチマークによる実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-12-03T07:54:05Z) - RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。
我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T17:05:37Z) - ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding [35.30369059154906]
ReLookはエージェント的で視覚的な強化学習フレームワークである。
エージェントが堅牢な生成-診断-リファインループをクローズする権限を与える。
ヴィジュアライズされたフロントエンドコード生成において、一貫して強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:05:50Z) - VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation [69.35779796364413]
提案するVisCode-200Kは,Pythonによる可視化と自己補正のための大規模インストラクションチューニングデータセットである。
1)オープンソースリポジトリからの検証済みプロットコードと自然言語命令と描画プロットのペア,(2)Code-Feedbackからの45Kのマルチターン補正ダイアログ。
論文 参考訳(メタデータ) (2025-06-04T13:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。