論文の概要: Judging to Improve: A De-biased VLM-as-3D-Judge Protocol for Single-Image 3D Generation
- arxiv url: http://arxiv.org/abs/2606.20364v1
- Date: Thu, 18 Jun 2026 15:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.945922
- Title: Judging to Improve: A De-biased VLM-as-3D-Judge Protocol for Single-Image 3D Generation
- Title(参考訳): VLM-as-3D-Judgeプロトコルによる1枚の3次元画像生成
- Authors: Ali Asaria, Tony Salomone, Deep Gandhi,
- Abstract要約: クロスモデルVLM-as-3D-judgeは、安価な幾何学とCLIPプロキシが不足している単一画像から3Dメッシュの品質を確実にランク付けする。
判事の好みは、強力なオープンジェネレータTRELLISを1つのアセットクラス(家具)で専門化できるか?
VLM審査員をトレーニングと評価ループに押し込むと、ランク付けの失敗モードが決して発生しないため、我々の貢献は審査員の最適化グレードの硬化である。
- 参考スコア(独自算出の注目度): 0.08599681538174887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A companion study established a de-biased, cross-model VLM-as-3D-judge that reliably ranks single-image-to-3D mesh quality where cheap geometry and CLIP proxies fall short. This paper asks: can that judge's preferences specialize a strong open generator, TRELLIS, on one asset class (furniture), cheaply and without human labels? Taking the judge from ranking to optimization is where the work lives. Pushing a VLM judge into the training and evaluation loop exposes failure modes ranking never triggered, so our contribution is an optimization-grade hardening of the judge: a training judge (Qwen2.5-VL-7B) held distinct from an evaluation judge (InternVL3-8B) to break circularity; position-bias correction; and fixes for three failure modes (image overload, geometry-hiding splat renders, and reference-free judging that rewards clean-but-wrong outputs), with calibration evidence (clear-gap win-rate 0.83-1.0; base-vs-base ~0.5). Using this protocol as an independent evaluator, and working only from public models and data with lightweight parameter-efficient adaptation, we find our methods match the strong base rather than exceed it. Independent base samples carry essentially no learnable preference (0.94 order-flip rate), so signal must be engineered by quality-contrastive construction. Across six adaptation methods, two input regimes, and a severity sweep, the most targeted - conditioner repair under severe degradation - reaches parity (0.50) with the base, while no method clears the >=65% win-rate target. The result is mechanistic: clean inputs saturate the judge, flow-DIT fine-tuning washes out through the sampler, and conditioning repair is the locus that moves geometry. Win-rates are directional at n=8 objects. Matching a strong public-data base with cheap adaptation is itself informative: exceeding it needs more than lightweight PEFT on public data, and the judge protocol is reusable.
- Abstract(参考訳): 共同研究では、安価な幾何学とCLIPプロキシが不足している単一画像から3Dメッシュの品質を確実にランク付けする、非バイアスでクロスモデルVLM-as-3D-judgeが確立された。
判事の好みは、強力なオープンジェネレータTRELLISを1つのアセットクラス(家具)に特化して、安価に、かつ人間ラベルなしで提供できるだろうか?
審査員をランク付けから最適化に移すことが、仕事の在り処です。
トレーニングジャッジ(Qwen2.5-VL-7B)は,評価ジャッジ(InternVL3-8B)とは別個の評価ジャッジ(InternVL3-8B)と,3つの障害モード(画像オーバーロード,ジオメトリハイディングスプラットレンダリング,参照フリー判定)の補正,キャリブレーションエビデンス(クラーギャップ勝利率0.83-1.0;ベースvs-base ~0.5)の修正を行う。
このプロトコルを独立評価器として使用し、公開モデルと軽量なパラメータ効率適応データのみを用いて作業することで、我々の手法はそれを超えるのではなく、強いベースにマッチすることがわかった。
独立したベースサンプルは基本的に学習可能な好みを持たない(0.94オーダーフリップレート)ため、信号は品質コントラスト構成で設計されなければならない。
6つの適応法, 2つの入力法, 重度掃除法, 最も標的となる条件付き修復法は, ベースと同等 (0.50) に達し, >=65%の勝利率目標をクリアする手法は存在しない。
その結果は機械的であり、クリーンな入力は審査員を飽和させ、フローDITの微調整はサンプル装置を通して洗い出し、条件付き修復は幾何学を移動させる軌跡である。
ウィンレートは n=8 個のオブジェクトの方向である。
公開データに対する軽量PEFT以上のものが必要であり、判定プロトコルは再利用可能である。
関連論文リスト
- A Cross-Model VLM-Judge Protocol for Single-Image 3D Mesh Quality (and Why Cheap Proxies Fall Short) [0.08599681538174887]
シングルイメージから3Dジェネレータは急速に改善されている。
1つの生成されたメッシュが他のメッシュよりも優れているかどうかを判断する、合意された、人間の自由な方法はありません。
再現可能なVLM-judge評価プロトコルを提案し,検証する。
論文 参考訳(メタデータ) (2026-06-16T20:00:12Z) - Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data [21.469213097004523]
大規模言語モデルは、他のモデルによってますます評価され、自然な疑問が提起されている。
本稿では, 自己評価抽出(SEE)手法について紹介する。この手法は, キャリブレーション結合型強化学習フェーズを含む短いサイクルで, 応答を改善し, 審査員を予測し, 次いで, 応答を無触で残しながら, 予測を鋭くするマスク付き蒸留フェーズを備える。
帰属した自己評価は、モデル自身のトークン分布内で急激に局所化され、訓練されたことのない審査員間で安定しており、単一の審査員ではなく、品質の伝達可能な概念を示している」。
論文 参考訳(メタデータ) (2026-06-03T17:27:16Z) - Primal Generation, Dual Judgment: Self-Training from Test-Time Scaling [29.008352630270192]
2つの判断空間から自己学習を行うフレームワークであるDuST(Dual Self-Training)を導入する。
我々は、DuSTがLiveCodeBenchのBest-of-4テストタイムスケーリングを継続的に改善していることを示します。
LiveCodeBench v6のQwen3-30B-Thinkingでは、判定品質が+6.2 NDCG、シングルサンプルパス@1が+3.1、Best-of-4の精度が+4.1向上している。
論文 参考訳(メタデータ) (2026-05-11T22:34:45Z) - K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。
K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。
実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文 参考訳(メタデータ) (2026-02-10T05:07:46Z) - JudgeRLVR: Judge First, Generate Second for Efficient Reasoning [20.448286296459344]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおける推論の標準パラダイムとなっている。
本稿では,識別能力が効率的な生成の前提条件であると主張している。
本稿では,2段階の審査理論であるジャッジRLVRを提案する。
論文 参考訳(メタデータ) (2026-01-13T11:47:42Z) - GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。
Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。
GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。
これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文 参考訳(メタデータ) (2026-01-05T11:47:18Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。
提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文 参考訳(メタデータ) (2025-12-02T20:52:19Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。