論文の概要: A Cross-Model VLM-Judge Protocol for Single-Image 3D Mesh Quality (and Why Cheap Proxies Fall Short)
- arxiv url: http://arxiv.org/abs/2606.18451v1
- Date: Tue, 16 Jun 2026 20:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.879341
- Title: A Cross-Model VLM-Judge Protocol for Single-Image 3D Mesh Quality (and Why Cheap Proxies Fall Short)
- Title(参考訳): シングルイメージ3Dメッシュ品質のためのクロスモデルVLM-Judgeプロトコル(そしてなぜチーププロキシが不足するのか)
- Authors: Ali Asaria, Tony Salomone, Deep Gandhi,
- Abstract要約: シングルイメージから3Dジェネレータは急速に改善されている。
1つの生成されたメッシュが他のメッシュよりも優れているかどうかを判断する、合意された、人間の自由な方法はありません。
再現可能なVLM-judge評価プロトコルを提案し,検証する。
- 参考スコア(独自算出の注目度): 0.08599681538174887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-image-to-3D generators are improving quickly, but there is no agreed, human-free way to tell whether one generated mesh is better than another. Practitioners commonly rely on cheap automatic proxies (render-space CLIP similarity and mesh geometry-validity statistics), yet how well these track perceived quality is unestablished. We make two contributions. First, we propose and validate a reproducible VLM-judge evaluation protocol: a fixed 24-view headless render rig, two independent vision-language judge families, and a mandatory position-bias correction that queries both presentation orders and keeps only order-consistent verdicts. The two judge families agree substantially with each other (Cohen's kappa = 0.66), well above the chance-agreement floor. Second, using this protocol as the reference, we show the cheap proxies do not substitute for it. Geometry validity is only a weak signal on average (because, as we show, it is bimodal) and stays below our pre-registered target, while render-CLIP is at chance. A learned Bradley-Terry head collapses onto a single manifoldness statistic (giving render-CLIP a negative weight) and matches geometry-only exactly, so learning the feature weights buys nothing. The proxy is also bimodal: it is significantly above chance on contrasts with visible geometric defects but at chance on ambiguous contrasts, consistent with geometry validity tracking the judge only when the defect is visually salient. We therefore recommend the VLM-judge protocol as a reliable, reproducible evaluator under the conditions tested (two feed-forward generators on Google Scanned Objects, with a face-drop degradation regime) and advise against geometry/CLIP proxies as optimization targets.
- Abstract(参考訳): シングルイメージから3Dジェネレータは急速に改善されているが、1つの生成されたメッシュが他のメッシュよりも優れているかどうかを判断する、合意された、人間の自由な方法はない。
実践者は一般的に、安価な自動プロキシ(render-space CLIP類似性とメッシュ幾何値統計)に頼っているが、これらのトラック品質がどの程度確立されていないかは定かではない。
私たちは2つの貢献をします。
まず、24-viewのヘッドレスレンダリングリグと2つの独立した視覚言語判断ファミリと、両方の提示順序を問う必須位置バイアス補正という、再現可能なVLM-judge評価プロトコルを提案し、検証する。
2つの裁判官族は互いに実質的に一致している(コーエンのカッパ=0.66)。
第二に、このプロトコルを基準として、安価なプロキシがそれに代わるものではないことを示す。
幾何学的妥当性は平均的に弱い信号である(なぜならそれはバイモーダルだから)。
学習したBradley-Terryの頭は、単一の多様体性統計量(レンダリング-CLIPを負の重みとする)に崩壊し、幾何学のみと正確に一致するので、特徴量を学ぶことは何も得ない。
このプロキシはまたバイモーダルでもあり、目に見える幾何学的欠陥との対比では著しく上回っているが、不明瞭なコントラストでは、その欠陥が視覚的に正当である場合にのみ、判断者を追跡する幾何学的妥当性と一致している。
そこで我々は,VLM-judgeプロトコルをテスト対象条件(Google Scanned Objects上の2つのフィードフォワードジェネレータ,顔画像劣化機構)下で信頼性の高い再現可能な評価器として推奨し,最適化ターゲットとして幾何学/CLIPプロキシに対して助言する。
関連論文リスト
- Are We Overconfident in Models and Results for Semi-Supervised 3D Medical Image Segmentation? [4.120238673372104]
半教師付き学習は、アノテーションのコストを削減する主要なパラダイムとなっている。
現在の進歩は2倍の過信問題によって曇っていると我々は主張する。
本稿では,二軸信頼性評価エンジン上に構築した三空間原理分割フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T08:16:40Z) - Dual-Branch Center-Surrounding Contrast: Rethinking Contrastive Learning for 3D Point Clouds [55.5576033344795]
本稿では,DualBranch textbfCentertextbfSurrounding textbfContrast (CSCon) フレームワークを提案する。
FULLおよびALLプロトコルでは、CSConは生成メソッドに匹敵するパフォーマンスを達成する。
提案手法は, クロスモーダルなアプローチを超越して, 最先端の成果が得られる。
論文 参考訳(メタデータ) (2025-12-09T14:56:35Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Learning Generalizable Shape Completion with SIM(3) Equivariance [28.32354310239772]
3次元形状補完法は通常、スキャンが標準フレームに予め整列されていると仮定する。
このリークは、ネットワークが固有の幾何学を推測するのではなく、絶対的な位置を記憶するために利用するであろうポーズとスケールの手がかりである。
SIM(3)-等変形状補完ネットワークは, モジュール層が連続的に特徴を正準化し, 類似性不変形状の推論を行い, 元のフレームを復元する。
論文 参考訳(メタデータ) (2025-09-30T17:58:55Z) - AdversariaL attacK sAfety aLIgnment(ALKALI): Safeguarding LLMs through GRACE: Geometric Representation-Aware Contrastive Enhancement- Introducing Adversarial Vulnerability Quality Index (AVQI) [21.209413521884297]
LLMに対する敵の脅威は、現在の防衛が適応できるよりも急速にエスカレートしている。
ALKALIは, 厳格にキュレートされた最初の逆数ベンチマークである。
本稿では、遅延空間正規化と協調するアライメントフレームワークGRACEを紹介する。
論文 参考訳(メタデータ) (2025-06-10T15:14:17Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Quality-aware Part Models for Occluded Person Re-identification [77.24920810798505]
咬合は人体再識別(ReID)にとって大きな課題となる
既存のアプローチは一般的に、計算効率とReIDの精度の両面で最適であるように、目に見える身体の部品を推測するための外部ツールに依存している。
閉塞型ReIDのためのQPM(Quality-Aware Part Models)という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:51:09Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。