論文の概要: Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding
- arxiv url: http://arxiv.org/abs/2606.18101v2
- Date: Wed, 17 Jun 2026 08:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.224669
- Title: Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding
- Title(参考訳): 正しい教師を信頼する:GUI接地のための品質に配慮した自己蒸留
- Authors: Jingyuan Huang, Zuming Huang, Yucheng Shi, Tianze Yang, Xiaoming Zhai, Wei Chu, Ninghao Liu,
- Abstract要約: VLMに基づくGUI接地のための品質認識型自己蒸留法を提案する。
正当性に気付くゲーティングと教師の確率スケーリングにより、教師の信号品質を向上させる。
我々の手法は一貫してベースモデルを改善し、強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 39.58236772917555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical user interface (GUI) grounding requires vision-language models (VLMs) to identify small target elements in high-resolution screenshots and predict precise screen coordinates. On-policy self-distillation (OPSD) is a promising post-training approach for this coordinate-sensitive task, since it provides dense token-level teacher signals beyond hard coordinate labels. However, naive OPSD is not well suited to GUI grounding: OPSD evaluates the teacher on student-generated prefixes, the quality of coordinate-token teacher signals can degrade when the prefix has already deviated from the target coordinate, leading to unreliable teacher signal. To mitigate this, We propose quality-aware self-distillation for VLM-based GUI grounding, which improves coordinate-token teacher-signal quality through soft correctness-aware gating and teacher-probability scaling. The soft correctness-aware gate checks whether the teacher's current coordinate-token prediction can still be completed into the ground-truth box under the student-generated prefix. If not, the corresponding teacher signal is down-weighted. Teacher-probability scaling then uses the teacher's confidence as a lightweight factor to further calibrate the strength of the gated supervision. A key empirical finding is that neither component alone improves overall performance, whereas combining them consistently improves performance. This suggests that the two mechanisms play complementary roles: correctness-aware gating suppresses unreliable coordinate-token supervision, while teacher-probability scaling calibrates the strength of the remaining signals. Experiments across six GUI grounding benchmarks show that our method consistently improves the base model and outperforms strong baselines.
- Abstract(参考訳): グラフィカルユーザインタフェース (GUI) では、高解像度のスクリーンショットで小さなターゲット要素を識別し、正確な画面座標を予測するために視覚言語モデル (VLM) が必要となる。
On-policy Self-distillation (OPSD) は、ハード・コーディネート・ラベルを超えた高密度のトークンレベルの教師信号を提供するため、このコーディネート・センシティブ・タスクにおいて有望なポスト・トレーニング・アプローチである。
OPSDは、生徒が生成した接頭辞で教師を評価し、接頭辞が目標座標から逸脱した場合には、教師信号の品質が劣化し、教師信号の信頼性が低下する。
そこで本研究では,VLMに基づくGUI接地における品質意識の自己蒸留手法を提案する。
ソフトな正当性認識ゲートは、教師の現在の座標トーケン予測が、学生が生成したプレフィックスの下で、グランドトラスボックスに完了可能であるかどうかをチェックする。
そうでなければ、対応する教師信号は重み付けされる。
教師確率のスケーリングは、教師の自信を軽量な要因として利用し、教師の指導力をさらに校正する。
重要な経験的発見は、コンポーネントのみが全体的なパフォーマンスを改善する一方で、それらを組み合わせることでパフォーマンスが一貫して向上することです。
これは2つのメカニズムが相補的な役割を担っていることを示唆している: 正しさを意識したゲーティングは、信頼性の低いコーディネート・トーケンの監督を抑える一方、教師確率のスケーリングは、残りの信号の強度を校正する。
6つのGUIグラウンドベンチマークで実験したところ、我々の手法はベースモデルを一貫して改善し、強いベースラインを上回ります。
関連論文リスト
- Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation [28.572361799234784]
生のKL不一致が学習価値の粗いプロキシであることを示す。
我々はこの局所的な互換性をトークンの教育可能性として定式化する。
軽量なトークン配置選択法であるTeachability-Aware OPDを提案する。
論文 参考訳(メタデータ) (2026-05-26T10:56:46Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding [14.557461522754545]
GUIグラウンドニングに適した最初のOPSDフレームワークであるGUI-SDを提示する。
教師のための視覚的に豊かな特権的コンテキストを構築する。
GRPOベースの手法よりも一貫して優れており、精度とトレーニング効率の両方でOPSDを生かしている。
論文 参考訳(メタデータ) (2026-05-01T13:23:26Z) - CoDTS: Enhancing Sparsely Supervised Collaborative Perception with a Dual Teacher-Student Framework [15.538850922083652]
我々は,CoDTS(Dual Teacher-Student framework)のエンドツーエンド協調認識を提案する。
適応的な補完学習を用いて、高品質な擬似ラベルと高品質な擬似ラベルの両方を生成する。
CoDTSは、品質と量の両方において、擬似ラベルの最適バランスを効果的に保証する。
論文 参考訳(メタデータ) (2024-12-11T12:34:37Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Semi-Supervised Semantic Segmentation via Gentle Teaching Assistant [72.4512562104361]
擬似ラベル付きラベル付きラベル付きデータは,特徴抽出器における代表的特徴の学習を容易にすることができると論じる。
そこで本研究では,擬似ラベルが特徴抽出器やマスク予測器に与える影響を解消する新しい枠組みであるジェントル指導アシスタント(GTA-Seg)を提案する。
論文 参考訳(メタデータ) (2023-01-18T07:11:24Z) - Label Matching Semi-Supervised Object Detection [85.99282969977541]
半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。
ラベルミスマッチ問題は、以前の研究でまだ完全に解明されていないため、自己学習中に重大な確証バイアスが生じる。
本稿では,2つの異なる相補的視点から,単純かつ効果的な LabelMatch フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T05:59:41Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。