論文の概要: Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.14507v1
- Date: Fri, 12 Jun 2026 14:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.938024
- Title: Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models
- Title(参考訳): Dense Coordinate-List Fine-Tuningは視覚言語モデルにおける制御可能な干渉面を誘導する
- Authors: Chenyu Zhou, Qiliang Jiang, Boguang Pan,
- Abstract要約: 濃密な座標リストを出力する微調整された視覚言語モデルは、視覚的グラウンドを改善するだけでなく、モデルが構造化された出力をシリアライズ、リピート、終了する方法も変更する。
我々はこの挙動を生成および制御面として研究する。
密度座標リストの適応は、測定と制御が可能な構造境界のクロスファミリー干渉面を生成する。
- 参考スコア(独自算出の注目度): 3.1386698775980597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning vision-language models to emit dense coordinate lists improves visual grounding but also changes how models serialize, repeat, and terminate structured outputs. We study this behavior as a generation and control surface. In Gemma 4 12B, high-capacity q/k/v/o LoRA raises class-aware F1@0.3 from 0.007 to 0.448 while inducing repeated-tail pressure (duplicate rate 0.080, max repeat 23). A q/v rank sweep keeps max repeat at 21-22 across ranks 4-64, showing capacity persistence. The target signal is separable: object-level repeat-stop removes exact repeated records (duplicate rate 0.000, max repeat 1) while preserving F1 (0.494 to 0.490) and stricter F1@0.5 (0.381 to 0.385). Structure-axis probes localize the effect to bbox-coordinate object lists; dense non-bbox and spatial/count JSON remain repeat-clean, including under high-capacity adapters. Qwen3-VL-8B reproduces a clean controlled endpoint (F1@0.3 0.318, duplicate rate 0.000), and COCO 2017 reproduces acquisition plus duplicate pressure. Dense coordinate-list adaptation therefore creates a structure-bound, cross-family interference surface that can be measured and controlled.
- Abstract(参考訳): 密集座標リストを出力する微調整視覚言語モデルは、視覚的グラウンドを改善するだけでなく、モデルが構造化された出力をシリアライズ、リピート、終了する方法も変更する。
我々はこの挙動を生成および制御面として研究する。
Gemma 4 12Bでは、高容量のq/k/v/o LoRAがクラス認識のF1@0.3を0.007から0.448に引き上げ、繰り返し尾圧を誘導する(倍率0.080、最大リピート23)。
q/vランクのスイープは、最大で4-64ランクの21-22でリピートし、キャパシティの持続性を示す。
オブジェクトレベルのリピートストップは、F1(0.494〜0.490)とより厳格なF1@0.5(0.381〜0.385)を保存しながら、正確な繰り返しレコード(倍率0.000、最大リピート1)を除去する。
構造軸プローブは、その効果をbbox-coordinateオブジェクトリストにローカライズする。
Qwen3-VL-8Bはクリーンな制御されたエンドポイント(F1@0.30.318、重複レート0.000)を再生し、COCO 2017は取得と重複圧力を再現する。
したがって、高密度座標リストの適応は、測定と制御が可能な構造バウンドなクロスファミリー干渉面を生成する。
関連論文リスト
- Surflo: Consistent 3D Surface Flow Model with Global State [57.57234680235885]
Surfloは、方向付けられた3次元表面点を、ノイズからフローマッチングを通じて独立して表面へ輸送することでデコードする。
独立なポイント単位の復号化に固有の局所的不整合を抑制するために、光度勾配を注入することにより、推定時間誘導項が近傍の点と相関する。
Surfloは、サーフェスメトリクスのフィードフォワードベースラインにマッチし、数百のビューを必要とする最適化ベースのメソッドよりも桁違いに高速に動作し、グローバルなラテントと任意の解像度のデコーディングを組み合わせた唯一のフィードフォワードアプローチである。
論文 参考訳(メタデータ) (2026-06-11T17:48:38Z) - $μ$VLA: On Recurrent Memory for Partially Observable Manipulation in VLA Models [44.66763491853812]
本研究は,VLA背骨の再発の制御的分離について検討した。
我々の定式化は、タイムステップにまたがる学習可能なメモリトークンの小さなセットでトランスフォーマーを強化します。
我々はこれらの結果を,背骨内再発の最小限のエンベロープの校正と解釈する。
論文 参考訳(メタデータ) (2026-06-10T13:26:40Z) - Measuring Maximum Activations in Open Large Language Models [60.3514350516308]
集中度, MoE, 視覚言語, 中間訓練, 命令調整型変異にまたがる8つのオープンファミリーから27個のチェックポイントで, グローバルおよび階層的に最大値を測定した。
最大アクティベーションサイズは、単純なサイズの副産物ではなく、ファミリー、アーキテクチャ、トレーニングステージに結びついているモデル特性である、と結論付けます。
論文 参考訳(メタデータ) (2026-05-15T03:31:51Z) - Quantization Dominates Rank Reduction for KV-Cache Compression [0.0]
量子化は、モデルと圧縮レベルに応じて、4-364 PPLのランク低下を一貫して上回る。
我々は、ソフトマックスフィッシャー計量の下で、投射損傷が1方向に3 x 2 (2b) の量子化損傷を超える結果によってこれを定式化する。
論文 参考訳(メタデータ) (2026-04-13T14:06:18Z) - CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - The Coordinate System Problem in Persistent Structural Memory for Neural Architectures [0.0]
そこで我々はDual-View Pheromone Pathway Network (DPPN)を紹介した。
永続メモリは安定した座標系を必要とする。
コントラスト的な更新,マルチソース蒸留,ハンガリーのアライメント,セマンティックな分解は,スクラッチから埋め込みが学習された場合の不安定性を解消しないことを示す。
論文 参考訳(メタデータ) (2026-03-24T06:51:59Z) - Reliable Audio Deepfake Detection in Variable Conditions via Quantum-Kernel SVMs [0.0]
音響ディープフェイク検出において量子カーネルを用いることで,モデルサイズを増大させることなく偽陽性率を低減できることを示す。
量子カーネルSVMと従来のSVMを同一のメル-スペクトログラム前処理を用いて比較する。
QSVMは、ASVspoof 5(2024年)で0.183対0.299、ADD23で0.081対0.188、ASVspoof 2019で0.346対0.399、In-the-Wildで0.355対0.413である。
論文 参考訳(メタデータ) (2025-12-21T16:31:05Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in
Semi-supervised Object Detection [28.40887130075552]
擬似ターゲットは正確な検出器の訓練を損なう。
生徒のトレーニングにノイズを注入し、過度な過度な問題を引き起こす。
不整合を低減するために,ConsistentTeacherと呼ばれる体系的ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-04T10:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。