Fugu-MT 論文翻訳(概要): The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models

論文の概要: The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models

arxiv url: http://arxiv.org/abs/2606.07861v1
Date: Fri, 05 Jun 2026 21:49:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.492245
Title: The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models
Title（参考訳）: 最後の可視レンズ:視覚言語モデルにおける微細な知覚の探索
Authors: Lujun Li, Lama Sleem, Niccolo Gentile, Yangjie Xu, Yewei Song, Wenbo Wu, Radu State,
Abstract要約: 近年の視覚言語モデル(VLM)は多モーダル理解と推論に優れるが、その微粒な視覚知覚はいまだに未解明である。この制限を体系的に調査する新しいベンチマークであるFineSightBenchを紹介します。包括的実験と最先端モデルにおける詳細な故障モード解析により、認識は12px前後で飽和する一方、推論は大規模でも限定的であるという鋭い解離が明らかとなった。
参考スコア（独自算出の注目度）: 10.66208619087744
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent vision-language models (VLMs) excel at multimodal understanding and reasoning, yet their fine-grained visual perception remains underexplored. A natural extension of ``How many r are there in Strawberry?'' asks: how small a visual pattern can a VLM reliably perceive? As such, we introduce FineSightBench, a new benchmark that systematically probes this limit by separating perception tasks (pixel-level recognition of letters, shapes, objects) from reasoning tasks (spatial reasoning, counting, ordering over small targets) across controlled scales of 4--48px. Through comprehensive experiments and detailed failure mode analysis on state-of-the-art models, we reveal a sharp dissociation: perception saturates around 12px, while reasoning remains limited even at larger scales, with persistent numeracy and sequence errors. These findings expose fundamental deficiencies in VLMs' fine-scale visual reasoning that demand more rigorous evaluation.
Abstract（参考訳）: 近年の視覚言語モデル(VLM)は多モーダル理解と推論に優れるが、その微粒な視覚知覚はいまだに未解明である。 Strawberry?'''' の自然拡張では、視覚的なパターンが VLM を確実に知覚できるのか? そこで我々はFineSightBenchという,4～48pxの制御スケールで,知覚タスク(文字,形状,物体のピクセルレベルの認識)と推論タスク(空間的推論,カウント,小さなターゲットの順序付け)を分離することにより,この限界を体系的に探索する新しいベンチマークを紹介した。総合的な実験と、最先端モデルにおける詳細な故障モード解析により、知覚は12px前後で飽和する一方、推論は、永続的な数性とシーケンスエラーを伴う大規模でも制限される。これらの結果は、より厳密な評価を求めるVLMの視覚的微視的推論の根本的な欠陥を浮き彫りにした。

関連論文リスト

Counting to Four is still a Chore for VLMs [3.017198998175514]
視覚言語モデル(VLM)は、複雑なマルチモーダル推論タスクにおいて印象的な性能を達成した。それらは依然として、オブジェクトカウントのような単純な接地スキルで失敗します。本稿では, 挙動解析と力学解析の両方を通して, VLM計数行動の実証的研究を行った。
論文参考訳（メタデータ） (2026-04-11T05:23:19Z)
VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs [3.8552182839941884]
視覚言語モデル(VLM)の視覚的推論能力の評価と解析を目的とした新しいベンチマークであるVRIQを紹介する。抽象的なパズルでは、性能は平均28%の精度でほぼランダムに保たれ、一方、自然タスクは45%の精度でより優れているが、それでも弱い結果が得られる。分析の結果,障害の約56%は知覚単独で発生し,43%は知覚と推論の両方から発生し,1%は推論単独から発生していることがわかった。
論文参考訳（メタデータ） (2026-02-05T07:07:27Z)
MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文参考訳（メタデータ） (2026-02-02T18:49:06Z)
Mechanisms of Prompt-Induced Hallucination in Vision-Language Models [58.991412160253276]
制御されたオブジェクトカウント設定において、プロンプトが画像中のオブジェクト数をオーバーステートする障害モードについて検討する。刺激誘発幻覚 (PIH) を, 追加訓練を伴わずに40%以上減少させる小さなアテンションヘッドのセットを同定した。本研究は, 刺激による幻覚を誘発する内的メカニズムについての知見を提示し, モデル特異的な行動の実施方法の違いを明らかにした。
論文参考訳（メタデータ） (2026-01-08T18:23:03Z)
VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs [7.406217790017003]
自然主義的環境下での視覚的推論を文脈言語による制御なしで研究するためのベンチマークであるVisRes Benchを紹介した。 3段階の複雑さのモデル行動を分析し、知覚的および関係的な視覚的推論能力の明らかな限界を明らかにする。我々は、VisResがマルチモーダル研究における抽象的な視覚的推論を促進するための統一的なフレームワークをどのように提供するかについて論じる。
論文参考訳（メタデータ） (2025-12-24T14:18:38Z)
VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。非局所的な視覚的推論のための視覚言語モデルの能力を評価する。その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文参考訳（メタデータ） (2025-07-04T23:15:52Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文参考訳（メタデータ） (2025-06-06T17:06:25Z)
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。 LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文参考訳（メタデータ） (2025-03-28T06:09:51Z)
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [55.65083505741497]
視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文参考訳（メタデータ） (2025-02-21T22:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。