Fugu-MT 論文翻訳(概要): Do vision-language models search like humans? Reasoning tokens as a reaction-time analog in classic visual-search paradigms

論文の概要: Do vision-language models search like humans? Reasoning tokens as a reaction-time analog in classic visual-search paradigms

arxiv url: http://arxiv.org/abs/2606.25066v1
Date: Tue, 23 Jun 2026 18:19:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 17:05:30.115217
Title: Do vision-language models search like humans? Reasoning tokens as a reaction-time analog in classic visual-search paradigms
Title（参考訳）: 視覚言語モデルは人間のように探索するか?古典的な視覚研究パラダイムにおける反応時間類似としてトークンを推論する
Authors: Farahnaz Wick,
Abstract要約: 視覚言語モデル(VLM)が同じ行動シグネチャを示すかどうかを問う。特徴対共役探索,空間構成探索(T-vs-L)探索,列挙,傾き/垂直探索非対称性の4つの古典的パラダイムを適応する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual search has been one of the most productive paradigms in the study of visual attention: the way reaction time scales with the number of items distinguishes parallel, "pop-out" search from serial, attention-demanding search. I ask whether vision-language models (VLMs) exhibit the same behavioral signatures. I adapt four classic paradigms: feature versus conjunction search, spatial-configuration (T-vs-L) search, enumeration, and the tilted/vertical search asymmetry; and present them to current frontier and mid-tier models. Because a single model call has no reaction time, I use the number of reasoning ("thinking") tokens a model spends per trial as a within-model analog of search effort, and I compare against a large public human benchmark (Wolfe et al., 2010). The models reproduce several human signatures: feature search costs flat effort while conjunction effort climbs with set size; frontier models hold accuracy where mid-tier models collapse to chance; and a resolution control shows the conjunction cost is genuine search rather than difficulty resolving small shapes. They also diverge from humans in informative ways. The target-present effort slope exceeds the target-absent slope, reversing the human ordering; enumeration remains accurate where humans would lose count; and a reasoning model with adaptive deliberation declines to deliberate on detection tasks altogether, so that a single search expresses itself as an effort gradient in one model and as an accuracy cliff in another. I argue that psychophysical paradigms, applied behaviorally, are a sharp and inexpensive probe of machine visual cognition, and that the points of divergence are as informative as the points of agreement.
Abstract（参考訳）: 視覚的検索は視覚的注意の研究において最も生産的なパラダイムの1つであり、反応時間の項目数によるスケールの仕方によって、並列で「ポップアウト」な探索と、連続した注意を要する検索とが区別される。視覚言語モデル(VLM)が同じ行動シグネチャを示すかどうかを問う。特徴対結合探索,空間構成探索(T-vs-L)探索,列挙,傾き/垂直探索非対称性の4つの古典的パラダイムを適用し,それらを現在のフロンティアモデルと中層モデルに提示する。単一のモデルコールに反応時間がないため、試行錯誤のモデル内で使用する推論(思考)トークンの数を検索作業のモデル内アナログとして使用し、大規模な人体ベンチマークと比較します(Wolfe et al , 2010)。特徴探索コストは平坦であり、協調作業はセットサイズに上昇し、フロンティアモデルは中間層モデルが崩壊する確率の精度を保ち、分解能制御は、小さな形状の解決が困難ではなく、結合コストが真の探索であることを示している。また、情報的な方法で人間から遠ざかる。目標現在努力勾配は、目標達成勾配を超え、人間の順序を逆転させ、人間がカウントを失う場所の列挙は正確であり、適応的な熟考を伴う推論モデルは、検出タスクを全く意図せずに減少し、一つの探索が、あるモデルにおける取り組み勾配として、また別のモデルにおける精度崖として、自分自身を表現する。心理物理学のパラダイムは、行動的に応用され、機械の視覚認知の鋭く安価な調査であり、分岐点が合意点と同じくらい有益である、と私は主張する。

関連論文リスト

Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction [66.71402249062777]
ScanDiffは、拡散モデルと視覚変換器を組み合わせることで、多種多様な現実的なスキャンパスを生成する新しいアーキテクチャである。本手法は,拡散モデルの性質を活用してスキャンパス変動を明示的にモデル化し,多種多様な視線軌道を生成する。ベンチマークデータセットの実験によると、ScanDiffは、フリービューとタスク駆動のシナリオの両方で最先端のメソッドを上回っている。
論文参考訳（メタデータ） (2025-07-30T18:36:09Z)
Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文参考訳（メタデータ） (2025-06-06T17:06:25Z)
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。 LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文参考訳（メタデータ） (2025-03-28T06:09:51Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
Longer Fixations, More Computation: Gaze-Guided Recurrent Neural Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文参考訳（メタデータ） (2023-10-31T21:32:11Z)
Computing a human-like reaction time metric from stable recurrent vision models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文参考訳（メタデータ） (2023-06-20T14:56:02Z)
Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文参考訳（メタデータ） (2022-09-16T02:54:00Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Visual Search Asymmetry: Deep Nets and Humans Share Similar Inherent Biases [7.209733010493132]
古典的な探索タスクの興味深い性質は、邪魔者Bの目標Aを見つけることが、Aの中の目標Bを見つけることよりも容易である、という非対称性である。本稿では,対象物と探索画像を入力として取り込んで,対象物が見つかるまで眼球運動列を生成する計算モデルを提案する。ヒトの非対称性を示す6つのパラダイム探索課題において、人間の行動に対するモデルを比較した。
論文参考訳（メタデータ） (2021-06-05T19:46:42Z)
Predicting Goal-directed Human Attention Using Inverse Reinforcement Learning [44.774961463015245]
視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習モデルを提案する。 IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
論文参考訳（メタデータ） (2020-05-28T21:46:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。