論文の概要: LaViSA: A Language and Vision Structural Ambiguity Benchmark
- arxiv url: http://arxiv.org/abs/2606.19552v1
- Date: Wed, 17 Jun 2026 19:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.513774
- Title: LaViSA: A Language and Vision Structural Ambiguity Benchmark
- Title(参考訳): LaViSA: 言語と視覚構造的曖昧性ベンチマーク
- Authors: Lee Sangmyeong, Shun Inadumi, Koichiro Yoshino,
- Abstract要約: 視覚的シーンを利用した構造的あいまいさを解決するための視覚モデルと言語モデルの能力を評価するためのベンチマークであるLanguage and Vision Structure Ambiguity(LaViSA)を紹介する。
LaViSAはあいまいな文、あいまいな文、そして7つのあいまいなカテゴリーにまたがるあいまいな文の対応する画像で構成されている。
- 参考スコア(独自算出の注目度): 7.0881583491840745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structural ambiguity arises when a single sentence admits multiple valid interpretations due to its syntactic structure, posing a fundamental challenge for language understanding. Visual scenes serve as useful cues for resolving such ambiguity, and Vision and Language Models (VLMs) need to be capable of deriving possible semantic interpretations from visual scenes. We introduce Language and Vision Structural Ambiguity (LaViSA), a benchmark designed to evaluate the ability of VLMs to resolve structural ambiguity leveraging visual scenes. LaViSA consists of ambiguous sentences, their disambiguated sentences, and corresponding images of these disambiguated sentences across seven ambiguity categories. Using LaViSA, we conduct a comprehensive evaluation of diverse VLMs, including both proprietary and open-source models with varying parameter scales and reasoning capabilities. Experimental results show that although recent VLMs can leverage visual scenes to resolve structural ambiguity to a some extent, they still struggle with certain ambiguity types and visually subtle semantic distinctions, indicating remaining limitations in resolving structural ambiguity using visual scenes.
- Abstract(参考訳): 構造的曖昧さは、一つの文がその構文構造のために複数の有効な解釈を許容するときに生じ、言語理解の根本的な課題を生じさせる。
視覚シーンはこのような曖昧さを解決するための有用な手段であり、視覚と言語モデル(VLM)は視覚シーンから意味論的解釈を導き出す必要がある。
本稿では,視覚シーンを利用した構造的あいまいさを解決するためのVLMの能力を評価するためのベンチマークであるLanguage and Vision Structure Ambiguity(LaViSA)を紹介する。
LaViSAはあいまいな文、あいまいな文、そして7つのあいまいなカテゴリーにまたがるあいまいな文の対応する画像で構成されている。
LaViSAを用いて,パラメータスケールと推論能力の異なる,プロプライエタリモデルとオープンソースモデルの両方を含む,多様なVLMの包括的評価を行う。
実験結果から,近年のVLMでは,構造的あいまいさをある程度解決するために視覚的シーンを活用することができるが,特定のあいまいさタイプや視覚的に微妙な意味的区別に苦慮し,視覚的シーンを用いた構造的あいまいさの解決に限界が残っていることが示唆された。
関連論文リスト
- Floating or Suggesting Ideas? A Large-Scale Contrastive Analysis of Metaphorical and Literal Verb-Object Constructions [53.690096725532726]
本研究では,2Mコーパス文中の297の英語動詞オブジェクト対(例:float idea vs. suggest idea)を分析した。
5つのNLPツールを用いて,感情的,語彙的,統語的,言論的な特徴を捉えた認知的・言語的特徴2,293点を抽出した。
クロスペアの結果は, 語彙頻度, 凝集度, 構造規則性が高く, 比喩的文脈は感情負荷, イメージ性, 語彙多様性, 構造的特異性を示す。
論文 参考訳(メタデータ) (2026-04-09T14:08:57Z) - Contextualized Visual Personalization in Vision-Language Models [51.3151397451851]
本稿では、コンテキスト化された視覚的パーソナライゼーションのコアタスクとして、パーソナライズされた画像キャプションを扱う統一的なフレームワークを提案する。
実験では、CoViPはパーソナライズされた画像キャプションを改善するだけでなく、下流のパーソナライゼーションタスク全体で全体的利益をもたらす。
これらの結果から、CoViPは、堅牢で一般化可能な視覚的パーソナライゼーションを実現するための重要な段階であることが示された。
論文 参考訳(メタデータ) (2026-02-03T12:21:26Z) - VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set [80.50996301430108]
視覚言語表現のアライメントは、強いマルチモーダル推論能力を持つ現在のビジョン言語モデルを実現する。
視覚言語表現をその隠れアクティベーションにエンコードするスパースオートエンコーダVL-SAEを提案する。
解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
論文 参考訳(メタデータ) (2025-10-24T10:29:31Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene
Graphs with Language Structures via Dependency Relationships [17.930724926012264]
教師なしの方法で共同視覚言語構造を誘導することを目的とした新しいタスクを導入する。
私たちの目標は、視覚的なシーングラフと言語依存ツリーをシームレスにブリッジすることにあります。
そこで我々は, 粗い構造を創出する自動アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-27T09:51:34Z) - Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。
文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。
言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文 参考訳(メタデータ) (2021-07-26T08:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。