論文の概要: Chronological Blindness: Benchmarking Temporal Reasoning in Vision-Language Models with CHRONOSIGHT
- arxiv url: http://arxiv.org/abs/2606.16334v1
- Date: Mon, 15 Jun 2026 07:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.15433
- Title: Chronological Blindness: Benchmarking Temporal Reasoning in Vision-Language Models with CHRONOSIGHT
- Title(参考訳): 時間的盲点:クロノソライトを用いた視覚言語モデルにおける時間的推論のベンチマーク
- Authors: Parthaw Goswami, Jaynto Goswami Deep,
- Abstract要約: 視覚的時間的推論の5次元を評価するベンチマークであるChronosIGHTを紹介する。
ベンチマークは、数分から数千年に及ぶ8つのプロセスファミリーに1000の項目で構成されている。
本研究では,8つのオープンソースVLM(500M〜19Bパラメータ)を2つのプロンプト条件下で評価し,人間のパフォーマンス基準を収集する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human perception of visual scenes is inherently temporal. We instinctively recognise whether a fruit is ripening or rotting, whether construction is progressing or being demolished, and approximately how much time separates two photographs of the same subject. Whether large vision-language models (VLMs) share this competence remains an open and practically important question. We introduce CHRONOSIGHT, a rigorously controlled benchmark evaluating five dimensions of visual temporal reasoning: CHRONORANK (chronological ordering of image sequences), CHRONOLOCATE (ordinal stage localisation from a single image), CHRONODELTA (estimation of time elapsed between two images on a logarithmic scale), CHRONOREVERSE (detection of temporally reversed sequences), and CHRONOODD (identification of a temporal outlier within a set). The benchmark comprises 1{,}000 items across eight process families (biological growth, food transformation, physical weathering, construction, environmental change, human ageing, astronomical phenomena, and urban dynamics) spanning timescales from minutes to millennia. We evaluate eight open-source VLMs (500 M to 19 B parameters) under two prompting regimes and collect human performance baselines. Human performance averages 0.89 across tasks; the best open model (Qwen2.5-VL-7B) reaches 0.40 under direct prompting, a gap we term chronological blindness. Lightweight LoRA fine-tuning on 151 examples raises CHRONODELTA accuracy from near-zero to 0.43, transferring zero-shot to related tasks (CHRONOODD: 0.37; CHRONOREVERSE: 0.64)suggesting the bottleneck is partly instruction following rather than visual perception. Benchmark, code, and predictions will be released upon acceptance.
- Abstract(参考訳): 人間の視覚的シーンの知覚は本質的に時間的です。
我々は,果実が熟成しているか腐っているか,建設が進行しているか破壊されているかを本能的に認識し,同じ被写体の2枚の写真がどの程度の時間で分離されているかを明らかにする。
大きな視覚言語モデル(VLM)がこの能力を共有しているかどうかについては、依然としてオープンかつ実践的に重要な問題である。
視覚的時間的推論の5次元を厳密に制御したベンチマークであるChronoRANK(画像列の時間的順序付け)、ChronoOCATE(画像列の時間的順序付け)、ChroronlTA(対数スケールで2つの画像の間に経過する時間の推定)、ChronorEverse(時間的反転配列の検出)、ChronoDD(セット内の時間的外乱の同定)を紹介した。
このベンチマークは、8つのプロセスファミリー(生物学的成長、食品の変換、物理的風化、建設、環境変化、人類の老化、天文学的現象、都市力学)にまたがる1{,}000項目から成っている。
本研究では,8つのオープンソースVLM(500M〜19Bパラメータ)を2つのプロンプト条件下で評価し,人間のパフォーマンスベースラインを収集する。
最高のオープンモデル(Qwen2.5-VL-7B)は、直接的プロンプトの下で0.40に達する。
151例の軽量LORA微調整は、クロノデレタの精度をほぼゼロから0.43に引き上げ、ゼロショットを関連するタスク(CHRONOODD: 0.37; CHRONOREVERSE: 0.64)に転送する。
ベンチマーク、コード、予測は受け入れ次第リリースされる。
関連論文リスト
- Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models [0.7919969809015935]
VLM(Vision-Language Models)は、入力画像に存在しないオブジェクトを幻覚させる。
本研究では,SCR (Spatial Credit Redistribution) を提案する。
SCRは幻覚の低減、生成品質、遅延のトレードオフを改善する。
論文 参考訳(メタデータ) (2026-02-25T23:08:31Z) - TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs [24.299498301173255]
TimeBlindは、詳細な時間的理解のための診断ベンチマークである。
我々は600のインスタンスで20以上の最先端MLLMを評価した。
最高のMLLMのインスタンス精度は48.2%に過ぎず、人間のパフォーマンス(98.2%)をはるかに下回っている。
論文 参考訳(メタデータ) (2026-01-30T20:21:46Z) - TempViz: On the Evaluation of Temporal Knowledge in Text-to-Image Models [27.40006053562777]
TempVizは、画像生成における時間的知識を階層的に評価する最初のデータセットである。
5つの時間的知識カテゴリにまたがる5つのT2Iモデルの能力について検討する。
人間の評価では、時間的能力は一般的に弱く、カテゴリーごとの精度は75%を超えない。
論文 参考訳(メタデータ) (2026-01-21T12:52:23Z) - Chirality in Action: Time-Aware Video Representation Learning by Latent Straightening [54.66784646111214]
新しいタスク:カイラルな行動認識(chiral action recognition)を導入し、時間的に反対な行動のペアを区別する必要がある。
私たちのゴールは、これらのカイラルペア間の線形分離性を提供する、時間を考慮したビデオ表現を作ることです。
その結果、3つのデータセットにまたがって提案したタスクに対して,コンパクトだが時間に敏感なビデオ表現が得られることがわかった。
論文 参考訳(メタデータ) (2025-09-10T11:23:10Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [55.48403691519395]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation [57.651809298512276]
ChronoMagic-Benchは、テキスト・トゥ・ビデオ(T2V)生成ベンチマークである。
モデルがメタモルフィックな振幅と時間的コヒーレンスを持つタイムラプスビデオを生成する能力に焦点を当てている。
10種類の代表的なT2Vモデルの手動評価を行い、その強度と弱点を明らかにした。
大規模なChronoMagic-Proデータセットを作成し、460kの高品質な720pタイムラプスビデオを含む。
論文 参考訳(メタデータ) (2024-06-26T17:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。