論文の概要: Readable Yet Unpredictable: Rotated-Outcome Prediction in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.07641v1
- Date: Mon, 01 Jun 2026 14:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.175327
- Title: Readable Yet Unpredictable: Rotated-Outcome Prediction in Vision-Language Models
- Title(参考訳): 可読性はまだ予測不可能:視覚言語モデルにおける回転出力予測
- Authors: Lexin Wang, Shenghua Liu, Yiwei Wang, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 視覚言語モデルでは、オリジナルの画像だけで180回転を予測できるのか?
我々はこの能力について,回転アウトカム予測を用いて検討する。
現在の視覚言語モデルは、表示された時に変換された視覚状態を認識できるが、しばしば元のビューからその状態を予測できない。
- 参考スコア(独自算出の注目度): 82.10380665213867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can vision-language models predict what a 180° rotation would reveal from the original image alone? We study this ability through Rotated-Outcome Prediction: given an original image, a model must answer what would be seen or read after a 180° in-plane rotation, without directly observing the rotated target. To isolate this gap, we introduce RotOutBench, a paired diagnostic benchmark spanning open visual cases and controlled text-image rotations. A sharp pattern emerges: many VLMs can recognize the relevant content when directly given either the original or rotated image, yet fail to infer the rotated result from the original image alone. On controlled text-image rotations, predicted-rotation accuracy collapses to near zero even for models with high direct-reading accuracy. A model-level case study further shows that the prediction state can approach a rotated-image reading state, while the final readout still shifts toward the original string. Current VLMs can recognize a transformed visual state when it is shown, but often fail to predict that state from the original view.
- Abstract(参考訳): 視覚言語モデルでは、元の画像だけで180°回転がどうなるかを予測できますか?
原画像が与えられた場合、モデルは回転対象を直接観察することなく、180°の面内回転の後に何が見えるか、あるいは読み込まれるかに答えなければならない。
このギャップを解消するために、オープンな視覚ケースと制御されたテキストイメージローテーションにまたがる2つの診断ベンチマークであるRotOutBenchを紹介する。
シャープなパターンが現れる: 多くのVLMは、原画像または回転した画像のどちらかを直接与えたときに関連コンテンツを認識することができるが、原画像のみから回転した結果を推測することができない。
制御されたテキスト画像回転では、直接読影精度の高いモデルであっても、予測回転精度がほぼゼロに崩壊する。
さらに、モデルレベルのケーススタディでは、予測状態が回転画像読解状態に近づき、最終的な読み出しは元の文字列にシフトすることを示した。
現在のVLMは、表示された時に変換された視覚状態を認識できるが、しばしば元のビューからその状態を予測できない。
関連論文リスト
- RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation [59.830657530592255]
MLLM(Multimodal Large Language Models)は、0deg, 90deg, 180deg, 270degで回転した入力画像の向きを正確に識別する。
このタスクは、方向に関係なく、回転キューを検出し、画像内の空間的関係を文脈化するための堅牢な視覚的推論機能を必要とする。
GPT-5, o3, Gemini-2.5-Pro など,最先端のオープンかつプロプライエタリなMLLM が入力画像の回転を確実に識別できないことを示す。
論文 参考訳(メタデータ) (2025-08-19T15:58:25Z) - RSAR: Restricted State Angle Resolver and Rotated SAR Benchmark [61.987291551925516]
単位円制限損失を組み込んで角度予測精度を向上させるユニットサイクルリゾルバを導入する。
提案手法は,既存の最先端教師あり手法の性能を効果的に向上させることができる。
UCRの助けを借りて、これまでで最大の多クラス回転SARオブジェクト検出データセットであるRSARをさらに注釈し、導入する。
論文 参考訳(メタデータ) (2025-01-08T11:41:47Z) - Deep Rotation Correction without Angle Prior [57.76737888499145]
我々は,高コンテンツ忠実度で傾きを自動的に補正する,回転補正という新しい実用的タスクを提案する。
このタスクは画像編集アプリケーションに簡単に統合でき、ユーザーは手動操作なしで回転した画像を修正できる。
我々はニューラルネットワークを利用して、傾斜した画像を知覚的に水平に歪めることができる光学フローを予測する。
論文 参考訳(メタデータ) (2022-07-07T02:46:27Z) - Learning Continuous Rotation Canonicalization with Radial Beam Sampling [2.8935588665357077]
放射光を用いた画像標準化モデルであるショートBICを提案する。
我々のモデルは、最大連続角度回帰を可能にし、任意の中心回転入力画像の正準化を可能にする。
事前処理モデルとして、モデルに依存しない回転に敏感な下流予測を備えた回転不変ビジョンパイプラインを実現する。
論文 参考訳(メタデータ) (2022-06-21T19:12:06Z) - Outdoor inverse rendering from a single image using multiview
self-supervision [36.065349509851245]
一つの無制御画像から形状,反射率,照明を復元するために,シーンレベルの逆レンダリングを行う方法を示す。
ネットワークは、rgb画像を入力として、アルベド、シャドー、正規マップをレグレッシブし、最小2乗の最適球面調和照明を推定する。
これはmvs監督を逆レンダリングの学習に利用する最初の試みであると考えています。
論文 参考訳(メタデータ) (2021-02-12T16:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。