論文の概要: Self-Evolving Visual Questioner
- arxiv url: http://arxiv.org/abs/2606.13929v1
- Date: Thu, 11 Jun 2026 21:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.659414
- Title: Self-Evolving Visual Questioner
- Title(参考訳): 自己進化型視覚質問票
- Authors: Yijun Liang, Hengguang Zhou, Ming Li, Lichen Li, Cho-Jui Hsieh, Tianyi Zhou,
- Abstract要約: 視覚言語モデル(VLM)は一般的に受動応答器として訓練される。
VLMは外部の監督なしに視覚的質問者として継続的に改善できることを示す。
本稿では,VLM自体をプロジェクタとフィルタの両方として使用する自己進化型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.949845616431624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) are typically trained as passive answerers, while their ability to actively ask diverse, non-trivial, visual-centric and grounded questions remains underexplored. Existing visual questioners' performance is bottlenecked by the availability of high-quality training data or the cost of curating them. We show that a VLM can continuously improve itself as a visual questioner without any external supervision. We propose a self-evolving framework that uses a VLM itself as both a proposer and a filter to produce harder, more informative, and visual-centric questions, while maintaining their exploration diversity to avoid training collapse. These questions are then used to train the VLM in both questioner and answerer modes. To evaluate the questioner, we introduce an agentic protocol that assesses questions along perception, reasoning, and diversity dimensions. Experiments across various backbone VLMs show that our method substantially enhances the quality and substantially expands the difficulty boundary of autonomous question generation. Under the same budget, our self-supervision is more effective than training on the static source data. Moreover, the self-evolving questioner remains a competitive or even better answerer.
- Abstract(参考訳): 視覚言語モデル(VLM)は一般的に受動的回答者として訓練されるが、多様で、非自明で、視覚中心で、根拠のない質問を積極的に問う能力は、まだ未熟である。
既存の視覚的質問者のパフォーマンスは、高品質なトレーニングデータの提供や、それらをキュレートするコストによってボトルネックとなる。
VLMは外部の監督なしに視覚的質問者として継続的に改善できることを示す。
本稿では,VLM自体をプロジェクタとフィルタの両方として使用して,より難しく,より情報的で,視覚中心的な質問を生成するとともに,トレーニング崩壊を避けるために,探索の多様性を維持した自己進化型フレームワークを提案する。
これらの質問は、質問者モードと応答者モードの両方でVLMを訓練するために使用される。
質問者を評価するために,認識,推論,多様性の次元に沿った質問を評価するエージェントプロトコルを導入する。
種々のバックボーンVLM実験により,本手法は品質を著しく向上し,自律的質問生成の難易度境界を大幅に拡張することを示した。
同じ予算の下では、私たちのセルフスーパービジョンは、静的ソースデータのトレーニングよりも効果的です。
さらに、自己進化的な質問者は、競争力のある、あるいはよりよい回答者のままです。
関連論文リスト
- RISE: Reliable Improvement in Self-Evolving Vision-Language Models [22.16641554921884]
視覚言語モデル(VLM)は強力なマルチモーダル推論機能を実現している。
VLMは依然として、ポストトレーニングのための大規模な人為的な監督に大きく依存している。
視覚言語モデルのための信頼性の高い自己進化フレームワークである textbfRISE を提案する。
論文 参考訳(メタデータ) (2026-05-20T08:57:57Z) - Right this way: Can VLMs Guide Us to See More to Answer Questions? [11.693356269848517]
質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
論文 参考訳(メタデータ) (2024-11-01T06:43:54Z) - Uncertainty-Guided Self-Questioning and Answering for Video-Language Alignment [19.345829429613037]
本稿では,自己問合せと回答を通じて,学習過程における質問サンプルを増強する自己学習フレームワークを提案する。
低品質の自己生成質問は、特に訓練の初期段階において、パフォーマンスを汚染する可能性がある。
我々は、不確実性を推定し、自己生成質問の品質を評価するために、エビデンシャル・ディープ・ラーニングを導入する。
論文 参考訳(メタデータ) (2024-09-17T05:17:37Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [47.668572102657684]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文 参考訳(メタデータ) (2023-04-04T09:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。