論文の概要: A Dataset for Dynamic Human Preferences for Vision Language Models
- arxiv url: http://arxiv.org/abs/2606.07653v1
- Date: Tue, 02 Jun 2026 23:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.19122
- Title: A Dataset for Dynamic Human Preferences for Vision Language Models
- Title(参考訳): 視覚言語モデルのための動的人間の嗜好のためのデータセット
- Authors: Hannah Gao, Dylan Hadfield-Menell, Rachel Ma,
- Abstract要約: この研究は、視覚言語モデルが動的人間の推論を理解する能力を評価するための新しいベンチマークを導入している。
我々は,このベンチマークを生成するための自動パイプラインを提供する。画像依存,動的マルチモーダルなヒューマン参照データセット,および新しいベンチマークにおける最先端モデルの評価を行う。
- 参考スコア(独自算出の注目度): 6.379494871147752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the increased adoption of Vision Language Models (VLMs) in human-interactive settings, it is important that we evaluate how well these models can adapt to real-time preferences for different users. While an increasing number of vision-language benchmarks have recently been introduced, they focus largely on evaluating static capabilities and generally-held preferences learned from extensive training data. This work introduces a new benchmark for evaluating the ability of VLMs to understand dynamic human-preferences, i.e. preferences that are passed in-context at inference time. We provide an automated pipeline for generating this benchmark with variations on image dependence, a dynamic multi-modal human-preference dataset, and evaluations of state-of-the-art models on the novel benchmark.
- Abstract(参考訳): 視覚言語モデル(VLM)が人間と対話的な設定で採用されつつあることを考えると、これらのモデルが異なるユーザに対してリアルタイムの嗜好にどの程度適応できるかを評価することが重要である。
ビジョン言語ベンチマークが最近導入されたが、彼らは主に、広範なトレーニングデータから学んだ静的機能と一般的な好みを評価することに重点を置いている。
この研究は、VLMが動的人間の嗜好、すなわち推論時にコンテキスト内で渡される嗜好を理解する能力を評価するための新しいベンチマークを導入する。
我々は,このベンチマークを生成するための自動パイプラインを提供する。画像依存,動的マルチモーダルなヒューマン参照データセット,および新しいベンチマークにおける最先端モデルの評価を行う。
関連論文リスト
- Prompt-Based Value Steering of Large Language Models [0.0]
提案手法は,素早い候補が生成したテキストを特定の人的価値に向けて効果的に操れるかどうかを評価するための,実用的で再現可能な,モデルに依存しない手順である。
我々は,人間の基本値の理論と対話データセットによる構造化評価を用いて,ウィザード・ヴィクナ言語モデルの変種に適用する。
論文 参考訳(メタデータ) (2025-11-14T14:45:41Z) - Disentanglement Beyond Static vs. Dynamic: A Benchmark and Evaluation Framework for Multi-Factor Sequential Representations [14.972702558607557]
6つの異なるデータセット間での複数要素の逐次的絡み合いを評価するための、最初の標準ベンチマークを導入する。
本研究では,潜伏次元を意味因子と自動的に整列するポストホック潜伏探索段階を提案し,最先端の成果を達成できるクープマンモデルを提案する。
私たちのコードはGitHubで、データセットとトレーニングされたモデルはHugging Faceで利用可能です。
論文 参考訳(メタデータ) (2025-10-20T08:58:23Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。