論文の概要: UXBench: Measuring the Actionability of LLM-Generated UX Critiques
- arxiv url: http://arxiv.org/abs/2606.16262v1
- Date: Mon, 15 Jun 2026 06:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.111521
- Title: UXBench: Measuring the Actionability of LLM-Generated UX Critiques
- Title(参考訳): UXBench: LLM生成UX批判の行動可能性の測定
- Authors: Wenjie Wang, Yue Huang, Zipeng Ling, Han Bao, Hang hua, Xiaonan Luo, Yu Jiang, Shiyi Du, Yuexing Hao, Xiaomin Li, Yuchen Ma, Dianzhuo Wang, Yanfang Ye, Xiangliang Zhang,
- Abstract要約: 対話型UX判断器として大規模言語モデル(LLM)を評価するベンチマークであるUXBenchを紹介する。
UXBenchは10の製品表面のファミリーにまたがる、ローカルファーストで実行可能なウェブフィクスチャで構成されており、カバーゲートのルーリック探索と組み合わせている。
8つのフロンティアモデルについて,自動修理作業プロトコルと視覚障害者による検証実験の両方で評価した。
- 参考スコア(独自算出の注目度): 58.14408744110387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed as UX judges that inspect interfaces, diagnose usability problems, and propose repairs. Yet no controlled benchmark measures whether the resulting critiques are reliable and actionable across heterogeneous product surfaces. We introduce UXBench, a benchmark for evaluating LLMs as interaction-grounded UX judges. UXBench comprises local-first runnable web fixtures spanning ten product-surface families, paired with coverage-gated browser exploration that forces models to collect interaction evidence before reporting. Each judge model produces a structured UX report over seven rubric dimensions; report quality is measured by whether a fixed downstream repair agent can improve the interface based on the critique. We evaluate eight frontier models under both an automated repair-lift protocol and a blind human validation study. Results show that UX judging is neither saturated nor one dimensional: models differ meaningfully in report actionability, exhibit distinct rubric-level repair signatures, vary in fixture-level reliability, and trade leadership across surface categories
- Abstract(参考訳): 大規模な言語モデル(LLM)は、インターフェースを検査し、ユーザビリティの問題を診断し、修復を提案するUXジャッジとして、ますます多くデプロイされている。
しかし、結果の批判が不均一な製品表面に対して信頼性があり、実行可能なかどうかを計測する制御されたベンチマークは存在しない。
対話型UX判断器としてLLMを評価するベンチマークであるUXBenchを紹介する。
UXBenchは10の製品表面のファミリにまたがるローカルファーストの実行可能なWebフィクスチャで構成されており、カバレッジ付きのブラウザ探索と組み合わせて、モデルにレポートする前にインタラクションのエビデンスを収集させる。
各判定モデルは、7つのルーブル次元にわたる構造化UXレポートを生成し、その批判に基づいて、固定下流修復剤がインターフェースを改善することができるかどうかによって、レポート品質を測定する。
8つのフロンティアモデルについて,自動修理作業プロトコルと視覚障害者による検証実験の両方で評価した。
その結果、UX判定は飽和でも1次元でもないことが判明した。報告動作性においてモデルが有意に異なり、異なるルーリックレベルの修復シグネチャが示され、フィクスチャレベルの信頼性が変化し、表面カテゴリ間の貿易リーダーシップが変化する。
関連論文リスト
- Latent Performance Profiling of Large Language Models [47.009623327601226]
隠れたアクティベーションと出力分布からタスクに依存しない診断を導出するフレームワークであるLatent Performance Profiling(LPP)を紹介する。
静的精度スコアとは異なり、LPPは同様のサイズのモデル間で安定でアーキテクチャに敏感なシグネチャを提供する。
類似のベンチマークスコアを持つモデルは、エントロピーや適応性の違いなど、対照的なプロファイルを示すことができることを示す。
論文 参考訳(メタデータ) (2026-05-28T14:41:26Z) - VISTAQA: Benchmarking Joint Visual Question Answering and Pixel-Level Evidence [26.0945130521806]
既存のベンチマークでは、テキストによる回答の正当性または画素レベルのローカライゼーションを分離して評価している。
本稿では,視覚的質問応答に基づく自由形式の回答正当性と画素レベルの証拠を共同評価するためのベンチマークであるVISTAQAを紹介する。
GROVEは, テキストの精度と接地品質を, サンプルごとの幾何平均で組み合わせることで, 関節の正しさを強制する指標である。
論文 参考訳(メタデータ) (2026-05-20T03:44:06Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - TabReX : Tabular Referenceless eXplainable Evaluation [15.411207072791806]
TabReXは、大規模な言語モデルによって生成されたテーブルを評価するための、参照レスでプロパティ駆動のフレームワークである。
構造的および事実的忠実度を定量化する解釈可能なルーリック認識スコアを計算する。
堅牢性を評価するため、6つのドメインと12のプランナー駆動摂動型にまたがる大規模なベンチマークであるTabReX-Benchを紹介する。
論文 参考訳(メタデータ) (2025-12-17T19:20:20Z) - DOCR-Inspector: Fine-Grained and Automated Evaluation of Document Parsing with VLM [35.910677096654574]
文書解析は、構造化されていないPDF画像を半構造化データに変換することを目的としており、多様な領域における情報のデジタル化と活用を容易にする。
一般的なプラクティスは、しばしば標準ベンチマークで最高のパフォーマンスモデルを選択する。
本稿では,文書解析評価をきめ細かな誤り検出と解析として形式化するDOCR-Inspectorを紹介する。
論文 参考訳(メタデータ) (2025-12-11T13:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。