論文の概要: Surprise-Guided MergeSort: Budget-Efficient Human-in-the-Loop Ranking via Adaptive Comparison Scheduling
- arxiv url: http://arxiv.org/abs/2606.15623v3
- Date: Tue, 23 Jun 2026 04:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.087907
- Title: Surprise-Guided MergeSort: Budget-Efficient Human-in-the-Loop Ranking via Adaptive Comparison Scheduling
- Title(参考訳): Suprise-Guided MergeSort: 適応的比較スケジューリングによる予算効率の良い人格ランキング
- Authors: Yujin Park, Haejun Chung, Ikbeom Jang,
- Abstract要約: 人間の判断を真に必要とする比較を識別する枠組みを提案する。
textbfSurprise-Guided MergeSort (SGS)フレームワークは、これを3つの統合コンポーネントで実現している。
テキスト類似性(STS-B, BIOSSES, SICKR-STS)と画像品質評価(KonIQ-10k, TID2013, LIVE Challenge)の6つの多様なベンチマークで検証を行った。
- 参考スコア(独自算出の注目度): 0.5861893391102716
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pairwise comparison is the gold standard for subjective ranking tasks; however, exhaustive annotation requires a massive number of human comparisons ($O(n^2)$). While sorting-based methods have reduced this burden to $O(n\log n)$, they still require expensive human judgment for every single comparison. To further improve annotation efficiency, we propose leveraging a Vision-Language Model (VLM) not as an annotator replacement, but as a \emph{question prioritizer} to identify which comparisons genuinely require human judgment. The proposed \textbf{Surprise-Guided MergeSort (SGS)} framework achieves this through three integrated components: (1) a bottom-up MergeSort scheduler that structures comparisons and exploits transitivity, (2) a composite Surprise Scorer -- combining position-bias-cancelled VLM confidence, Elo gap, and vote entropy -- to quantify comparison ambiguity, and (3) an adaptive budget allocator that routes high-surprise pairs to humans while automating low-surprise pairs via transitivity inference. Validation was conducted on six diverse benchmarks spanning text similarity (STS-B, BIOSSES, SICKR-STS) and image quality assessment (KonIQ-10k, TID2013, LIVE Challenge). SGS effectively identified and skipped up to 535 non-informative comparisons per session. Consequently, it achieved Kendall's $τ{\times}100$ improvements of $+6$ to $+12$ over Active Elo under the same total budget. These results demonstrate that combining VLM-guided surprise metrics with algorithmic sorting provides a generally consistent accuracy-efficiency trade-off across diverse domains.
- Abstract(参考訳): ペアワイズ比較は主観的ランキングタスクのゴールドスタンダードであるが、徹底的なアノテーションは膨大な数の人間比較を必要とする(O(n^2)$)。
ソートに基づく手法は、この負担を$O(n\log n)$に減らしたが、それでも全ての比較において高価な人的判断を必要とする。
アノテーションの効率をさらに向上するために,アノテーションの代替としてではなく,「emph{question priorityr」として視覚言語モデル(VLM)を用いて,人間の判断を真に必要とする比較を識別する手法を提案する。
提案した‘textbf{Surprise-Guided MergeSort(SGS)フレームワークは、(1)比較を構造化し、推移性を利用するボトムアップのMergeSortスケジューラ、(2)位置バイアス付きVLM信頼度、エロギャップ、投票エントロピーを組み合わせた複合サプライズススケラー、(3)高サプライズペアをトランジティビティ推論によって自動化しながら、人間にハイサプライズペアをルーティングする適応予算アロケータである。
テキスト類似性(STS-B, BIOSSES, SICKR-STS)と画像品質評価(KonIQ-10k, TID2013, LIVE Challenge)の6つのベンチマークで検証を行った。
SGSはセッション毎に535個の非形式的な比較を効果的に識別し、スキップした。
その結果、同じ予算の下でKendallの$τ{\times}100$の改善を$+6$から$+12$ over Active Eloに到達した。
これらの結果は、VLM誘導のサプライズメトリクスとアルゴリズムのソートを組み合わせることで、様々な領域でほぼ一貫した精度と効率のトレードオフが得られることを示している。
関連論文リスト
- Instance-Optimal Estimation with Multiple LLM Judges on a Budget [84.31744861038106]
我々は、この問題を*予算付きヘテロスケダティックなマルチジャッジ推定*として定式化する。
K$のプロンプト-レスポンスペア、J$の既知のコストと未知のクエリ-ジャッジ分散が与えられた場合、目標は、$ell_p$-errorを最小化しながら、有界スコアベクトルを推定することである。
EST-IVWEは,予算の低次項までのオラクルIVWEレートと一致していることを示す。
論文 参考訳(メタデータ) (2026-05-22T08:26:08Z) - K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。
K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。
実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文 参考訳(メタデータ) (2026-02-10T05:07:46Z) - BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs [14.085089126904101]
我々は、$k$-wiseランキングの原則となる基盤を提供するトーナメントグラフフレームワークを導入する。
それぞれ$k$-item比較すると、$binomk2$の完全なトーナメントがペアワイズで表示される。
我々は、アイテムのランクが確実に決定されたときを形式化し、情報ゲインを最大化する欲求クエリスケジュールを設計する。
論文 参考訳(メタデータ) (2026-02-05T08:41:00Z) - EZ-Sort: Efficient Pairwise Comparison via Zero-Shot CLIP-Based Pre-Ordering and Human-in-the-Loop Sorting [0.5861893391102716]
ペアワイズ比較は、主観的または難しいアノテーションタスクにおける絶対評価や順序分類よりも好まれることが多い。
最近の研究は、ソートアルゴリズムを用いてペアワイズ比較を積極的にサンプリングすることで、アノテーションの負担(O(n log n))を大幅に減らした。
さらに,(1)コントラスト言語-画像事前学習(CLIP)モデルを用いて項目を概ね事前注文し,(2)手軽で明白な比較を自動比較に置き換えることで,アノテーションの効率を向上する。
論文 参考訳(メタデータ) (2025-08-29T12:06:49Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Sorting with Predictions [1.7042264000899532]
学習強化アルゴリズムのレンズをソートする根本的な問題について検討する。
我々は,$O(sum_i log eta_i)$の正確な比較だけで,新しい,シンプルなアルゴリズムを設計する。
比較複雑性は, 検証された誤差測度に対して理論的に最適であることを示す。
論文 参考訳(メタデータ) (2023-11-01T18:00:03Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Rank-based Non-dominated Sorting [0.0]
我々は、高額な支配比較を避けるために、ソート安定性と順序情報を利用した非支配的なソート手法であるランクソートを導入する。
2つのアルゴリズム的変種が提案されている: 1つはRandOrdinal (RO) で、支配性を決定するために順序付き階数比較(英語版)(ordinal rank comparisons)を用いており、O(N) 空間を必要とする。
NSGA2アルゴリズムと合成ベンチマークを用いた実験シミュレーションにおいて,提案手法の有効性を他の手法と比較した。
論文 参考訳(メタデータ) (2022-03-25T13:59:42Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。