論文の概要: Offline Preference-Based Trajectory Evaluation
- arxiv url: http://arxiv.org/abs/2606.17541v1
- Date: Tue, 16 Jun 2026 05:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.291825
- Title: Offline Preference-Based Trajectory Evaluation
- Title(参考訳): オフライン選好に基づく軌道評価
- Authors: Fernando Diaz,
- Abstract要約: そこで我々は,時間的嗜好と時間的回帰プロファイルを直接比較した,嗜好に基づく軌道評価を提案する。
さまざまなエージェントとインタラクティブなベンチマークにおいて、標準的な成功ベースのメトリクスは、およそ75%のインスタンスで相関した比較を生成します。
- 参考スコア(独自算出の注目度): 54.93316418589433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline evaluation of agentic systems often collapses trajectories to terminal success, discarding information about partial progress and inducing widespread ties, creating substantial statistical inefficiency by reducing effective sample size and weakening the ability to distinguish systems. We propose preference-based trajectory evaluation, which compares trajectories directly through temporal preferences over progress and time-to-return profiles. We find that, across diverse agentic and interactive benchmarks, standard success-based metrics produce tied comparisons on roughly 75% of instances, whereas trajectory-aware preferences reduce ties to roughly 35%, improving discriminative power, ranking stability, and data efficiency. Our results suggest that benchmark saturation, often attributed to poor data collection or problem difficulty, may also be explained by the choice of evaluation measure.
- Abstract(参考訳): エージェントシステムのオフライン評価は、しばしば終端的な成功への軌道を崩壊させ、部分的な進歩に関する情報を捨て、広範囲な結びつきを誘発し、有効なサンプルサイズを減らし、システムを区別する能力を弱めることによって、実質的な統計的非効率性を生み出す。
そこで我々は,時間的嗜好と時間的回帰プロファイルを直接比較した,嗜好に基づく軌道評価を提案する。
さまざまなエージェントとインタラクティブなベンチマークにおいて、標準的な成功ベースのメトリクスは、およそ75%のインスタンスで相関した比較を生成するのに対して、軌跡認識の嗜好は、関係をおよそ35%に減らし、差別力、ランキング安定性、データ効率を改善します。
この結果から, ベンチマーク飽和度は, データ収集の貧弱さや問題の難しさに起因することが多く, 評価尺度の選択によっても説明できる可能性が示唆された。
関連論文リスト
- Multiple data-driven missing imputation [0.0]
KZImputerは、短小から中小の欠点(1-5点以上)のために設計された新しい適応型計算法である。
その中心となるメカニズムはシリーズの開始時、中間時、終了時のギャップを区別し、計算精度を最適化するために各位置に調整された技法を適用する。
KZImputerの性能は確立された計算手法に対して体系的に評価され、その後の時系列解析におけるデータ品質の向上の可能性を示している。
論文 参考訳(メタデータ) (2025-07-03T16:27:12Z) - Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems [6.540293515339111]
検索レベルシステムのオフライン評価は、高性能なモデルの開発に不可欠である。
本稿では,検索グレードシステムのオフライン評価を行うための新しいフレームワークを提案する。
本研究は,(1)オフライン評価バイアスに対処するための因果関係の定式化,(2)システムに依存しない脱バイアスフレームワーク,(3)有効性の実証的検証を含む。
論文 参考訳(メタデータ) (2025-04-04T23:52:57Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - SKTR: Trace Recovery from Stochastically Known Logs [7.882975068446842]
機械学習の発展とセンサデータの利用の増加は、決定論的ログへの依存に挑戦する。
本研究では,現実に忠実な決定論的ログを生成するタスクを定式化する。
効果的なトレースリカバリアルゴリズムは、不確実な設定のために信頼できるプロセスマイニングツールを維持するための強力な助けとなるだろう。
論文 参考訳(メタデータ) (2022-06-25T15:29:20Z) - Efficient Data Association and Uncertainty Quantification for
Multi-Object Tracking [12.993112198633016]
本研究は, 関節後方追尾器 (JPT) について, 後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・後部・
JPTは、標準メトリクスにおいて優れたパフォーマンスを持つデータアソシエーションのより正確な不確実性表現を示す。
また, トラジェクトリの品質向上のために, ユーザ・イン・ザ・ループアノテーションの自動スケジューリングに応用した JPT の有用性を示す。
論文 参考訳(メタデータ) (2020-11-13T19:36:56Z) - Taking the Counterfactual Online: Efficient and Unbiased Online
Evaluation for Ranking [74.46448041224247]
データロギングのポリシーを最適化する新しいロギング・ポリシ最適化アルゴリズム(LogOpt)を導入する。
LogOptは、ログポリシーに無関係な反ファクト的なアプローチをオンラインアプローチに変換し、アルゴリズムが表示すべきランキングを決定する。
オンライン評価手法として、LogOptは既存のインターリービング方法とは異なり、位置と項目選択バイアスに偏りがないことが証明されている。
論文 参考訳(メタデータ) (2020-07-24T18:05:58Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。