論文の概要: RECOM: A Validity Discrimination Tradeoff in Automatic Metrics for Open Ended Reddit Question Answering
- arxiv url: http://arxiv.org/abs/2606.19218v1
- Date: Wed, 17 Jun 2026 15:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.253214
- Title: RECOM: A Validity Discrimination Tradeoff in Automatic Metrics for Open Ended Reddit Question Answering
- Title(参考訳): RECOM: オープンエンドのReddit質問に対する自動メトリクスの妥当性差別トレードオフ
- Authors: Pushwitha Krishnappa, Amit Das, Vinija Jain, Aman Chadha, Tathagata Mukherjee,
- Abstract要約: 15,000 r/AskReddit質問に対する汚染のない評価データセットであるRECOMを紹介する。
両方の仕事をうまくこなす指標は存在しない。
すべてのメトリクスが同じ出力をスコアするので、この妥当性判別トレードオフは、モデルではなくメトリクスの特性である。
- 参考スコア(独自算出の注目度): 15.456770184839726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic metrics are the default for evaluating LLM-generated text, yet a metric is quietly asked to do two jobs: tell genuine content alignment from surface coincidence (validity), and tell a better system from a worse one (discriminative power). On open-ended, opinion-driven question answering, the two are in tension. We introduce RECOM (Reddit Evaluation for Correspondence of Models), a contamination-free evaluation dataset of 15,000 r/AskReddit questions (September 2025), each paired with its authentic community replies, which postdate every evaluated model's training cutoff. Scoring five open-source LLMs (7--10B) against every reply each metric paired with a random-derangement noise floor we find that no metric does both jobs well. Cosine similarity separates real from random answers (Cohen's $d \approx 2$) but cannot rank the five models ($|d| < 0.1$); BERTScore precision appears to rank the models (raw $|d|$ up to 0.63), but once response length is controlled this collapses to $|d| = 0.09$ and its validity is weak ($d \approx 0.8$, versus cosine's $\approx 2$). Because every metric scores the same outputs, this validity--discrimination tradeoff is a property of the metrics, not the models, and we argue it stems from representation design. Three independent LLM judges reproduce the validity gap and likewise separate the five models only weakly. We recommend reporting metrics on both axes, with an explicit random-baseline floor. RECOM is publicly available at https://anonymous.4open.science/r/recom-D4B0
- Abstract(参考訳): 自動メトリクスは、LCM生成したテキストを評価するためのデフォルトであるが、メトリクスは静かに2つのジョブを行うように要求される: 表面の偶然(妥当性)から真のコンテンツアライメントを伝え、より悪いもの(差別的なパワー)からより良いシステムを伝える。
オープンエンドで意見駆動の質問に対する回答では、両者は緊張関係にある。
15,000のr/AskReddit質問(2025年9月)の汚染のない評価データセットであるRECOM(Reddit Evaluation for Cor correspondingence of Models)を紹介した。
5つのオープンソース LLM (7--10B) を、各メトリクスがランダムにずれたノイズフロアとペアリングするごとに照合すると、どちらの指標もうまく機能しないことがわかった。
コーエンの$d \approx 2$) と現実を区別するが、5つのモデル (|d| < 0.1$); BERTScore の精度はモデル (raw $|d|$ 最大 0.63) をランク付けできないが、応答長が制御されると、この崩壊は $|d| = 0.09$ となり、その妥当性は弱くなる (d \approx 0.8$ に対して cosine の $\approx 2$)。
すべての計量が同じ出力をスコアするので、この正当性-識別トレードオフは、モデルではなくメトリクスの特性であり、表現設計に由来すると我々は主張する。
3つの独立したLCM判事は、妥当性ギャップを再現し、5つのモデルを弱く分離する。
両軸の指標を明示的なランダムベースラインフロアで報告することを推奨する。
RECOMはhttps://anonymous.4open.science/r/recom-D4B0で公開されている。
関連論文リスト
- The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models [0.0]
解析データベースの自然言語クエリ用にデプロイされたLLMは、2つの障害に悩まされる。
ClickHouseのCleaned Contoso Retailデータセットに対して,100の自然言語質問に対して,3つのフロンティアLSMをベンチマークした。
論文 参考訳(メタデータ) (2026-04-28T02:53:23Z) - Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines [0.0]
4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
論文 参考訳(メタデータ) (2026-04-25T07:18:30Z) - Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats [0.01116979912801043]
我々は、GPT-5.2、Grok 4.1、Claude Opus 4.5、DeepSeek-V3.2、Gemini Pro 3、および盲目、解答、偽解、そして模範的な条件下でのヒトマーカーに対する委員会集計を比較した。
n=771ドルのブラインド大学試験の質問に対して、モデルは差別的妥当性の強い分数平均絶対誤差(fMAE)$approx 0.22$を達成する。
$n=55$スクリプト全体において、盲目のAIマーキングは人間のマーキングよりも厳格で可変的であり、差別的妥当性はすでに貧弱である。
論文 参考訳(メタデータ) (2026-03-16T02:09:06Z) - Assessing LLM Reliability on Temporally Recent Open-Domain Questions [15.456770184839726]
大規模言語モデル(LLM)は、オープンドメインの質問応答のためにますます多くデプロイされている。
我々は4つのオープンソース LLM が最近のReddit の質問 15,000 に対してどのように反応するかを調査した。
すべてのモデルは、8%のBLEU-1オーバーラップにもかかわらず、参照と99%以上のコサイン類似性を達成している。
論文 参考訳(メタデータ) (2026-01-17T21:33:27Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Large Language Models Can Self-Correct with Key Condition Verification [39.67266805233599]
単純で効果的な検証手法は,大規模言語モデルの本質的な能力を解き放つことができる。
本稿では, 誤応答を段階的に識別し, 訂正する反復的検証列補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。