論文の概要: Litmus: Zero-Label, Code-Driven Metric Specification for Evaluating AI Systems
- arxiv url: http://arxiv.org/abs/2606.23403v1
- Date: Mon, 22 Jun 2026 14:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 19:18:52.608909
- Title: Litmus: Zero-Label, Code-Driven Metric Specification for Evaluating AI Systems
- Title(参考訳): Litmus: AIシステム評価のためのコード駆動メトリック仕様であるZero-Label
- Authors: Prajjwal Gupta, Prasang Gupta, Vishal Bhutani, Apoorva Sharma, Sumanth Chundru, Waqar Sarguroh, Kevin Paul,
- Abstract要約: AIパイプラインの評価とモニタリングのメトリクスを設計するゼロラベルシステムであるLitmusを紹介する。
評価対象がすでに知られていると仮定する代わりに、Litmus氏はまず測定すべきものと理由を特定する。
Litmusを3つの実コード定義AIパイプラインで評価する。
- 参考スコア(独自算出の注目度): 1.5377897575579675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agentic LLM systems move from prototypes to deployment across increasingly diverse domains, evaluating them has become both more important and more difficult. The challenge is not only that individual metrics may be unreliable, but that evaluation goals are often left implicit. Without a clear account of what a system is expected to do, how it can fail, and which failures matter, metric choices become difficult to justify, interpret, or validate. We present Litmus, a zero-label system that designs evaluation and monitoring metrics for AI pipelines by eliciting evaluation intent from source code and targeted interrogation. Instead of assuming that the evaluation target is already known, Litmus first identifies what must be measured and why, then converts those answers into constraints for constructing a justified, per-stage metric portfolio. We evaluate Litmus on three real, code-defined AI pipelines - financial account grouping, scientific QA, and inherent risk assessment - against AutoMetrics and three DynamicRubric baselines. Litmus achieves the broadest or tied-broadest concern coverage, spans more pipeline stages, produces a near-zero-redundancy portfolio, and ranks first in validity against per-row quality labels on all three pipelines - decisively on scientific QA (Spearman $ρ=0.72$ vs. less than $0.47$ for every baseline), and within overlapping confidence intervals in relation to two components of the audit framework despite using no labels during metric design. Our results support a shift from automatic metric implementation to automatic metric specification: before asking which metric to compute, evaluation systems should ask what must be measured and why.
- Abstract(参考訳): エージェントLLMシステムがプロトタイプから、ますます多様なドメインにまたがるデプロイに移行するにつれ、それらを評価することはより重要で、より難しいものになってきています。
課題は、個々のメトリクスが信頼できないだけでなく、評価目標が暗黙的に残されることです。
システムが何をするか、どのように失敗するか、どの失敗が重要か、といった明確な説明がなければ、メトリクスの選択を正当化、解釈、検証することは難しくなります。
我々は、ソースコードから評価意図を抽出し、ターゲットの尋問を行うことで、AIパイプラインの評価と監視のメトリクスを設計するゼロラベルシステムであるLitmusを提案する。
評価対象がすでに分かっていると仮定する代わりに、Litmus氏はまず測定すべきものと理由を特定し、その答えを正当化されたステージ毎のメトリクスポートフォリオを構築するための制約に変換する。
我々は、AutoMetricsとDynamicRubricの3つのベースラインに対して、3つの実際のコード定義AIパイプライン(財務会計グループ、科学的QA、固有のリスク評価)でLitmusを評価する。
Litmusは、パイプラインステージを拡大し、ほぼゼロの冗長なポートフォリオを生成し、科学的なQA(Spearman $ρ=0.72$ vs. $0.47$)と、メトリクス設計中にラベルを使わずに監査フレームワークの2つのコンポーネントと重なり合う信頼区間を含む、すべての3つのパイプラインのローあたりの品質ラベルに対して、第一に有効である。
本研究の結果は, 自動計量実装から自動計量仕様へのシフトを裏付けるものであり, 計算対象の指標を問う前に, 評価システムは測定すべき項目と理由を問うべきである。
関連論文リスト
- Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth [24.21103008618097]
思考の連鎖(CoT)は、大規模言語モデルの解釈と監査行動の中心となっている。
ステップレベルとCoTレベルの両方で、地道忠実度ラベルを出力する自動ラベリングパイプラインを開発した。
実験の結果,ほとんどの測定値が近い確率で動作し,予測バイアスが強く,CoTが長くなると劣化することがわかった。
論文 参考訳(メタデータ) (2026-05-24T12:57:01Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Software Code Quality Measurement: Implications from Metric
Distributions [6.110201315596897]
1) コード品質に一貫して影響を与える単調なメトリクス、2) コード品質と一貫した関係を持たない非単調なメトリクスである。
本研究は, コード品質の多次元的構成とその測定結果に寄与し, モノトニックおよび非モノトニックの両測定値に対する一貫した測定の実践的意味を提供する。
論文 参考訳(メタデータ) (2023-07-22T13:55:42Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。