Fugu-MT 論文翻訳(概要): Decoy-Calibrated Failure Audits for Language Models

論文の概要: Decoy-Calibrated Failure Audits for Language Models

arxiv url: http://arxiv.org/abs/2606.09046v1
Date: Mon, 08 Jun 2026 05:33:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.712814
Title: Decoy-Calibrated Failure Audits for Language Models
Title（参考訳）: 言語モデルのためのデコイ校正型障害監査
Authors: Vyzantinos Repantis, Ameya Gawde, Harshvardhan Singh,
Abstract要約: 提案する誤り説明が報告できるほど信頼できるかどうかを判断するための手順であるJanusを紹介する。ゴールは、新しい説明を生成するのではなく、どの説明を保留するかを決めることである。
参考スコア（独自算出の注目度）: 1.7205106391379026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Useful audits reveal not only how often a model fails, but also where its failures concentrate. An auditor may test many candidate explanations: long inputs, indirect questions, distracting evidence, or combinations of these factors. The risk is selection. The largest observed effect may reflect a real failure mode, or it may simply be the best result among many tried. We introduce Janus, a procedure for deciding when a proposed error explanation is credible enough to report. The goal is not to generate new explanations, but to decide which ones hold up. The auditor starts with a fixed model, a labeled evaluation set, and a frozen list of candidate explanations, which we call descriptors. Janus scores each descriptor by its error-rate lift, then compares real descriptors with fake ones that have the same frequencies but are randomly assigned to examples. A descriptor is confirmed only if it beats this decoy floor on the data used for discovery and then repeats on separate held-out data. In a controlled audit of multi-table lookup tasks, Janus identifies the planted failure, confirming long-chain descriptors and their interactions. The LLM often stops partway through the lookup chain instead of reaching the final answer. On two public benchmarks, MuSiQue and LongBench v2, the SliceLine baseline flags plausible high-error pockets, but Janus confirms none of them. Ablations show why both safeguards matter. On LongBench v2, an uncalibrated fixed threshold reports 20 descriptors, the decoy floor leaves one, and the holdout check rejects the last one after its lift shrinks from 0.36 to 0.05. The resulting principle separates proposing explanations from reporting them. Candidates may come from any source, but only those that beat decoys and replicate on fresh data become audit findings.
Abstract（参考訳）: 有効な監査は、モデルが失敗する頻度だけでなく、失敗が集中する場所も明らかにします。監査人は、長い入力、間接的な質問、不注意な証拠、またはこれらの要因の組み合わせなど、多くの候補説明をテストすることができる。リスクは選択です。観測された最大の効果は、実際の障害モードを反映するかもしれないし、単に多くの試みの中で最良の結果であるかもしれない。提案する誤り説明が報告できるほど信頼できるかどうかを判断するための手順であるJanusを紹介する。ゴールは、新しい説明を生成するのではなく、どの説明を保留するかを決めることである。監査人は、固定モデル、ラベル付き評価セット、そして私たちが記述子と呼ぶ候補説明の凍結リストから始まります。 Janusはエラーレートリフトで各ディスクリプタをスコアし、実際のディスクリプタを同じ周波数を持つがランダムにサンプルに割り当てられた偽のディスクリプタと比較する。ディスクリプタは、発見に使用されるデータでこのデコイフロアを破ってからのみ確認され、別の保持されたデータで繰り返す。マルチテーブルルックアップタスクの制御された監査では、Janus氏は、植木された障害を特定し、長いチェーン記述子とその相互作用を確認する。 LLMは最終回答に到達する代わりに、ルックアップチェーンを部分的に通過することが多い。 MuSiQue と LongBench v2 の2つの公開ベンチマークでは、SliceLine のベースラインフラグは高エラーのポケットの可視性を示すが、Janus はいずれも確認していない。双方の安全維持が重要な理由を示している。ロングベンチ v2では、校正されていない固定しきい値が20のディスクリプタを報告し、デコイフロアが1を離脱し、リフトが0.36から0.05に縮小した後、ホールドアウトチェックが最後の1を拒絶する。結果の原則は、説明を報告することと分離する。候補はあらゆる情報源から来るかもしれないが、デコイを打ち負かし、新鮮なデータで複製する者だけが監査結果になる。

関連論文リスト

Auditable Graph-Guided Root Cause Analysis for Kubernetes Incidents [1.116726665785374]
LLM推論と特殊なツールを組み合わせたグラフ誘導RCAエージェントであるグラフトラバースエージェントを提案する。我々は、読み取り専用エビデンス収集、伝搬認識診断、有界実行、独立に検証された検証を含む運用上の制約をマップする。ある固定されたqwenオーバージャッジによってスコアされたITBenchスナップショットでは、監査されたシステムは、同じシステムの初期のイテレーションに対してルート因果F1を上昇させる。
論文参考訳（メタデータ） (2026-06-07T12:05:09Z)
Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges [19.04544141221272]
大言語モデル(LLM)は、要約と対話評価のための自動判断器として、ますます使われている。我々は LLM の審査員が Cue-invariant であるかどうかを問う。我々は、一連のキュー介入(Blind, Truth, Flip, Placebo, Reveal-After)と、結果アンカーと合理性アンカーの定量化のためのタイアウェアメトリクスを導入します。
論文参考訳（メタデータ） (2026-05-13T07:00:16Z)
C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。 C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか? 二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文参考訳（メタデータ） (2026-03-05T13:36:47Z)
SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文参考訳（メタデータ） (2026-01-19T23:37:10Z)
Critical or Compliant? The Double-Edged Sword of Reasoning in Chain-of-Thought Explanations [60.27156500679296]
系統的な推論連鎖の摂動とデリバリートーンの操作による道徳シナリオにおけるCoT(Chain-of-Thought)の説明の役割について検討した。 1) 利用者は, 根拠に欠陥がある場合でも, 信頼感を保ち, 結果合意を信頼する傾向がみられた。これらの結果は、CoTの説明が同時に明確化と誤解を招き、視覚的信頼よりも精査と批判的思考を奨励する説明を提供するNLPシステムの必要性を強調している。
論文参考訳（メタデータ） (2025-11-15T02:38:49Z)
Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering [0.0]
機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
論文参考訳（メタデータ） (2025-05-16T18:19:38Z)
MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文参考訳（メタデータ） (2025-05-01T17:41:49Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。