論文の概要: One Ruler: A Same-Hands Re-Evaluation of Bivariate Causal Direction on Tuebingen, with a Parameter-Free Compression Baseline
- arxiv url: http://arxiv.org/abs/2606.23767v1
- Date: Mon, 22 Jun 2026 15:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.611969
- Title: One Ruler: A Same-Hands Re-Evaluation of Bivariate Causal Direction on Tuebingen, with a Parameter-Free Compression Baseline
- Title(参考訳): One Ruler: パラメータフリー圧縮ベースラインを持つTuebingen上の二変量因果方向の再評価
- Authors: Wietse Stienstra,
- Abstract要約: 我々は、同じ102ペア上で、すべてのメソッドが私たちによって実行される、Tuebingenの因果効果ペアを再評価する。
クリーンな参照ポイントとして、意図的に最小限のベースラインを導入します。
共通の統治者の下では、その地位は文学と大きく異なる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Headline accuracies on the Tuebingen cause-effect pairs are routinely compared across papers even though each is measured under its authors' own protocol -- different pair subsets, weightings, model-selection, and decision rates. We argue this is the wrong comparison and run the right one: a same-hands re-evaluation in which every method is run by us on the identical 102 pairs, with one strict rule -- no tuning and a decision forced on every pair. As a clean reference point we introduce a deliberately minimal baseline: sorted-conditional compression, which feeds quantized, sorted, first-differenced data to an off-the-shelf compressor (bz2) and has zero fitted parameters. Under the common ruler the ranking differs sharply from the literature. Our baseline reaches 74.7% weighted accuracy (p = 3.7e-7); on the same 100 pairs that SLOPE is evaluated on it scores 76.0%, a 1.2-point gap below the authors' own forced-decision SLOPE (77.2%) that is well inside noise (McNemar p = 0.39). A faithful re-run of RECI lands at 70.7% -- inside the original authors' reported error bar, not the 77.5% often quoted (which we trace to a mis-copied cell). SLOPE's published 82.4% is a decided-subset figure: scoring the authors' own stored output only on the pairs its significance test chose to answer reproduces 81.7%. Under the common ruler the methods cluster in the low-to-mid 70s and the zero-parameter compressor ties the strongest of them. We document the mechanisms that inflate published figures (test-set model selection, significance-gated abstention) and contribute two further results: compression score magnitude is a model-free confounding flag (p = 2.8e-68), and a pre-registered falsification test fails in an instructive way that bounds the method's theoretical interpretation. Code, pre-registrations, and per-pair outputs are released.
- Abstract(参考訳): チュービンゲンの因果関係(英語版)に対する見出しの精度は、著者自身のプロトコルで測定されているにもかかわらず、論文間で定期的に比較される(それぞれのペアのサブセット、重み付け、モデル選択、決定率)。
すべてのメソッドが同一の102ペア上で私たちによって実行され、厳格なルールが1つあります。
クリーンな基準点として、最小限の条件付き圧縮を導入する。これは、量子化された、ソートされた、第1の差分されたデータを、オフザシェルフ圧縮器(bz2)に供給し、不適合なパラメータを持つ。
共通の統治者の下では、その地位は文学と大きく異なる。
我々のベースラインは74.7%の重み付き精度(p = 3.7e-7)に達し、SLOPEが76.0%のスコアで評価されるのと同じ100対では、著者自身の強制決定SLOPE(77.2%)よりも1.2ポイント低いノイズ(McNemar p = 0.39)である。
RECIの忠実な再実行は70.7%で、オリジナルの著者が報告したエラーバーの中で、77.5%の頻度で引用された(我々は誤ってコピーされた細胞を辿った)。
SLOPEが発行した82.4%は、決定されたサブセットの数字である: 著者自身の保存された出力を、その重要性テストが81.7%の再生に選択したペアでのみ評価する。
一般的な支配者の下では、メソッドは70代中ごろにクラスターされ、ゼロパラメータ圧縮機はその最強を結び付けている。
圧縮スコアはモデルフリーの共起フラグ(p = 2.8e-68)であり、事前登録されたファルシフィケーションテストは、メソッドの理論的解釈を束縛するインストラクティブな方法で失敗する。
コード、事前登録、ペアごとの出力がリリースされる。
関連論文リスト
- What Accuracy and Gradient Cosine Miss: Evaluating Feedback Alignment via Scale Stability, Reference Validity, and Depth Utility [48.10132234701036]
本稿では,3つのチェック(スケール安定性,参照妥当性,深度ユーティリティ)に基づく診断評価プロトコルを提案する。
複数のアーキテクチャや手法にまたがって、我々のプロトコルは広い校正マージンを持つ全ての障害を識別する。
論文 参考訳(メタデータ) (2026-06-19T06:04:17Z) - Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - Reducing Maintenance Burden in Behaviour-Driven Development: A Paraphrase-Robust Duplicate-Step Detector with a 1.1M-Step Open Benchmark [1.9537983097153042]
振る舞い駆動開発スイートは、ドキュメント化されたメンテナンスコストとステップ重複の重複を蓄積します。
私たちはこれまでで最大の組織横断的なBDDステップコーパスをリリースします。
論文 参考訳(メタデータ) (2026-04-22T11:44:05Z) - Relational Preference Encoding in Looped Transformer Internal States [0.0]
ループ変換器は内部の反復状態においてどのように人間の嗜好を符号化するかを検討する。
繰り返し洗練された2.6Bパラメータループ変換器であるOuro-2.6B-Thinkingを用いて,各ループ繰り返しから隠れた状態を抽出する。
我々は、HH-RLHFデータセット上で人間の嗜好を予測するために軽量評価器ヘッドを訓練する。
我々のペアワイズ評価器は8,552個の未確認例に対して95.2%の精度を達成し、ベースモデルは完全に凍結されている間に全バッチのL-BFGSプローブ(84.5%)を上回った。
論文 参考訳(メタデータ) (2026-04-10T20:00:49Z) - Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation [0.0]
連鎖忠実性に関する最近の研究は、単一集合数について報告している。
本論文は、忠実性はモデルの客観的かつ測定可能な性質ではないことを示す。
論文 参考訳(メタデータ) (2026-03-20T17:48:43Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。