論文の概要: Cheap Reward Hacking Detection
- arxiv url: http://arxiv.org/abs/2606.08893v1
- Date: Mon, 08 Jun 2026 00:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.50559
- Title: Cheap Reward Hacking Detection
- Title(参考訳): Cheap Reward Hacking Detection
- Authors: Iván Belenky, Joaquín Itria, Steven Johns,
- Abstract要約: 小型変圧器エンコーダは、ターミナル・レンチ軌道を単位球面にマッピングするように訓練される。
埋め込みの上の線形プローブは、クリーン化されたテスト分割に対する報酬のハッキングを検出する。
エンコーダは純粋なビヘイビアリーダーではない。プローブ時の入力から自然言語推論を除去すると、AUCは0.6213$に値下げされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A small transformer encoder is trained to map Terminal-Wrench trajectories onto a unit sphere where embedding distance approximates the $L_1$ distance between reward and metadata signals. A linear probe on top of that embedding detects reward hacking on the cleaned test split with AUC $0.9467$ and TPR@5%FPR $0.8296$, matching the TW sanitized LLM-as-judge AUC ($0.9510$ on the cleaned split) and exceeding its TPR@5%FPR ($0.7130$ vs $0.8296$) on the same information condition, at roughly four orders of magnitude lower per-trajectory cost. The encoder is not a pure behavior reader: stripping natural-language reasoning from its input at probe time drops AUC to $0.6213$.
- Abstract(参考訳): 小型変圧器エンコーダをトレーニングし、端末・レンチ軌道を単位球面にマッピングし、埋め込み距離は報酬信号とメタデータ信号の間の距離$L_1$に近似する。
AUC $0.9467$ と TPR@5%FPR $0.8296$ は、TWが減らした LLM-as-judge AUC (0.955$) と一致し、同じ情報条件で TPR@5%FPR (0.7130$ 対 0.8296$) を超える。
エンコーダは純粋なビヘイビアリーダーではない。プローブ時の入力から自然言語推論を除去すると、AUCは0.6213$に値下げされる。
関連論文リスト
- Hallucination Is Linearly Decodable from Mid-Layer Hidden States in Quantized LLMs [5.584060970507507]
我々は,LLMが隠れた状態で線形分離可能な信号を符号化し,どのネットワーク深度でこの信号が最強かを検討する。
4つのベンチマーク(TruthfulQA, HaluEval-QA, FEVER, 制御された合成集合)で層当たりの隠れ状態を抽出する。
Peak Probing Layerは、自然言語ベンチマークでモデルファミリ間で一貫したバンドに落ちます。
論文 参考訳(メタデータ) (2026-05-30T02:04:30Z) - Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs [0.0]
本稿では,自律運転における視覚・言語・行動(VLA)の頑健性に関する摂動研究について述べる。
推論整合性は軌道の信頼性の高忠実度指標であることがわかった。
論文 参考訳(メタデータ) (2026-05-20T17:34:02Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - Beating the Style Detector: Three Hours of Agentic Research on the AI-Text Arms Race [3.9508043303559828]
実験的なNLP研究を再現するには数週間を要した。
全コード、648ドル(約6,800円)の原案、訓練された検出器、診断、および敵の軌道がリリースされている。
論文 参考訳(メタデータ) (2026-05-04T14:10:41Z) - Fast, High-Fidelity Erasure Detection of Dual-Rail Qubits with Symmetrically Coupled Readout [28.325053893714635]
消去量子ビットは、ハードウェア効率のよい量子エラー補正を実装するための有望なプラットフォームである。
デュアルレールキュービットの両トランスモンに分散・対称結合した単一リードアウト共振器からなるハードウェア効率の高い回路による消去検出を実現する。
我々は、消去検出によって引き起こされる1ゲート当たり7.2倍の10-5$の誤差を1倍の10-5$の誤差で達成する。
論文 参考訳(メタデータ) (2026-04-17T17:54:23Z) - EdgeDetect: Importance-Aware Gradient Compression with Homomorphic Aggregation for Federated Intrusion Detection [0.0]
フェデレートラーニング(FL)は、生データ交換なしで協調的な侵入検知を可能にする。
従来のFLは、完全精度の伝送から高い通信オーバーヘッドを発生させる。
本稿では,プライバシーに配慮した6G-IoT環境用フェデレーションIDSであるEdgeDetectを提案する。
論文 参考訳(メタデータ) (2026-04-16T06:16:14Z) - Certified Robustness Under Bounded Levenshtein Distance [55.54271307451233]
畳み込み型分類器のリプシッツ定数をレヴェンシュテイン距離に対して計算する最初の方法を提案する。
我々の方法であるLipsLevは、それぞれ18.80ドル%と13.93ドル%の精度を1ドルと2ドルで得ることができる。
論文 参考訳(メタデータ) (2025-01-23T13:58:53Z) - Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。