論文の概要: Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests
- arxiv url: http://arxiv.org/abs/2606.07379v2
- Date: Mon, 08 Jun 2026 01:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.075905
- Title: Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests
- Title(参考訳): コーディングエージェントはユーザを欺くか? : ランダム化試験によるカプセル評価による加熱の検出と防止
- Authors: Thanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida,
- Abstract要約: エージェント評価およびトレーニングにおける障害モードの増加は、モデルがショートカットを利用して高い評価スコアを得ることができることである。
CapCodeはランダムなテストでコーディングデータセットを構築するためのフレームワークであり、最も達成可能な非加熱性能は意図的にその下にある。
- 参考スコア(独自算出の注目度): 40.524082011604655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing failure mode in agent evaluation and training is that models can achieve high evaluation scores by exploiting shortcuts instead of solving the intended task, producing deceptive performance. This makes evaluation scores unreliable as measures of true task-solving ability. We propose CapCode, a framework for constructing coding datasets with randomized tests whose best achievable non-cheating performance is deliberately capped below one. This capped-performance design gives evaluation scores a clearer interpretation: scores substantially above the cap are implausible and therefore provide evidence of cheating. To prevent cheating, we propose CapReward, a reward design based on the CapCode principle to discourage optimization beyond the cap. Experiments across multiple datasets show that CapCode detects cheating while preserving performance ranking of models, and CapReward reduces cheating behavior, yielding models that better follow the intended task specification.
- Abstract(参考訳): エージェント評価およびトレーニングにおける失敗モードの増加は、意図したタスクを解く代わりにショートカットを利用してモデルが高い評価スコアを達成し、偽りのパフォーマンスを発生させることである。
これにより、真のタスク解決能力の尺度として評価スコアが信頼できない。
CapCodeはランダムなテストでコーディングデータセットを構築するためのフレームワークであり、最も達成可能な非加熱性能は意図的にその下にある。
このキャップ付き性能設計は、評価スコアにより明確な解釈を与える: キャップよりもかなり高いスコアは、不確実であり、従って不正行為の証拠を与える。
不正行為を防止するため,CapCodeの原則に基づく報酬設計であるCapRewardを提案する。
複数のデータセットにわたる実験によると、CapCodeはモデルのパフォーマンスランキングを維持しながら不正行為を検出し、CapRewardは不正行為を減らし、意図したタスク仕様に従うモデルを生成する。
関連論文リスト
- Detecting and Suppressing Reward Hacking with Gradient Fingerprints [46.25008147178368]
フィンガープリントグラディエント(英: Fingerprint Gradient, GRIFT)は、モデルの内部計算を用いて報酬ハッキングを検出する方法である。
検証可能な推論ベンチマーク全体で、GRIFTは強いベースラインを大幅に上回っている。
以上の結果から,CoT推算トレースの品質評価に勾配レベル表現を活用するという有望な方向性が示された。
論文 参考訳(メタデータ) (2026-04-17T17:01:24Z) - When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals [11.280037154530847]
LLMの強化学習はハッキングに対して脆弱である。
本研究では,環境操作設定を用いたコーディング作業におけるこの現象について検討する。
本稿では,ショートカットのコンセプトスコアをGRPOの利点計算に統合したアドバンテージ修正を提案する。
論文 参考訳(メタデータ) (2026-04-01T23:33:08Z) - CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions [8.163435280190027]
既存のベンチマークは、しばしば微妙なコーナーケースのカバレッジを欠いているため、誤った解決策を通すことができる。
CodeHackerは、プログラムの提出中に潜伏する脆弱性を暴露する逆テストケースを生成する。
実験によると、CodeHackerは既存のデータセットのTrue Negative Rate(TNR)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-23T05:59:30Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Reward Hacking Mitigation using Verifiable Composite Rewards [5.061948558533868]
Reinforcement Learning from Verifiable Rewards (RLVR)は、最近、大規模言語モデル(LLM)が直接の監督なしに独自の推論を開発することができることを示した。
この研究は、この行動の2つの主要な形態に対処する。
報酬機構を利用するために、事前の推論なしで最終回答を提供する、すなわち、標準でない推論フォーマットを使用する。
論文 参考訳(メタデータ) (2025-09-19T03:40:27Z) - Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [65.31723739561151]
埋め込みは、エンコードされたセマンティクス内のきめ細かいエンティティやイベントを認識できないかもしれない。
本稿では,新たな評価データセットであるCapRetrievalを導入し,文節は画像キャプションであり,クエリはエンティティやイベントの概念を多種多様な形式でターゲットとするフレーズである。
我々は提案したデータ生成戦略でエンコーダを微調整し、小さな0.1Bエンコーダで最先端の7Bモデルを上回る性能を実現した。
論文 参考訳(メタデータ) (2025-06-10T09:00:33Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。