論文の概要: Beyond Problem Solving: UOJ-Bench for Evaluating Code Generation, Hacking, and Repair in Competitive Programming
- arxiv url: http://arxiv.org/abs/2606.12864v1
- Date: Thu, 11 Jun 2026 03:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.568561
- Title: Beyond Problem Solving: UOJ-Bench for Evaluating Code Generation, Hacking, and Repair in Competitive Programming
- Title(参考訳): 問題解決を超えて - 競合プログラミングにおけるコード生成、ハック、修復を評価するUOJ-Bench
- Authors: Tingqiang Xu, Hangrui Zhou, Tianle Cai, Alex Gu, Kaifeng Lyu,
- Abstract要約: 大規模言語モデル(LLM)を評価するためのベンチマークであるUOJ-Benchを紹介する。
UOJ-Benchは、コード生成、コードハッキング、コード修復の3つの異なるタスクで構成されている。
我々の結果は、最強のモデルでさえ、一連の提出の50%以上でエラーを識別できないことを示している。
- 参考スコア(独自算出の注目度): 28.162504343040144
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite strong performance in competitive programming, the role of Large Language Models (LLMs) in supporting human learning in the same setting remains largely unexplored. In this work, we introduce UOJ-Bench, a benchmark designed to evaluate not only the problem-solving ability of LLMs, but also their ability to identify errors in human-written code -- a crucial educational activity traditionally supported by running test cases over online judge systems. UOJ-Bench consists of three distinct tasks: code generation, code hacking, and code repair, all constructed from real-world code submissions on the Universal Online Judge (UOJ) and evaluated through UOJ's native judging infrastructure. Our results show that under one-shot evaluation, even the strongest models fail to identify errors in more than 50% of a set of submissions that have been found to be incorrect by UOJ users. While test-time scaling improves success rates to above 90%, the substantial computational costs incurred from model inference limit its practicality for large-scale deployment. Despite these limitations, we find that the best-performing models under test-time scaling can uncover errors in over 5% of full-score submissions across roughly 30 problems, suggesting that frontier LLMs can already provide complementary signals beyond standard judging systems.
- Abstract(参考訳): 競合プログラミングにおける強力な性能にもかかわらず、人間の学習を同じ環境でサポートする上でのLarge Language Models(LLMs)の役割は、いまだほとんど解明されていない。
本研究では,LLMの問題解決能力だけでなく,人手によるコード中のエラーを識別する能力を評価するために設計されたベンチマークであるUOJ-Benchを紹介する。
UOJ-Benchは、コード生成、コードハッキング、コード修復の3つの異なるタスクで構成されており、いずれもUniversal Online Judge (UOJ)の実際のコード提出から構築され、UOJのネイティブな判断基盤を通じて評価される。
以上の結果から,最強モデルでさえ,UOJユーザによって誤りが判明したサブミッションの50%以上において,誤りの特定に失敗していることが明らかとなった。
テストタイムのスケーリングは成功率を90%以上に向上させるが、モデル推論から生じるかなりの計算コストは、大規模展開における実用性を制限している。
これらの制限にもかかわらず、テストタイムスケーリングにおける最高のパフォーマンスモデルでは、約30の課題にまたがる全スコア入力の5%以上のエラーを発見でき、フロンティアLSMは、標準的な判定システム以上の補完的な信号を提供することができることを示唆している。
関連論文リスト
- Beyond Blind Spots: Analytic Hints for Mitigating LLM-Based Evaluation Pitfalls [2.4484932263697234]
大規模言語モデルは、コード生成パイプラインの審査員(LaaJ)としてますます多くデプロイされている。
LaaJは、批判的な評価タスクにおける信頼性に関する懸念を提起するドメイン固有の問題を見逃す傾向があります。
我々は、実際に観察された30以上のドメイン固有の問題にフラグを付ける軽量な分析チェッカーツールを開発した。
我々はその出力を分析的ヒントとして使用し、それを裁判官に動的に注入することで、LaaJが見落としているかもしれない側面を再検討するよう促す。
論文 参考訳(メタデータ) (2025-12-18T07:43:48Z) - COMPASS: A Multi-Dimensional Benchmark for Evaluating Code Generation in Large Language Models [0.0]
我々は3次元にわたるコード生成を評価する包括的な評価フレームワーク、すなわち正確性、効率、品質を紹介します。
Anthropic Claude Opus 4、Google Gemini 2.5 Pro、OpenAI O4-Mini-Highの3つの主要な推論モデルの評価結果から、高い正確性スコアを達成するモデルは必ずしも効率的なアルゴリズムや保守可能なコードを生成するとは限らないことが判明した。
論文 参考訳(メタデータ) (2025-08-19T11:55:07Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests [85.72404266850982]
推論のフロンティアを探索するために設計されたトップレベルの競合コーディングベンチマークである textbfICPC-Eval を提案する。
ICPC-Evalは、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題を含んでいる。
結果は、複雑な推論能力を評価する上で重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-05T11:20:37Z) - J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。
ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。
我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文 参考訳(メタデータ) (2025-02-28T09:12:42Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。