論文の概要: Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
- arxiv url: http://arxiv.org/abs/2606.20517v1
- Date: Thu, 18 Jun 2026 17:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.023933
- Title: Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
- Title(参考訳): Multi-LCB: LiveCodeBenchを複数のプログラミング言語に拡張
- Authors: Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev,
- Abstract要約: Pythonを含む12言語にわたる大規模言語モデル(LLM)を評価するベンチマークであるMulti-LCBを紹介する。
オリジナルの LCB フォーマットと完全に互換性があるため、Multi-LCB は将来の LCB 更新を自動的に追跡する。
我々は,Pythonの過剰適合,言語固有の汚染,多言語性能の相違の証拠を明らかにするため,マルチLCBの指導と推論のための24個のLLMを評価した。
- 参考スコア(独自算出の注目度): 0.2796614590345728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware evaluation and offers a holistic view of coding capability. However, LCB remains restricted to Python, leaving open the question of whether LLMs can generalize across the diverse programming languages required in real-world software engineering. We introduce Multi-LCB, a benchmark for evaluating LLMs across twelve programming languages, including Python. Multi-LCB transforms Python tasks from the LCB dataset into equivalent tasks in other languages while preserving LCB's contamination controls and evaluation protocol. Because it is fully compatible with the original LCB format, Multi-LCB will automatically track future LCB updates, enabling systematic assessment of cross-language code generation competence and requiring models to sustain performance well beyond Python. We evaluated 24 LLMs for instruction and reasoning on Multi-LCB, uncovering evidence of Python overfitting, language-specific contamination, and substantial disparities in multilingual performance. Our results establish Multi-LCB as a rigorous new benchmark for multi-programming-language code evaluation, directly addressing LCB's primary limitation and exposing critical gaps in current LLM capabilities.
- Abstract(参考訳): LiveCodeBench (LCB)は、コード生成タスクで大規模言語モデル(LLM)を評価するために広く採用されているベンチマークである。
競合プログラミングの問題を計算し、常に新しい問題をセットに追加し、リリース日にフィルタリングすることで、LCBは汚染を意識した評価を提供し、コーディング能力の全体像を提供する。
しかし、LCBはPythonに限定されており、LLMが現実世界のソフトウェア工学に必要な様々なプログラミング言語をまたいで一般化できるかどうかという疑問が残る。
Pythonを含む12言語にわたるLLMを評価するベンチマークであるMulti-LCBを紹介する。
Multi-LCBは、LCBの汚染制御と評価プロトコルを維持しながら、PythonのタスクをLCBデータセットから他の言語で同等のタスクに変換する。
オリジナルの LCB フォーマットと完全に互換性があるため、Multi-LCB は将来の LCB 更新を自動的に追跡し、言語間のコード生成能力の体系的な評価を可能にし、モデルが Python を超えるパフォーマンスを維持する必要がある。
マルチLCBにおける指導と推論のための24個のLLMを評価し,Python過剰適合の証拠,言語固有の汚染,多言語性能の相違について検討した。
この結果から,マルチLCBを多言語コード評価のための厳格な新しいベンチマークとして確立し,LCBの一次制限に対処し,現在のLCM能力に重大なギャップを露呈する。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Isolating Language-Coding from Problem-Solving: Benchmarking LLMs with PseudoEval [7.33924106492889]
既存のコード生成ベンチマークは、大規模言語モデルのエンドツーエンドのパフォーマンスを研究するために設計されている。
我々は擬似コードで書かれたソリューションを入力として提供する多言語コード生成ベンチマークであるPseudoEvalを構築した。
本研究は,プログラミング言語間で問題解決能力が伝達される可能性を示し,言語符号化には言語固有の取り組みが必要であることを示唆する。
論文 参考訳(メタデータ) (2025-02-26T14:08:17Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - The Struggles of LLMs in Cross-lingual Code Clone Detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティ内で注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
言語間コードクローンの識別のための5つの大言語モデル (LLM) と8つのプロンプト (08) の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。
有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。
LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文 参考訳(メタデータ) (2024-04-30T08:51:49Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。