論文の概要: NL2Scratch: An Executable Benchmark and Evaluation for Block-Based Programming
- arxiv url: http://arxiv.org/abs/2606.22061v1
- Date: Sat, 20 Jun 2026 14:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:49:15.136883
- Title: NL2Scratch: An Executable Benchmark and Evaluation for Block-Based Programming
- Title(参考訳): NL2Scratch: 実行可能なベンチマークとブロックベースのプログラミングの評価
- Authors: Heejin Do, Alexandre Ballenghien, Yang Wu, April Yi Wang,
- Abstract要約: NL2Scratchは自然言語からスクラッチ生成のための実行可能なベンチマークである。
23,594例のセマンティック検証プールと,スロットバランス800例の診断ベンチマークを構築した。
命令調整と微調整によるLLM実験では、語彙的類似性と意味的アライメントとの間に顕著なギャップが示される。
- 参考スコア(独自算出の注目度): 62.89531126732269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block-based programming environments such as Scratch are widely used in early programming education, yet natural-language-to-code (NL2Code) research has focused primarily on text-based languages. Scratch programs are event-driven, visually compositional, and distributed across concurrent scripts, making conventional NL2Code assumptions and evaluation insufficient. We introduce NL2Scratch, an executable benchmark for natural-language-to-Scratch generation comprising 311,648 parser-valid NL--program pairs, whose program side is extracted from real Scratch projects and paired with semantically aligned NL descriptions. For reliable evaluation beyond surface overlap, we propose Semantic Alignment Consistency (SAC), an interpretable slot-level metric for measuring semantic agreement between descriptions and programs. With SAC, we construct a semantically validated pool of 23,594 examples, and a slot-balanced 800 diagnostic benchmark. Experiments across instruction-tuned and fine-tuned LLMs reveal a notable gap between lexical similarity and semantic alignment: models achieving token-level F1 above 0.93 often fail to attain perfect SAC, particularly on longer examples. Errors concentrate on operational slots like actions, conditions, and numeric arguments, exposing failure modes largely invisible under conventional metrics.
- Abstract(参考訳): Scratchのようなブロックベースのプログラミング環境は初期のプログラミング教育で広く使われているが、自然言語対コード(NL2Code)の研究は主にテキストベースの言語に焦点を当てている。
Scratchプログラムはイベント駆動で、視覚的に構成され、並行スクリプトに分散しており、従来のNL2Codeの仮定と評価が不十分である。
NL2Scratchは,実Scratchプロジェクトからプログラム側を抽出し,意味的に整合したNL記述と組み合わせた,311,648パーサ値のNL-プログラムペアからなる自然言語からスクラッチ生成の実行可能なベンチマークである。
表層重なりを超えて信頼性の高い評価を行うため,記述とプログラム間の意味的一致を測定するための解釈可能なスロットレベル尺度であるセマンティックアライメント一貫性(SAC)を提案する。
SACでは,23,594例のセマンティック検証プールと,スロットバランス800の診断ベンチマークを構築した。
命令調整と微調整によるLLMの実験では、語彙的類似性とセマンティックアライメントの間に顕著なギャップがあることが示されている: 0.93 以上のトークンレベル F1 を達成するモデルは、特に長い例において、完全な SAC を達成するのに失敗することが多い。
エラーはアクションや条件、数値引数といった運用スロットに集中し、従来のメトリクスではほとんど見えない障害モードを公開する。
関連論文リスト
- What Really Improves Mathematical Reasoning: Structured Reasoning Signals Beyond Pure Code [72.9921566968371]
ドメイン分離のきめ細かい10T-tokenコーパスにおける事前学習の制御実験により,コードが推論を改善するという主張を再考する。
コードはプログラミング能力を大幅に改善するが、一般的な推論エンハンサーとして機能しない。
コード-テキストと数学-テキストの混合のようなドメイン間構造的推論トレースがよりうまく説明されている。
論文 参考訳(メタデータ) (2026-05-19T12:37:01Z) - PLSemanticsBench: Large Language Models As Programming Language Interpreters [31.611330217819713]
大規模言語モデル(LLMs)がコード推論に長けているため、自然な疑問が生じる: LLMはプログラム(つまり、インタプリタとして振舞う)を純粋にプログラミング言語の形式的意味論に基づいて実行できるか?
本稿では, 命令型言語IMPを用いて, 小ステップ操作意味論 (SOS) と書き直しに基づく操作意味論 (K-semantics) によって定式化されている問題について検討する。
本稿では,Human-Written,LLM-Translated,Fuzzer-Generatedの3つの評価セットを提案する。
論文 参考訳(メタデータ) (2025-10-03T18:23:26Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - Synchromesh: Reliable code generation from pre-trained language models [38.15391794443022]
コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。
まず、TST(Target similarity Tuning)を使用して、トレーニングバンクから、セマンティックなサンプル選択の新しい方法を使用して、数ショットのサンプルを検索する。
次に、Synchromeshはサンプルをトレーニング済みの言語モデルに供給し、対象言語の有効なプログラムセットに出力を制約する一般的なフレームワークであるConstrained Semantic Decoding (CSD)を使用してプログラムをサンプリングする。
論文 参考訳(メタデータ) (2022-01-26T22:57:44Z) - CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。
我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文 参考訳(メタデータ) (2020-09-22T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。