論文の概要: CODEBLOCK: Learning to Supervise Code at the Right Granularity
- arxiv url: http://arxiv.org/abs/2606.18286v1
- Date: Wed, 10 Jun 2026 04:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.791791
- Title: CODEBLOCK: Learning to Supervise Code at the Right Granularity
- Title(参考訳): CODEBLOCK: コードを正しい粒度で監視する学習
- Authors: Zhijie Deng, Ling Li, Jinlong Pang, Kaiqin Hu, Qi Xuan, Zhaowei Zhu, Jiaheng Wei,
- Abstract要約: 孤立トークンではなく,構造完備なコードエビデンスを選択する構造対応スパース監視フレームワークを提案する。
実験の結果、CodeBlockは本格的なSFTと競争力のある選択ベースラインよりも平均パス@1を達成している。
- 参考スコア(独自算出の注目度): 32.949996770189834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning of code LLMs typically applies uniform cross-entropy loss to all response tokens, implicitly assuming that every token provides equally useful learning signal. Recent token-level selection methods challenge this assumption in natural-language SFT by supervising only high-value tokens. However, directly transferring token-level masking to code can break syntactically and semantically coherent program units, because code depends on structural completeness and definition-use relations. We therefore propose CodeBlock, a structure-aware sparse supervision framework that selects structure-complete code evidence rather than isolated tokens. CodeBlock first selects high-quality instruction-response pairs, then partitions code responses into syntactically coherent coding items, estimates their utility by aggregating generalized cross-entropy over core logic tokens, and reranks them with data-flow reach and bridge signals to prioritize blocks that propagate or connect important program dependencies. During training, the full response remains available as context, while loss is applied only to selected code items and informative natural-language tokens. Experiments on six code-generation benchmarks show that CodeBlock achieves stronger average pass@1 than full-token SFT and competitive selection baselines, while using only 1.9% of supervised response tokens.
- Abstract(参考訳): コードLLMの監督された微調整は、通常全ての応答トークンに均一なクロスエントロピー損失を適用し、全てのトークンが同様に有用な学習信号を提供すると暗黙的に仮定する。
最近のトークンレベル選択法は、高価値トークンのみを監督することで、自然言語SFTにおけるこの仮定に挑戦している。
しかし、トークンレベルのマスキングを直接コードに転送することは、構造的完全性と定義的使用関係に依存するため、構文的かつ意味論的に一貫性のあるプログラムユニットを壊す可能性がある。
そこで我々は,独立したトークンではなく,構造完備なコードエビデンスを選択する構造対応スパース監視フレームワークであるCodeBlockを提案する。
CodeBlockは、まず高品質な命令応答ペアを選択し、その後、コードレスポンスを構文的に一貫性のあるコーディングアイテムに分割し、コアロジックトークン上の一般化されたクロスエントロピーを集約してそれらのユーティリティを推定し、それらをデータフローリーチとブリッジ信号で再ロードして、重要なプログラム依存関係を伝播または接続するブロックを優先順位付けする。
トレーニング中も、完全なレスポンスはコンテキストとして利用可能であり、損失は選択されたコード項目とインフォメーションな自然言語トークンにのみ適用される。
6つのコード生成ベンチマークの実験では、CodeBlockは完全なSFTと競合する選択ベースラインよりも平均パス@1を達成する一方で、教師付き応答トークンの1.9%しか使用していない。
関連論文リスト
- Supportive Token Revealing for Fast Diffusion Language Model Decoding [10.022716564968695]
AXONはトレーニングフリーのモジュールで、拡散言語モデルの既存の並列デコード戦略の上に追加することができる。
AXONは、既存の並列デコーダの品質・レイテンシのトレードオフを改善し、精度を維持したり改善したりしながら、機能評価の回数を減らすことができることを示す。
論文 参考訳(メタデータ) (2026-06-02T21:35:54Z) - SimSD: Simple Speculative Decoding in Diffusion Language Models [61.33773959352141]
拡散大言語モデル (dLLMs) は、並列またはブロックワイド復号による高速な推論を提供する。
彼らのマスク付き言語モデリングの定式化は、標準的なトークンレベルの投機的復号法とは相容れないままである。
我々は,dLLMに時間的に有効なトークンレベルのコンテキストを付与する,SimSDと呼ばれるdLLMの投機的復号アルゴリズムを提案する。
提案手法は,平均生成品質を維持しつつ,最大7.46倍高い復号スループットを実現する。
論文 参考訳(メタデータ) (2026-06-01T17:46:46Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。