論文の概要: From Tokens to Regions: CUDA-Sensitive Instruction Tuning for GPU Kernel Generation
- arxiv url: http://arxiv.org/abs/2606.16231v1
- Date: Mon, 15 Jun 2026 05:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.093695
- Title: From Tokens to Regions: CUDA-Sensitive Instruction Tuning for GPU Kernel Generation
- Title(参考訳): トークンからリージョンへ:GPUカーネル生成のためのCUDA-Sensitive Instruction Tuning
- Authors: Wentao Chen, Jiace Zhu, Xing Zhe Chai, Zeng Qu, Qiaoling Xiao, Liucheng Duan, An Zou,
- Abstract要約: スケーラブルなAIシステムには、高性能カーネルが不可欠だ。
既存のアプローチは、高価なエージェントまたは強化学習パイプラインに依存している。
簡単なSFTフレームワークにおいて,低コストなポストトレーニング手法CuSeTを提案する。
- 参考スコア(独自算出の注目度): 3.794389490055035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-performance CUDA kernels are essential for scalable AI systems, while Large Language Models (LLMs) still struggle to generate correct kernels due to strict and implicit execution constraints. Existing LLM-based approaches either rely on costly agentic or reinforcement-learning (RL) pipelines, or adopt supervised fine-tuning (SFT) objectives that fail to explicitly model CUDA sensitivity, namely code tokens or regions tightly coupled with execution constraints. In this work, we investigate CUDA sensitivity from the perspective of token confidence patterns, showing that CUDA sensitivity appears at both token and region levels, where most CUDA-sensitive tokens are predicted with high confidence, while a smaller low-confidence subset forms regions corresponding to execution-critical structures. These findings suggest that effective CUDA kernel generation should both leverage high-confidence CUDA-sensitive tokens and preserve low-confidence CUDA-sensitive regions. Building on these insights, we propose \textbf{\underline{CU}DA-\underline{Se}nsitive Instruction \underline{T}uning (CuSeT)}, a low-cost post-training method within a simple SFT framework. CuSeT follows the principle of ``from tokens to regions'' by combining \emph{adaptive token-level masking} with \emph{region-aware sample reweighting}. Experiments show that CuSeT consistently improves functional correctness across multiple model families and scales, outperforming standard SFT and advanced SFT variants, while achieving competitive performance against frontier CUDA kernel generation models with substantially lower inference cost.
- Abstract(参考訳): スケーラブルなAIシステムには高性能なCUDAカーネルが不可欠だが、Large Language Models (LLM) は厳密で暗黙的な実行制約のため、依然として正しいカーネルを生成するのに苦労している。
既存のLLMベースのアプローチでは、コストのかかるエージェントや強化学習(RL)パイプラインに依存するか、CUDAの感度を明示的にモデル化できない教師付き微調整(SFT)の目標(コードトークンや実行制約と密結合した領域)を採用する。
本研究では,トークン信頼パターンの観点からCUDA感度について検討し,CUDA感度がトークンレベルと領域レベルの両方に現れることを示し,ほとんどのCUDA感度トークンは高い信頼度で予測される一方で,より小さい低信頼サブセットは実行クリティカルな構造に対応する領域を形成する。
これらの結果から, 有効なCUDAカーネル生成には, 高信頼のCUDA感受性トークンと低信頼のCUDA感受性領域を併用すべきであることが示唆された。
これらの知見に基づいて,簡単なSFTフレームワーク内での低コストなポストトレーニング手法であるtextbf{\underline{CU}DA-\underline{Se}nsitive Instruction \underline{T}uning (CuSeT)}を提案する。
CuSeT は \emph{adaptive token-level masking} と \emph{rea-aware sample reweighting} を組み合わせることで '‘from tokens to Region''' の原則に従う。
実験により、CuSeTは複数のモデルファミリとスケールで機能的正当性を一貫して改善し、標準SFTおよび先進SFTの変種よりも優れ、また、推定コストが大幅に低いフロンティアCUDAカーネル生成モデルに対する競合性能を実現していることが示された。
関連論文リスト
- OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - CuBridge: An LLM-Based Framework for Understanding and Reconstructing High-Performance Attention Kernels [36.66718851543183]
CuBridgeは、構造化リフト-トランスファー-ローワーワークフローを通じて専門家が書いた注目カーネルに適応するフレームワークである。
CuBridgeは一貫して正しいカーネルを生成し、一般的なフレームワーク、コンパイラベースのアプローチ、および以前のLCMベースのメソッドよりも大幅に優れている。
論文 参考訳(メタデータ) (2026-05-06T15:19:07Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought [55.65577137924979]
本稿では,連続的な数値座標を用いたMLLM画像の推論を可能にするフレームワークを提案する。
NV-CoTはMLLM作用空間を離散語彙トークンから連続ユークリッド空間へと拡張する。
3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-27T12:04:07Z) - DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels [17.979042914049842]
拡散大言語モデル (dLLM) は自己回帰(AR) LLM に代わる魅力的な代替品として登場した。
CuKeは、高性能カーネル向けに最適化された拡張データセットである。
DICEはカーネル生成用に設計された拡散大言語モデルである。
論文 参考訳(メタデータ) (2026-02-12T08:45:13Z) - EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models [27.430839306140157]
カーネル最適化を自動化するLarge Language Models (LLMs) が約束する。
汎用LLMコード進化法は、カーネル最適化の厳密な正当性要件を満たすことができない。
EvoEngineerは、パフォーマンスと正確性のバランスを達成するために最適化戦略を設計し、適応するためのガイダンスを提供する。
提案手法は,PyTorchカーネル上のすべての操作のうち,最大速度のtextbf36.75$times を実現し,textbf28 (textbf56.0%) で最大速度の textbf2times$Acceleration を実現する。
論文 参考訳(メタデータ) (2025-10-04T10:00:25Z) - Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。
また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。
提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文 参考訳(メタデータ) (2025-09-16T11:08:30Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。