論文の概要: daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel Optimization
- arxiv url: http://arxiv.org/abs/2606.16497v1
- Date: Mon, 15 Jun 2026 09:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.36232
- Title: daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel Optimization
- Title(参考訳): daVinciカーネル:GPUカーネル最適化のためのRLによるスキル選択、要約、利用の共進化
- Authors: Dayuan Fu, Mohan Jiang, Tongyu Wang, Dian Yang, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Li,
- Abstract要約: daVinci- Kernelは、スキル発見とスキル活用を結合した強化学習フレームワークである。
DaVinci-Kernelは3人のエージェントを共同で訓練し、1人のLSMバックボーンを共有する。
KernelBenchでは、daVinci- Kernel-14Bはレベル1、レベル2、レベル3で37.2%、70.6%、32.2%を達成した。
- 参考スコア(独自算出の注目度): 9.463443749863584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPU kernel optimization represents a paradigm where functional correctness is assumed and execution efficiency is the objective. We present daVinci-kernel, a reinforcement learning framework that couples skill discovery with skill exploitation through a dynamically evolving skill library. daVinci-kernel jointly trains three agents sharing one LLM backbone: a Skill Selection Agent that retrieves relevant techniques via BM25 and LLM reranking, a Policy Agent that generates multi-turn CUDA/Triton kernels conditioned on selected skills, and a Skill Summary Agent that distills successful rollouts into reusable skills. Candidate skills are added only after execution-based verification confirms reproducible speedups. All three agents share a single LLM backbone, are initialized via a structured SFT cold start on diversity-filtered data, and are then jointly optimized end-to-end with multi-turn REINFORCE and per-agent advantage estimation. On KernelBench, daVinci-kernel-14B achieves 37.2%, 70.6%, and 32.2% on Level 1, Level 2, and Level 3 under the Fast$_1$ threshold, outperforming the strongest prior RL-trained model, Dr.Kernel-14B.
- Abstract(参考訳): GPUカーネル最適化は、機能的正確性を仮定し、実行効率が目的とするパラダイムである。
本稿では,動的に進化するスキルライブラリを通じて,スキル発見とスキル活用を併用する強化学習フレームワークであるdaVinci-kernelを紹介する。
daVinci-kernel は、BM25 と LLM を通じて関連技術を取得するスキル選択エージェント、選択されたスキルで条件付けられたマルチターンCUDA/Triton カーネルを生成するポリシーエージェント、成功したロールアウトを再利用可能なスキルに蒸留するスキル要約エージェントの3つのエージェントを共同で訓練する。
実行ベースの検証が再現可能なスピードアップを確認した後のみ、候補スキルが追加される。
3つのエージェントは1つのLLMバックボーンを共有し、多様性フィルタリングされたデータに基づいて構造化されたSFTコールドスタートによって初期化され、その後、マルチターンREINFORCEとアジェントごとの利点推定と共にエンドツーエンドに最適化される。
KernelBenchでは、daVinci-kernel-14Bはレベル1、レベル2、レベル3において37.2%、70.6%、32.2%を獲得し、これまでのRLトレーニングモデルであるDr.Kernel-14Bよりも優れていた。
関連論文リスト
- Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations [32.98036846113632]
カーネル生成のための強化学習(RL)について検討する。
そこで我々は,不偏利推定を行うために,ターンレベル強化-Leave-One-Out (TRLOO)を提案する。
本稿では、プロファイリングに基づくリワード(PR)とプロファイリングに基づくリジェクションサンプリング(PRS)を導入し、この問題を克服する。
論文 参考訳(メタデータ) (2026-02-05T17:01:09Z) - TRINITY: An Evolved LLM Coordinator [20.55517425459279]
Trinityは,大規模言語モデル(LLM)間の協調を編成する軽量コーディネータである
クエリを複数のターンで処理し、各ターンでコーディネータが選択したLSMに3つの役割のうちの1つを割り当てる。
実験によると、Trinityは、コーディング、数学、推論、ドメイン知識タスクで、個々のモデルと既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-12-04T11:45:21Z) - SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent [63.15417992240217]
本稿では,SkyRL-Agentについて紹介する。
効率的な非同期ディスパッチ、軽量ツールの統合、柔軟なバックエンドの相互運用性を提供する。
我々は、Qwen3-32B (24.4% Pass@1)からトレーニングを受けたソフトウェアエンジニアリングエージェントであるSA-SWE-32Bを、純粋に強化学習で訓練する。
論文 参考訳(メタデータ) (2025-11-20T07:05:19Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。