論文の概要: Tensor Algebraic Property Skeletons: Amplifying Property-Based Testing for AI Compilers
- arxiv url: http://arxiv.org/abs/2606.06747v1
- Date: Thu, 04 Jun 2026 22:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.466452
- Title: Tensor Algebraic Property Skeletons: Amplifying Property-Based Testing for AI Compilers
- Title(参考訳): Tensor Algebraic Property Skeletons: AIコンパイラのプロパティベースのテストの増幅
- Authors: Yuxin Qiu, Ben Limpanukorn, Seongmin Lee, Jiyuan Wang, Qian Zhang, Miryung Kim,
- Abstract要約: Propilotは、GPT 5.5を使ったディープラーニング(DL)コンパイラのためのエージェントプロパティベースのテストフレームワークである。
テンソル代数の知識を再利用可能なプロパティスケルトンとして表現し、それぞれが演算子制約、形状と値規則、およびオラクルテンプレートと結合する。
212のオペレーターと20のプロパティスケルトンでTVM上でPropilotを評価し,4,579のPBTを生成した。
- 参考スコア(独自算出の注目度): 7.684444178725619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) compilers such as TVM and ONNX-MLIR lower tensor computation graphs into optimized executables for target backends. Testing these AI compilers has made substantial progress in generating well-formed inputs in the context of fuzzing; however, such generation alone does not catch semantic drifts from algebraic invariants that graph transformations and optimizations are expected to preserve. While tensor algebra has been studied for decades, it has not been transformed into executable property-based tests (PBTs) for DL compilers because doing so requires jointly constructing operators, inputs, and test oracles. The central challenge is no longer generating well-formed inputs for fuzzing DL compilers, but bootstrapping executable PBTs with such inputs and oracles based on tensor algebra. We realize this vision in Propilot, an LLM-driven agentic property-based testing framework for DL compilers with GPT 5.5. First, Propilot represents tensor algebra knowledge as reusable property skeletons, each coupled with operator constraints, shape and value rules, and oracle templates. Second, given a target compiler, Propilot instantiates these skeletons into executable PBTs by generating paired tensor computation graphs, concrete tensor inputs, and expected semantic relations as oracles. Next, to prevent generated tests from degenerating into invalid or uninformative PBTs, Propilot validates each PBT candidate before execution for applicability and safety. Validation feedback, execution results, and coverage signals guide subsequent generation. We evaluate Propilot on TVM with 212 operators and 20 property skeletons, generating 4,579 PBTs. Compared with direct LLM-based PBT generation, Propilot reduces redundancy by 49% and eliminates invalid tests through explicit property skeletons. This effectiveness translates into finding semantic errors and numerical discrepancies.
- Abstract(参考訳): TVM や ONNX-MLIR などのディープラーニング (DL) コンパイラは、テンソル計算グラフをターゲットバックエンド向けに最適化可能な実行ファイルに変換する。
これらのAIコンパイラのテストはファジングの文脈で十分に整形された入力を生成するためにかなりの進歩を遂げているが、そのような生成だけではグラフ変換や最適化が保存されるであろう代数不変量から意味的なドリフトをキャッチできない。
テンソル代数は数十年にわたって研究されてきたが、演算子、入力、テストオラクルを共同で構築する必要があるため、DLコンパイラの実行可能なプロパティベーステスト(PBT)に変換されていない。
中心的な課題は、もはやDLコンパイラをファジングするための十分に整形されたインプットを生成するのではなく、テンソル代数に基づいて、そのようなインプットとオラクルで実行可能なPBTをブートストラップすることである。
GPT 5.5 を用いた DL コンパイラのための LLM 駆動のエージェント型プロパティベースのテストフレームワークである Propilot でこのビジョンを実現する。
第一に、Propilotはテンソル代数の知識を再利用可能なプロパティスケルトンとして表現し、それぞれが演算子制約、形状と値規則、およびオラクルテンプレートと結合する。
第二に、対象とするコンパイラが与えられた場合、Propilotは、これらのスケルトンをペア化されたテンソル計算グラフ、具体的なテンソル入力、およびオーラクルとして期待される意味関係を生成することにより、実行可能なPBTにインスタンス化する。
次に、生成されたテストが無効または不正な PBT に退化することを防ぐため、Propilot は適用性と安全性のために実行前に各 PBT 候補を検証する。
検証フィードバック、実行結果、カバレッジ信号は、その後の生成をガイドする。
212のオペレーターと20のプロパティスケルトンでTVM上でPropilotを評価し,4,579のPBTを生成した。
直接LPMベースのPBT生成と比較すると、Propilotは冗長性を49%削減し、明示的なプロパティスケルトンを通じて無効なテストを排除する。
この効果は意味的誤りや数値的な相違を見つけることにつながる。
関連論文リスト
- Leveraging BART to Assess CS1 C++ Programming Assignments using Rubric-based Criteria [2.1843439591862333]
本稿では,C++プログラムの代入を自動グレーディングするための変換器モデルのルーリック認識,マルチタスク微調整について検討する。
マルチセメスターCS1データを用いて、学生の応募は数値スコア、レターグレードバケット、代入ルーリックとペアリングされ、前処理され、トランスフォーマー入力のための統一シーケンスに変換される。
LoRA適応のBARTエンコーダデコーダは、数値グレードとグレードバケットを共同で予測し、予測されたグレードと経験的なグレードの分布を調整するために、分布マッチング項を付加するように訓練される。
論文 参考訳(メタデータ) (2026-06-02T15:57:14Z) - From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - TENSURE: Fuzzing Sparse Tensor Compilers (Registered Report) [9.083996936429465]
我々は,スパースコンパイラのテストに特化して設計された,最初のブラックボックスファジィフレームワークであるTENSUREを紹介する。
合成されたカーネルの100%の意味論的妥当性を保証する制約ベースの新しい生成アルゴリズムを提案する。
TACOとFinchの2つの最先端システムに対する評価では、特にTACOでは、TENSUREがクラッシュや無音の誤コンパイルを露呈している。
論文 参考訳(メタデータ) (2026-03-19T00:13:14Z) - SecureCodeRL: Security-Aware Reinforcement Learning for Code Generation with Partial-Credit Rewards [1.5377279217726239]
本稿ではセキュリティ対応コード生成のための強化学習パイプラインSecureCodeRLを提案する。
鍵となるアイデアは、中間スコアを妥当性、実行成功、出力の生成に割り当てる部分クレジット機能報酬である。
Banditは小さな評価では見つからなかったが、セキュリティ用語はトレーニングに統合され、それらが現れると安全でないショートカットを回避できる。
論文 参考訳(メタデータ) (2026-01-03T13:36:36Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Generating Highly Structured Test Inputs Leveraging Constraint-Guided Graph Refinement [4.121384394709256]
本研究では,グラフベース表現を用いて,構造化ドメインに対するテスト入力を統一できるかどうかを検討する。
我々は,8つのAIシステムにおける入力妥当性とセマンティックな保存性を高めるために,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2025-07-28T18:54:04Z) - Test-Time Adaptation with Binary Feedback [50.20923012663613]
BiTTAは、不確実なサンプルに対するバイナリフィードバック誘導適応と、確実な予測に対する合意に基づく自己適応のバランスをとる、新しいデュアルパス最適化フレームワークである。
実験の結果、BiTTAは最先端のベースラインよりも13.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-24T05:24:10Z) - Constraining Representations Yields Models That Know What They Don't
Know [2.729898906885749]
ニューラルネットワークのよく知られた障害モードは、誤った予測を確実に返すことである。
この研究は、これらの問題に広く一般的な方法で対処するための新しい方向性を示す。
私たちは各クラスにユニークな、固定された、ランダムに生成されたバイナリベクタを割り当てます。
我々は、入力サンプルのクラスに従って、そのクロスディープなアクティベーションパターンが適切なクラスコードを予測するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T18:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。