論文の概要: Context-Aware Distillation and Ablation for Text2DSL
- arxiv url: http://arxiv.org/abs/2606.22578v1
- Date: Sun, 21 Jun 2026 16:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:31:20.629872
- Title: Context-Aware Distillation and Ablation for Text2DSL
- Title(参考訳): Text2DSLのコンテキスト認識蒸留とアブレーション
- Authors: Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov,
- Abstract要約: 我々は、コンテクスト対応蒸留により、プロンプトのみの合成生成を置き換える。
教師の大きな言語モデルは、明示的に定義された構造化コンテキストの下で機能する。
これは、検証されたポルキットベンチコーパスを4,204対から10,073対にスケールする。
- 参考スコア(独自算出の注目度): 78.29352305480285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We extend our prior work on Text2DSL automatic generation of domain-specific language (DSL) code from natural language descriptions along two complementary axes. First, we replace prompt-only synthetic generation with context-aware distillation, in which a teacher large language model (DeepSeek-V4-Flash) operates under an explicitly defined structured context comprising a BNF grammar, an API specification, and a closed identifier vocabulary; the resulting corpus is verified by a two-tier pipeline combining AST validation through esprima and runtime acceptance through the production polkitd daemon and the pkcheck client. This scales the verified PolkitBench corpus from 4,204 to 10,073 natural-language-to-Polkit-rule pairs at 100.0% AST validity and 99.7% runtime pass rate. Second, we conduct the per-component factorial ablation of structured context that was identified as future work in the precursor study: eight conditions C0-C7 are evaluated on GigaChat-10B-A1.8B with the new corpus. Three findings emerge. (i) The new harder corpus collapses the baseline mode (Syntax Valid 97.6% -> 58.5%, Combined Score 0.482 -> 0.252), whereas the context-enhanced mode degrades only marginally (Syntax 98.6% -> 97.4%, Combined 0.801 -> 0.750), confirming that structured context is not a cosmetic improvement but a load-bearing mechanism. (ii) The best absolute condition is the full context C7 across all metrics, while the strongest partial conditions (C5 = BNF + Vocabulary, C6 = API + Vocabulary) both contain the vocabulary. (iii) A Shapley-style decomposition assigns the largest semantic-quality effect to the vocabulary (Combined +0.198), the largest structural-validity effects to API (+24.7 pp) and BNF (+22.3 pp).
- Abstract(参考訳): 2つの補完的な軸に沿って、自然言語記述からドメイン固有言語(DSL)コードを自動的に生成するText2DSLに関する以前の作業を拡張します。
まず,教師の大規模言語モデル(DeepSeek-V4-Flash)がBNF文法,API仕様,クローズド識別子ボキャブラリを含む明示的に定義されたコンテキスト下で動作し,それらのコーパスをエスプリマによるAST検証と,生産用polkitdデーモンとpkcheckクライアントによる実行時のアクセシビリティを組み合わせた2層パイプラインで検証する。
これは検証済みの PolkitBench コーパスを AST の 100.0% と 99.7% のランタイムパスレートで 4,204 から 10,073 の自然言語-ポーランド-ルールのペアにスケールする。
第2に、前駆体研究において将来的な研究として確認された構造化文脈の成分ごとの分解を行い、8つの条件C0-C7をGigaChat-10B-A1.8Bで新しいコーパスを用いて評価した。
3つの発見がある。
(i)新しい硬いコーパスはベースラインモードを崩壊させる(Syntax Valid 97.6% -> 58.5%、Combined Score 0.482 -> 0.252)一方、コンテキスト強化モードはわずかに低下する(Syntax 98.6% -> 97.4%、Combined 0.801 -> 0.750)。
(ii) 最高の絶対条件はすべてのメトリクスにわたる完全な文脈 C7 であり、最も強い部分条件(C5 = BNF + Vocabulary, C6 = API + Vocabulary)はどちらも語彙を含む。
(iii)シェープ型分解は、API(+24.7 pp)およびBNF(+22.3 pp)に対する最大の構造的妥当性効果である語彙(Combined +0.198)に最大の意味論的品質効果を割り当てる。
関連論文リスト
- Text2DSL: LLM-Based Code Generation for Domain-Specific Languages [78.29352305480285]
本稿では、自然言語記述からDSLコードを自動的に生成するタスクであるText2を定式化する。
我々は,PolkitBenchデータセットを導入し,4,204個の自然言語対を検証した。
論文 参考訳(メタデータ) (2026-06-21T16:44:20Z) - Benchmarking Speech-to-Speech Translation Models [55.00303727199927]
音声音声翻訳(S2ST)は急速に進歩しているが、オフライン評価には統一されたプロトコルが欠けている。
8次元にわたる46のメトリクスを統合するベンチマークフレームワークを導入する。
FLEURSとCVSSから1,248のモデル言語構成でデプロイする。
論文 参考訳(メタデータ) (2026-06-02T07:01:33Z) - Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - PHANTOM: Polymorphic Honeytoken Adaptation with Narrative-Tailored Organisational Mimicry [0.2538209532048867]
ハネトケンは、不正な属性アクセスを検出するために植えられたデコイデジタル資産である。
PHANTOMは,組織固有の知識を符号化することで,文脈的に説得力のあるハネトケンを生成するフレームワークである。
結果は外部のAPIコールなしで再現されるため、パイプラインは空調された環境で完全にデプロイできる。
論文 参考訳(メタデータ) (2026-05-04T17:14:13Z) - PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution [2.28438857884398]
自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
論文 参考訳(メタデータ) (2026-03-10T13:16:45Z) - T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning [31.85615810584119]
本稿では,中間的なテキスト構造を構築するためにモデルを誘導するプロンプト技術であるStructure of Thought(SoT)を紹介する。
この知見に基づいて、モデルのテキスト・ツー・ストラクチャ機能の評価と改善を目的とした最初のベンチマークであるT2S-Benchを提案する。
論文 参考訳(メタデータ) (2026-03-04T07:05:09Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - VAST: The Valence-Assessing Semantics Test for Contextualizing Language
Models [3.4157048274143316]
VAST(Valence-Assessing Semantics Test)は,文脈適応型単語埋め込みのための本質的な評価課題である。
VASTは他の7つのLMにとって有用であり、7つの言語で使用できることを示す。
また,単語群間の単語埋め込み関係の相違を比較した結果,セマンティクスの分離後,よりステレオタイプ・コングルエントバイアスが認められた。
論文 参考訳(メタデータ) (2022-03-14T21:29:38Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。