論文の概要: Compiling Rewrite Rules to Finite-State Transducers with the Worsening Trick
- arxiv url: http://arxiv.org/abs/2606.10059v1
- Date: Mon, 08 Jun 2026 18:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.130557
- Title: Compiling Rewrite Rules to Finite-State Transducers with the Worsening Trick
- Title(参考訳): 悪化トリックを有する有限状態トランスデューサに対する書き換え規則のコンパイル
- Authors: Mans Hulden, Michael Ginn,
- Abstract要約: 本稿では「ウォージングトリック」に基づくコンパクトなコンパイル方式を提案する。
すべての法的書き直し候補を生成し、同じ入力に対して他の候補よりも悪い候補をフィルタリングする。
結果として得られる公式は短く均一であり、意味論が一致する場合は、以前のアプローチと同じルールトランスデューサを再現する。
- 参考スコア(独自算出の注目度): 9.436197391132227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finite-state transducers (FSTs) are essential for modeling string rewriting in computational linguistics and natural language processing (NLP), particularly for phonological and morphological rewrite rules. Compiling general rewrite rules of the form $A \to B / L \, \_ \, R$, where $A$, $B$, $L$, and $R$ are arbitrary regular languages, is complex due to overlapping matches and context constraints. Traditional methods, such as those by Kaplan and Kay or Karttunen, rely on intricate transducer compositions with auxiliary markers. This paper presents a compact compilation scheme based on the "worsening trick'': generate all legal rewrite candidates, then filter candidates that are worse than another candidate for the same input. Implemented as the built-in rewrite compiler in PyFoma, the construction supports multiple contexts, arbitrary transductions, markup, directed rewriting, weights, and parallel rewriting. The resulting formulas are short and uniform, and where semantics coincide, they reproduce the same rule transducers as earlier approaches while remaining easier to extend. The implementation has been validated against foma on both a substantial collection of rewrite grammars and an automated regression suite covering the major rewrite modalities, with the resulting transducers matching exactly apart from state numbering.
- Abstract(参考訳): 有限状態トランスデューサ(FST)は、計算言語学や自然言語処理(NLP)における文字列書き換えのモデル化に不可欠である。
A$, $B$, $L$, $R$は任意の正規言語であり、マッチとコンテキスト制約が重複しているため複雑である。
Kaplan や Kay や Karttunen などの伝統的な手法は、補助マーカーを持つ複雑なトランスデューサの合成に依存している。
本稿では,すべての法的書き直し候補を生成し,同じ入力に対して他の候補よりも悪い候補をフィルタリングする,"Worsening trick'"に基づくコンパクトなコンパイル方式を提案する。
PyFomaの組み込みリライトコンパイラとして実装され、複数のコンテキスト、任意のトランスダクション、マークアップ、ダイレクトリライト、重み付け、並列リライトをサポートする。
結果として得られる公式は短く均一であり、セマンティクスが一致する場合は、以前のアプローチと同じルールトランスデューサを再現し、拡張しやすくする。
実装は、実質的な書き直し文法のコレクションと、主要な書き直しモダリティをカバーする自動回帰スイートの両方において、状態番号と全く異なる結果のトランスデューサの両方で、フェーマに対して検証されている。
関連論文リスト
- Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation [53.844308305341166]
単一パスのASRフロントエンドと意味的訂正,意図のルーティング,推論に基づく編集を組み合わせた閉ループフレームワークである textbfAgentic ASR を提案する。
複数言語、名前付き集中型、コードスイッチングベンチマークの実験は、反復的相互作用が意味的誤りを一貫して減少させることを示している。
論文 参考訳(メタデータ) (2026-05-28T06:23:31Z) - Prefix Parsing is Just Parsing [53.010152712125766]
プレフィックスパーシングは、入力プレフィックスを与えられた文法によって生成された完全な文字列に拡張できるかどうかを問う。
そこで我々は,プレフィックス文法変換を導入し,プレフィックス解析を通常の構文解析に効率よく還元する。
また,次点重みベクトルを計算するためのアルゴリズム微分に基づく戦略も提案する。
論文 参考訳(メタデータ) (2026-04-23T01:20:40Z) - CASHG: Context-Aware Stylized Online Handwriting Generation [12.580543720353043]
本稿では,コンテキスト認識型オンライン手書き文字生成器CASHGを提案する。
CASHGは、スタイル一貫性のある文レベルの軌道合成のための文字間接続を明示的にモデル化する。
本稿では,CSM(Connectivity and Spacing Metrics)について紹介する。
論文 参考訳(メタデータ) (2026-04-02T14:32:31Z) - RewriteNets: End-to-End Trainable String-Rewriting for Generative Sequence Modeling [0.0]
明示的な並列文字列書き換えに基づくニューラルアーキテクチャであるRewriteNetsを提案する。
アルゴリズム, 合成, 文字列操作タスク上でのRewriteNetsの評価を行い, 強力なLSTMとTransformerベースラインとの比較を行った。
その結果、RewriteNetsは系統的な一般化を必要とするタスクに優れ、Transformersよりも効率的であることがわかった。
論文 参考訳(メタデータ) (2026-01-10T19:59:37Z) - Neuro-Symbolic Query Compiler [57.78201019000895]
本稿では,このギャップを埋めるために,言語文法規則とコンパイラ設計に触発されたニューラルシンボリックなフレームワークQCompilerを提案する。
理論上は、複雑なクエリを形式化するのに最小でも十分なバックス・ナウアー形式(BNF)の文法を$G[q]$で設計する。
葉のサブクエリの原子性は、より正確な文書検索と応答生成を保証し、複雑なクエリに対処するRAGシステムの能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-17T09:36:03Z) - Pattern Matching in AI Compilers and its Formalization (Extended Version) [5.025922465392978]
PyPMは、リライトベースの最適化パスを構築するためのPythonベースのドメイン固有言語である。
我々は、PyPMの構築と、この複雑さの形式化と蒸留について、理解可能な数学的コアに提示する。
論文 参考訳(メタデータ) (2024-12-18T00:29:09Z) - Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Traduction des Grammaires Cat\'egorielles de Lambek dans les Grammaires
Cat\'egorielles Abstraites [0.0]
このインターンシップレポートは、すべてのランベク文法が抽象カテゴリー文法(ACG)で完全にではなく効率的に表現できることを示すものである。
主な考え方は、LGの型書き換えシステムを文脈自由文法(CFG)に変換し、導入規則と除去規則を消去し、カット規則が十分であるように十分な公理を生成することである。
基礎となるアルゴリズムは完全には実装されなかったが、この証明は自然言語処理におけるACGの関連性を支持する別の議論を提供する。
論文 参考訳(メタデータ) (2020-01-23T18:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。