論文の概要: UniQL: Towards Dialect-Universal Benchmarking for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2606.08018v1
- Date: Sat, 06 Jun 2026 07:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.667386
- Title: UniQL: Towards Dialect-Universal Benchmarking for Text-to-SQL
- Title(参考訳): UniQL: テキストからSQLへの対話的ユニバーサルベンチマークを目指す
- Authors: Jianling Gao, Chongyang Tao, Jiayuan Bai, Liu Yang, Xuanguang Pan, Jinrui Liu, Shihao Xing, Xiaohan Xu, Jie Liang, Shuai Ma,
- Abstract要約: クロスダイアレクト・テキスト・ツー・アセスメントのための人間検証ベンチマークであるUniQLを紹介する。
すべての方言は、同じ意図、一致したスキーマとデータベースの内容を共有し、方言一般化の制御された評価を可能にする。
- 参考スコア(独自算出の注目度): 27.963417399820987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing text-to-SQL benchmarks are largely centered on SQLite, making it difficult to evaluate whether models can generalize across heterogeneous SQL dialects. However, real-world database systems differ substantially in syntax, functions, type systems, and execution semantics, so the same natural language intent often requires dialect-specific SQL realizations. We introduce UniQL, a human-verified benchmark for cross-dialect text-to-SQL evaluation. UniQL aligns 1,534 natural language questions with executable SQL annotations across 16 SQL dialects, yielding 24,544 dialect-specific queries. All dialects share the same intents, aligned schemas and database contents, enabling controlled evaluation of dialect generalization. UniQL is constructed through a hybrid pipeline combining database migration, SQL translation, execution-guided verification, iterative rule summarization, and human validation. Experiments on both open-source and closed-source LLMs show that current models remain far from dialect-universal, with substantial performance variation across database systems and limited transfer from SQLite success to other dialects. These findings highlight the need for aligned cross-dialect benchmarks and more dialect-aware text-to-SQL methods. Code and data are available at https://github.com/JerryGao818/UniQL
- Abstract(参考訳): 既存のテキスト-SQLベンチマークは、主にSQLiteを中心にしているため、異質なSQL方言でモデルを一般化できるかどうかを評価するのは難しい。
しかし、現実のデータベースシステムは構文、関数、型システム、実行セマンティクスで大きく異なるため、同じ自然言語の意図は方言固有のSQLの実現を必要とすることが多い。
クロスダイレクトテキスト・トゥ・SQL評価のための人間検証ベンチマークであるUniQLを紹介する。
UniQLは1,534の自然言語質問と16のSQL方言にわたる実行可能なSQLアノテーションを一致させ、24,544の方言固有のクエリを生成する。
すべての方言は、同じ意図、一致したスキーマとデータベースの内容を共有し、方言一般化の制御された評価を可能にする。
UniQLは、データベースマイグレーション、SQL翻訳、実行誘導検証、反復ルール要約、人間の検証を組み合わせたハイブリッドパイプラインを通じて構築されている。
オープンソースとクローズドソースの両方の実験では、現在のモデルは方言ユニバーサルとは程遠いままであり、データベースシステム間ではかなりの性能変化があり、SQLiteの成功から他の方言への移行は限られている。
これらの知見は、アライメントされたクロスダイアレクトベンチマークと、より方言対応のテキスト-SQLメソッドの必要性を強調している。
コードとデータはhttps://github.com/JerryGao818/UniQLで公開されている。
関連論文リスト
- ProSPy: A Profiling-Driven SQL-Python Agentic Framework for Enterprise Text-to-SQL [51.98164069124653]
ProSPyは、エンタープライズスケールのテキスト-非依存分析のためのプロファイリング駆動フレームワークである。
ProSPyは推論プロセスを4段階に構成する。
まず、自動プロファイリングにより、きめ細かいデータ証拠を抽出する。
大規模なスキーマをタスク関連コンテキストに抽出する。
論文 参考訳(メタデータ) (2026-06-04T08:13:05Z) - PolySQL: Scaling Text-to-SQL Evaluation Across SQL Dialects via Automated Backend Isomorphism [5.75736217540603]
Polylectは、正規化の実行結果を比較することで、クエリのトランスパイルを不要にする、新しいデュアルエグゼバスト方式である。
本研究により,他の方言からの平均精度が10.1%低下し,重要な方言難易度階層が同定された。
論文 参考訳(メタデータ) (2026-05-08T14:32:44Z) - Dialect-Agnostic SQL Parsing via LLM-Based Segmentation [7.41731253317229]
本稿では,文法に基づく構文解析とLLMに基づくセグメンテーションを統合し,方言を頑健に解析する新しい問合せ書き換えフレームワークを提案する。
我々の中核となる考え方は、階層解析を逐次セグメンテーションタスクに分解することであり、LLMの強度とよりよく一致する。
独立した評価では、8つの方言で91.55%から100%のクエリを解析し、すべてのベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-17T06:18:37Z) - ExeSQL: Self-Taught Text-to-SQL Models with Execution-Driven Bootstrapping for SQL Dialects [24.450818792474216]
この作業では、実行駆動のエージェントブートストラップを備えたテキストからガイダンスのフレームワークであるExeを紹介した。
Exeはテキストとガイダンスの学習における方言のギャップを埋め、それぞれ15.2%、10.38%、および4.49%のGPT-4o以降の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T19:13:34Z) - SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging [30.306023265985658]
あらゆる方言に対して高品質な合成学習データを生成するためのフレームワークを提案する。
本稿では,方言間の共有知識を活用する新しいMixture-of-Experts(MoE)を提案する。
論文 参考訳(メタデータ) (2024-08-22T20:50:48Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。