論文の概要: SOMA-SQL: Resolving Multi-Source Ambiguity in NL-to-SQL via Synthetic Log and Execution Probing
- arxiv url: http://arxiv.org/abs/2606.11424v1
- Date: Tue, 09 Jun 2026 20:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.169009
- Title: SOMA-SQL: Resolving Multi-Source Ambiguity in NL-to-SQL via Synthetic Log and Execution Probing
- Title(参考訳): SOMA-SQL: 合成ログと実行プロファイリングによるNL-to-SQLのマルチソース曖昧性の解消
- Authors: Sai Ashish Somayajula, Marianne Menglin Liu, Chuan Lei, Fjona Parllaku, Daniel Garcia, Rongguang Wang, Syed Fahad Allam Shah, Ankan Bansal, Sujeeth Bharadwaj, Tao Sheng, Sujith Ravi, Dan Roth,
- Abstract要約: ユーザ質問、データベーススキーマ、モデル解釈の曖昧さは、NL2の中心的な障害モードである。
本稿では,目的の合成クエリログとあいまいさ駆動型探索により,あいまいさを自動的に解決するSOMA-を提案する。
6つの公開ベンチマークの実験では、SOMA-は最先端のベースラインよりも平均して13.0%の精度で実行されている。
- 参考スコア(独自算出の注目度): 37.513757157512686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Natural language interfaces to databases aim to translate user questions into executable SQL, yet remain brittle in real-world settings where questions are underspecified and schemas are large and ambiguous. Ambiguity across user questions, database schemas, and model interpretations are central failure modes in NL2SQL, leading to misaligned intent, incorrect schema grounding, and erroneous SQL generation. Existing approaches rely on human clarification or treat ambiguity as a schema representation problem, but these do not scale nor resolve ambiguity autonomously. We propose SOMA-SQL to automatically resolve ambiguity via targeted synthetic query log and ambiguity-driven probing. SOMA-SQL constructs synthetic query log to ground schema interpretation and guide candidate SQL generation; it then executes targeted probing queries, driven by a structured ambiguity taxonomy and candidate disagreements, to produce disambiguation evidence for final SQL selection and repair. This active approach to ambiguity discovery and resolution generalizes across unseen schemas and query distributions without human-in-the-loop. Experiments on six public benchmarks demonstrate that SOMA-SQL improves execution accuracy by 13.0% on average over state-of-the-art baselines, with gains of up to 16.7% on ambiguous questions.
- Abstract(参考訳): データベースへの自然言語インターフェースは、ユーザ質問を実行可能なSQLに変換することを目的としていますが、質問が不明確でスキーマが大きく、あいまいな実際の環境では不安定なままです。
ユーザ質問、データベーススキーマ、モデル解釈の曖昧さは、NL2SQLの中心的な障害モードであり、不整合性、誤ったスキーマ基盤、誤ったSQL生成につながる。
既存のアプローチでは、人間の明確化やあいまいさをスキーマ表現問題として扱うが、あいまいさを自律的にスケールしたり解決したりはしない。
本研究では,目的とする合成クエリログとあいまいさ駆動型探索により,あいまいさを自動的に解決するSOMA-SQLを提案する。
SOMA-SQLは、基本スキーマの解釈とガイド候補SQL生成のための合成クエリログを構築し、構造化されたあいまいさ分類と候補不一致によって駆動されるターゲットの探索クエリを実行し、最終的なSQL選択と修復のための曖昧なエビデンスを生成する。
あいまいさの発見と解決に対するこのアクティブなアプローチは、目に見えないスキーマやクエリの分散を、人間のループなしで一般化する。
6つの公開ベンチマークの実験では、SOMA-SQLは最先端のベースラインよりも平均で13.0%、曖昧な質問では最大16.7%向上している。
関連論文リスト
- ProSPy: A Profiling-Driven SQL-Python Agentic Framework for Enterprise Text-to-SQL [51.98164069124653]
ProSPyは、エンタープライズスケールのテキスト-非依存分析のためのプロファイリング駆動フレームワークである。
ProSPyは推論プロセスを4段階に構成する。
まず、自動プロファイリングにより、きめ細かいデータ証拠を抽出する。
大規模なスキーマをタスク関連コンテキストに抽出する。
論文 参考訳(メタデータ) (2026-06-04T08:13:05Z) - CLARITY: A Framework and Benchmark for Conversational Language Ambiguity and Unanswerability in Interactive NL2SQL Systems [13.595364881493943]
既存のベンチマークは通常、曖昧さの単一のソースを仮定し、解決のためにユーザインタラクションに依存します。
Clarityは,多面的曖昧さと多様なユーザ動作を備えたNL2ベンチマークを自動生成するフレームワークである。
業界グレードのNL2システムにおいて,より堅牢なあいまいさ検出と解決の必要性を強調した。
論文 参考訳(メタデータ) (2026-04-24T07:47:16Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - AmbiSQL: Interactive Ambiguity Detection and Resolution for Text-to-SQL [0.9217021281095907]
本稿では,クエリのあいまいさを自動的に検出し,ユーザの意図を明らかにするための複数の質問を通じてユーザをガイドする対話型システムAmbiを紹介する。
Ambiは曖昧さ検出の87.2%を達成し、テキストからデータセットシステムに統合された場合、精度を50%向上する。
論文 参考訳(メタデータ) (2025-08-21T06:10:28Z) - Disambiguate First, Parse Later: Generating Interpretations for Ambiguity Resolution in Semantic Parsing [56.82807063333088]
本稿では, 自然言語の解釈を論理形式にマッピングする前に, あいまいさを解消するモジュラー手法を提案する。
我々のアプローチは解釈のカバレッジを改善し、異なるアノテーションスタイル、データベース構造、あいまいさタイプを持つデータセットをまたいだ一般化を行う。
論文 参考訳(メタデータ) (2025-02-25T18:42:26Z) - E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。
E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。
総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文 参考訳(メタデータ) (2024-09-25T09:02:48Z) - AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries [56.82807063333088]
我々は,新たなベンチマークであるAMBROSIAを導入し,テキスト・ツー・オープン・プログラムの開発を促進することを期待する。
私たちのデータセットには、3種類のあいまいさ(スコープのあいまいさ、アタッチメントのあいまいさ、あいまいさ)を示す質問が含まれている。
いずれの場合も、データベースのコンテキストが提供されてもあいまいさは持続する。
これは、スクラッチからデータベースを制御して生成する、新しいアプローチによって実現される。
論文 参考訳(メタデータ) (2024-06-27T10:43:04Z) - Benchmarking and Improving Text-to-SQL Generation under Ambiguity [25.283118418288293]
我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。
提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
論文 参考訳(メタデータ) (2023-10-20T17:00:53Z) - Know What I don't Know: Handling Ambiguous and Unanswerable Questions
for Text-to-SQL [36.5089235153207]
既存のtext-to-Yourself は任意のユーザ質問に対して "plausible" クエリを生成する。
本稿では,不明瞭かつ解決不可能な例を自動的に生成する,シンプルで効果的な生成手法を提案する。
実験結果から,実例と生成例の両方において,本モデルが最も優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-17T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。