論文の概要: Achieving Precise Text-To-Cypher Via Grounded Knowledge Graph Data Generation
- arxiv url: http://arxiv.org/abs/2606.14325v1
- Date: Fri, 12 Jun 2026 10:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.863745
- Title: Achieving Precise Text-To-Cypher Via Grounded Knowledge Graph Data Generation
- Title(参考訳): グラウンドド・知識グラフデータ生成による高精度テキスト・通信の実現
- Authors: Francesco Cazzaro, Jessica Lennon, Ariadna Quattoni,
- Abstract要約: プロパティグラフは、異種データソースを表現するためのデータベースフレームワークとして急速に採用されている。
それらに含まれる情報への正確なアクセスを可能にするには、Text-To-Cypher(Text2Cypher)に基づいた会話インターフェイスが必要です。
本稿では, 微調整小型LLMに活用可能な自動合成データ生成手法を提案する。
- 参考スコア(独自算出の注目度): 5.645823801022895
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Property Graphs are rapidly being adopted as database frameworks for representing heterogeneous data sources. To enable precise access to the information contained in them we need conversational interfaces based on Text-To-Cypher (Text2Cypher) parsers. This paper presents an automatic synthetic data generation method that can be leveraged to fine-tune small LLMs for this task. We conduct experiments on all the major Text-To-Cypher benchmarks, demonstrating that with our synthetic data generation approach we can significantly increase the performance of small LLMs, allowing them to compete with much larger proprietary models. This means that in settings in which models must be locally deployed we can ensure data-sovereignty without sacrificing accuracy and without costly annotation campaigns.
- Abstract(参考訳): プロパティグラフは、異種データソースを表現するためのデータベースフレームワークとして急速に採用されている。
それらに含まれる情報への正確なアクセスを可能にするには、Text-To-Cypher(Text2Cypher)パーサに基づいた会話インターフェイスが必要です。
そこで本稿では, 小型LLMの微調整に活用可能な自動合成データ生成手法を提案する。
我々は、主要なText-To-Cypherベンチマークの実験を行い、我々の合成データ生成アプローチにより、小さなLLMの性能を大幅に向上し、より大規模なプロプライエタリモデルと競合できることを示した。
つまり、モデルがローカルにデプロイされなければならない設定では、正確さを犠牲にすることなく、高価なアノテーションキャンペーンを必要とせずに、データの尊厳を保証できます。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Leveraging Large Language Models for Node Generation in Few-Shot Learning on Text-Attributed Graphs [5.587264586806575]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
LLMはラベルから意味情報を抽出し、模範としてカテゴリに属するサンプルを生成する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。