論文の概要: Efficient Financial Language Understanding via Distillation with Synthetic Data
- arxiv url: http://arxiv.org/abs/2606.18875v1
- Date: Wed, 17 Jun 2026 09:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.099878
- Title: Efficient Financial Language Understanding via Distillation with Synthetic Data
- Title(参考訳): 合成データによる蒸留による効率的な財務言語理解
- Authors: Wen-Fong, Huang, Edwin Simpson,
- Abstract要約: 本稿では, 合成データを用いた蒸留による財務感情分析の効率的な枠組みを提案する。
このフレームワークは、少数の実例を手作業で収集しラベル付けする、低リソースの条件のために設計されている。
実験により、クラスタリングに基づく種選択は、ランダムサンプリングよりも、より代表的な合成データが得られることが示された。
- 参考スコア(独自算出の注目度): 21.189378333969756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large instruction-following models are powerful but costly to deploy, particularly in finance, where labelled data are limited by confidentiality and expert annotation cost. We present an efficient framework for financial sentiment analysis through distillation with synthetic data, transferring knowledge from a large instruction-tuned teacher to compact student models. The framework is designed for low-resource conditions, where a small set of real examples are collected and labelled by hand. The framework then clusters the examples and uses the clusters to select seeds for generating synthetic examples via structured few-shot prompting. Experiments show that clustering-based seed selection yields more representative synthetic data than random sampling, enabling compact models to achieve strong performance with minimal supervision. Notably, on a more complex and noisy text domain, the compact model trained on the complete synthetic-seed corpus even outperforms the teacher model, while remaining competitive on formal text. The framework provides a practical route toward resource-efficient domain adaptation in financial NLP with minimal human labelling effort.
- Abstract(参考訳): 大規模な命令追跡モデルは強力だが、特に金融分野では、機密性や専門家のアノテーションコストによってラベル付きデータが制限される。
本稿では,大規模な教師から生徒モデルに知識を伝達する,合成データによる蒸留による金銭的感情分析の効率的な枠組みを提案する。
このフレームワークは、少数の実例を手作業で収集しラベル付けする、低リソースの条件のために設計されている。
その後、フレームワークはサンプルをクラスタ化し、クラスタを使用して、構造化された数発のプロンプトを通じて合成例を生成するためのシードを選択する。
実験により、クラスタリングに基づく種選択により、ランダムサンプリングよりも一般的な合成データが得られ、コンパクトモデルが最小限の監督で強力な性能を達成できることが示された。
特に、より複雑でノイズの多いテキストドメインでは、完全合成種子コーパスで訓練されたコンパクトモデルは、フォーマルテキスト上で競争力を維持しながら、教師モデルよりも優れています。
このフレームワークは、最小限の人間のラベル付け作業を伴う財務NLPにおける資源効率の高いドメイン適応への実践的な経路を提供する。
関連論文リスト
- Enhancing Business Analytics through Hybrid Summarization of Financial Reports [0.152292571922932]
財務報告と決算報告には大量の構造化情報と半構造化情報が含まれている。
本稿では,抽出的および抽象的手法を組み合わせて,簡潔かつ現実的に信頼性の高い要約を生成するハイブリッド要約フレームワークを提案する。
これらの知見は、長い財務文書を有効活用できるビジネスインテリジェンスに蒸留する実用的な要約システムの開発を支援するものである。
論文 参考訳(メタデータ) (2025-12-28T16:25:12Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Provably Improving Generalization of Few-Shot Models with Synthetic Data [15.33628135372502]
本研究では,分散の相違が教師あり学習に与える影響を定量化する理論的枠組みを開発する。
本稿では,データ分割とモデルトレーニングの両方を最適化するために,プロトタイプ学習を統合した理論に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:59:45Z) - SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。