論文の概要: How Small Can You Go? LoRA Fine-Tuning 270M-8B Models for Merchant Information Extraction in Financial Transactions
- arxiv url: http://arxiv.org/abs/2606.08051v1
- Date: Sat, 06 Jun 2026 08:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.69615
- Title: How Small Can You Go? LoRA Fine-Tuning 270M-8B Models for Merchant Information Extraction in Financial Transactions
- Title(参考訳): LoRAファインチューニング270M-8Bモデルによる金融取引におけるマーチャント情報抽出
- Authors: Donghao Huang, Tomas Drietomsky, Benjamin Barrett, Zhaoxia Wang,
- Abstract要約: 4つのモデルファミリーにまたがる24種類のモデル変異について、デプロイに焦点を当てた研究を行う。
製造適性を評価するため,精度,スループット,トレーニングコスト,ハードウェア動作を評価する。
正確性とレイテンシの要件を越えたデプロイメントレコメンデーションを提供します。
- 参考スコア(独自算出の注目度): 1.7133809948345597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial transaction processing requires extracting structured merchant information from noisy, abbreviated bank transaction strings at scale. Our current production system, a LoRA-fine-tuned LLaMA 3.1-8B, achieves 96.95% F1 on this task, but deploying 8-billion-parameter models imposes prohibitive memory, latency, and cost constraints. To identify more efficient alternatives, we conduct a deployment-focused study of 24 model variants spanning four model families: Gemma 3 (270M, 1B, 4B), Qwen 3.5 (0.8B, 2B, 4B), Aya (3.35B), and LLaMA 3.1-8B, systematically evaluating accuracy, inference throughput, training cost, and hardware behavior to assess production suitability. Our findings show that: (1) reproducing the LLaMA 3.1-8B fine-tune with a LoRA rank of 8 achieves 96.75% F1, only 0.20 points below the rank-32 baseline; (2) Qwen 3.5 4B with JSON-only prompting reaches 96.60% F1, within 0.35 points of the 8B baseline while using roughly half the parameters; (3) the 0.8B Qwen 3.5 model achieves 94.75% F1, matching models 2.5-4x larger and offering an attractive latency-accuracy trade-off; (4) chain-of-thought fine-tuning generally improves F1 by 0.3-1.8 points across most models, although Qwen 3.5 4B performs best with direct JSON-only prompting; and (5) Qwen 3.5 Think and Nothink training templates produce nearly identical results (F1 differences <0.004), indicating that explicit reasoning supervision is unnecessary for structured extraction tasks. We further deploy all 14 fine-tuned sub-8B models as Databricks Model Serving endpoints and observe that benchmark performance transfers reliably to production, with an average F1 change of only 0.8 points. Aya 3.35B, based on the Cohere2 architecture, is the sole exception, exhibiting a 3-5 point decline under serving conditions. Based on these results, we provide deployment recommendations across accuracy and latency requirements, ...
- Abstract(参考訳): 金融取引処理は、大規模に銀行取引文字列を短縮したノイズから構造化商情報を抽出する必要がある。
現在の生産システムであるLLaMA 3.1-8Bは96.95%のF1を実現していますが、8ビリオンパラメータモデルのデプロイではメモリ、レイテンシ、コストの制約が禁止されています。
より効率的な代替品を特定するため,Gemma 3 (270M, 1B, 4B), Qwen 3.5 (0.8B, 2B, 4B), Aya (3.35B), LLaMA 3.1-8B の4つのモデルファミリにまたがる24種類のモデル変種について,系統的に精度,推論スループット,トレーニングコスト,製造適性を評価する。
1) LLaMA 3.1-8Bファインチューンを8ランクで再現すると96.75% F1, ランク32ベースライン以下で0.20ポイント, (2) JSONのみのプロンプトを持つQwen 3.5 4Bは96.60% F1, 約半分のパラメータを使用しながら8Bベースラインの0.35ポイント以内, (3) 0.8B Qwen 3.5モデルは94.75% F1, マッチングモデル2.5-4x, 遅延精度の高いトレードオフを提供し, (4) チェーン・オブ・ファインチューニングは一般的にF1を0.3-1.8ポイント改善するが, Qwen 3.54BはJSONのみのプロンプトで最高である。
さらに、14の細調整されたサブ8BモデルをDatabricks Model Servingエンドポイントとしてデプロイし、ベンチマークのパフォーマンスが確実に本番環境に移行するのを観察します。
Cohere2アーキテクチャに基づくAya 3.35Bは唯一の例外であり、サービス条件下では3-5ポイントの低下を示す。
これらの結果に基づいて、正確さとレイテンシの要件にまたがったデプロイメントレコメンデーションを提供します。
関連論文リスト
- Compact SO(3) Equivariant Atomistic Foundation Models via Structural Pruning [4.793059213046564]
本稿では,SO(3)同変原子基盤モデルの構造解析法を提案する。
プルーニングはチャネルと順序次元に沿って適用され、各既約表現は完全なブロックとして保持または削除される。
プルーニングされたMACE-MPモデルは、マトベンチディスカバリーのリーダーボード上の9つの指標のうち7つで、公式のオフスクラッチトレーニングされた小さなモデルよりも優れています。
論文 参考訳(メタデータ) (2026-05-09T11:07:03Z) - Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents [0.4666493857924357]
複雑なマルチステップ環境において,推論時足場のみに追加のトレーニング計算を使わずに,小さなモデルの性能を向上させることができるかどうかを検討した。
我々は,AppWorldベンチマークのQwen3-8Bを,完全精度と4ビット量子化構成の両方で評価した。
本格的な推測では、私たちの足場付き8Bモデルは、オリジナルのAppWorld評価からDeepSeek-Coder 33Bインストラクション(7.1%)を上回っています。
論文 参考訳(メタデータ) (2026-04-13T13:40:33Z) - Gemma 4, Phi-4, and Qwen3: Accuracy-Efficiency Tradeoffs in Dense and MoE Reasoning Language Models [6.396911723204044]
Mixture-of-experts (MoE)言語モデルは、高密度モデルよりも優れた品質と効率のトレードオフをもたらすことがしばしば期待されている。
そこで本研究では,高密度および高密度なMoE設計にまたがる7つの推論指向命令調整モデルのベンチマークを示す。
論文 参考訳(メタデータ) (2026-04-08T12:50:52Z) - Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment [0.05586191108738562]
小型言語モデル(SLM)は、サブ秒、ゼロマージナルコスト、セルフホストタスクの分類に十分な推論能力を持つ。
Study 1はPhi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを同一のAzure T4ハードウェア、サービススタック、量子化、固定60ケースコーパスで同期したオフラインベンチマークである。
研究2は、合成トラフィック下で事前登録された4本腕ランダム化実験であり、有効サンプルサイズは腕あたり60ケースである。
論文 参考訳(メタデータ) (2026-03-26T15:57:46Z) - Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。