論文の概要: Sub-Billion, Super-Frontier: Small Language Models Rival Zero-Shot Frontier LLMs on General and Literary Relation Extraction
- arxiv url: http://arxiv.org/abs/2606.22606v1
- Date: Sun, 21 Jun 2026 17:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:26:03.435044
- Title: Sub-Billion, Super-Frontier: Small Language Models Rival Zero-Shot Frontier LLMs on General and Literary Relation Extraction
- Title(参考訳): サブビリオン, スーパーフランティア: 汎用的・文学的関係抽出に基づく小言語モデルを用いたゼロショットフロンティアLLM
- Authors: Despina Christou, Grigorios Tsoumakas,
- Abstract要約: 大言語モデル(LLM)は強い関係抽出(RE)を実現する
本研究では,小言語モデル(SLM)が汎用ドメインと文学テキスト間のギャップをいかに埋めるかを考察する。
- 参考スコア(独自算出の注目度): 5.070542698701158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong relation extraction (RE), but their computational demands and reliance on proprietary APIs limit deployment in resource-constrained or privacy-sensitive settings. We investigate how far small language models (SLMs) can close this gap across general-domain and literary text. We evaluate five models from 360M to 3B parameters under three domain-composition regimes and two prompt-conditioned tuning styles (30 configurations), comparing them with zero-shot frontier LLMs and a discriminative RoBERTa baseline. Across nine benchmarks, the best sub-billion model, Qwen2.5-0.5B fine-tuned on pooled general-domain data, achieves a general-domain positive-class micro-F1 of 0.83, versus 0.69 for GPT-5.4 and 0.66 for Claude Sonnet 4.6 evaluated zero-shot. This does not imply that SLMs are intrinsically stronger; rather, targeted task adaptation enables 4-bit models deployable on a single consumer GPU to outperform general-purpose frontier systems under this protocol. An in-domain RoBERTa baseline also exceeds both frontier models, indicating that the gain stems from task adaptation rather than generative decoding. On literary RE, tuned SLMs reach 0.92 on the human-annotated Biographical benchmark versus 0.83 for GPT-5.4, and 0.833 versus 0.578 on the two-benchmark literary average. A targeted domain-adaptive pretraining case study yields no practically meaningful gain over supervised fine-tuning, while the cleanest within-family scale comparison shows only marginal improvement. These results show that, when task-specific data are available, compact task-adapted models can provide accurate, private, and hardware-efficient RE.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力な関係抽出(RE)を実現するが、その計算要求とプロプライエタリAPIへの依存により、リソース制約やプライバシに敏感な設定でのデプロイメントが制限される。
本研究では,小言語モデル(SLM)が汎用ドメインと文学テキスト間のギャップをいかに埋めるかを考察する。
3つのドメイン構成規則と2つのプロンプト条件のチューニングスタイル(30構成)に基づいて、360Mから3Bパラメータの5つのモデルを評価し、ゼロショットフロンティアLLMと識別可能なRoBERTaベースラインと比較した。
9つのベンチマークのうち、最も優れたサブビリオンモデルであるQwen2.5-0.5Bは、プールされた汎用ドメインデータに基づいて微調整され、一般ドメインの正クラスマイクロF1が0.83であるのに対して、GPT-5.4は0.69、Claude Sonnet 4.6は0ショットである。
これは、SLMが本質的に強いという意味ではなく、ターゲットとなるタスク適応により、単一のコンシューマGPU上にデプロイ可能な4ビットモデルで、このプロトコルの下で汎用フロンティアシステムを上回るパフォーマンスを実現している。
ドメイン内のRoBERTaベースラインも両方のフロンティアモデルを超えており、ゲインは生成的デコードではなくタスク適応に由来することを示している。
文芸REでは、注釈付き伝記のベンチマークでは0.92点、GPT-5.4では0.83点、文芸平均では0.833点、文芸平均では0.578点である。
対象としたドメイン適応型プレトレーニングケーススタディは、教師付き微調整よりも実質的に有意義な利得を得られず、最もクリーンな家庭内スケール比較は、限界的な改善しか示さない。
これらの結果から,タスク固有データが利用できる場合,コンパクトなタスク適応モデルにより,正確でプライベートでハードウェア効率のよいREが得られることがわかった。
関連論文リスト
- Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment [53.72927532626824]
わずか50個のサンプル(0.3%のデータ)のサブセットは、完全なベンチマークスコアと0.93以上のピアソン相関を達成可能であることを示す。
選好をより良く予測するために、選択したサブセットの回帰モデルを訓練し、0.98の相関を達成した。
これは回帰モデリングにおいて、よく計算されたサブセットが完全なベンチマークを予測し、量を超える品質を示すことを示している。
論文 参考訳(メタデータ) (2026-04-20T00:57:31Z) - PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis [0.0]
大規模言語モデル(LLM)は、自然言語の理解と生成において高い性能を示すが、通信顧客サポートにおけるドメイン固有の制約に対する評価と適応は依然として限られている。
本稿では,Qwen2.5-3Bに適用された低ランク適応(LoRA)を用いたパラメータ効率細調整(PEFT)の系統的研究を行い,ドメイン固有の対話アシスタントを構築する。
Gemini Geminiを動力とする生成パイプラインを通じて,1,560の異なる問題シナリオに対して約30,000のトレーニング例を生成する。
論文 参考訳(メタデータ) (2026-04-17T09:56:18Z) - Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali [0.0]
ネパール語はラテン文字で書かれたネパール語であり、ネパールにおける非公式なデジタルコミュニケーションの主流となっている。
本研究では、3つの同等サイズのオープンウェイトモデルにまたがる言語適応の系統的ベンチマークを示す。
論文 参考訳(メタデータ) (2026-03-25T07:02:51Z) - How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation [0.4349640169711269]
ビエリク・ガード(英語: Bielik Guard)は、ポーランド語の安全分類法である。
ポーランドの6,885のテキストからなるコミュニティアノテーション付きデータセットに基づいて、これらのモデルは、Hate/Aggression、Vulgarities、Sexual Content、Crith、Self-Harmという5つの安全カテゴリのコンテンツを分類する。
論文 参考訳(メタデータ) (2026-02-08T12:57:04Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。