論文の概要: Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation
- arxiv url: http://arxiv.org/abs/2606.18389v1
- Date: Tue, 16 Jun 2026 18:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.8491
- Title: Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation
- Title(参考訳): より良い合成データが欲しいか? ステアリング:低リソース言語生成のためのアクティベーションステアリング
- Authors: Jan Cegin, Daniil Gurgurov, Yusser Al Ghussin, Simon Ostermann,
- Abstract要約: 現在の最高のパフォーマンスのアプローチは、典型的には、ターゲット言語の例を使って、数発のプロンプトに頼っている。
本研究では,言語の言語的アイデンティティを目標とする言語ステアリングと,人間の書き起こしたテキスト表現と裏書きしたテキスト表現とを対比して,良質な表現を捉える品質ステアリングという2つのステアリング戦略について検討する。
- 参考スコア(独自算出の注目度): 3.4147576032954734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have become an effective tool for synthetic data generation, including for low-resource languages, where generated data can improve downstream task performance. Current best-performing approaches typically rely on few-shot prompting with target-language examples, which increases inference costs and may reduce diversity through lexical anchoring. In this work, we investigate activation steering as an alternative for low-resource synthetic data generation. We study two steering strategies: Language Steering, which targets the linguistic identity of a language, and Quality Steering, which captures well-formedness by contrasting human-written and backtranslated text representations. We evaluate these methods across four open-source LLMs, multiple layers, and 11 typologically diverse languages by generating sentiment and topic classification data and finetuning smaller classifiers. Steering is applied in both zero-shot and few-shot prompting settings and compared against non-steered counterparts. Our results show that steering on early layers consistently improves the diversity of generated data while often yielding stronger downstream model performance, particularly for low-resource languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ダウンストリームタスクのパフォーマンスを改善するために、低リソース言語を含む、合成データ生成に有効なツールとなっている。
現在の最高のパフォーマンスのアプローチは、典型的には、推論コストを増大させ、語彙的アンカーによって多様性を低下させる、ターゲット言語例による数発のプロンプトに依存している。
本研究では,低リソース合成データ生成の代替手段として,アクティベーションステアリングについて検討する。
本研究では,言語の言語的アイデンティティを目標とする言語ステアリングと,人間の書き起こしたテキスト表現と裏書きしたテキスト表現とを対比して,良質な表現を捉える品質ステアリングという2つのステアリング戦略について検討する。
我々はこれらの手法を,感情や話題の分類データを生成し,より小さな分類器を微調整することによって,4つのオープンソースLLM,複数層,11のタイプ的多様言語で評価する。
ステアリングはゼロショットと少数ショットのプロンプト設定の両方に適用され、非ステアリング設定と比較される。
以上の結果から,初期の階層でのステアリングは生成データの多様性を常に向上する一方で,低リソース言語ではより強力なダウンストリームモデル性能が得られることが示唆された。
関連論文リスト
- CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language [10.19354135187181]
我々は,低リソース汎用言語であるCangjieの汚染のないベンチマークであるCangjieBenchを紹介する。
ベンチマークは、HumanEvalとClassEvalから手作業で翻訳された248の高品質なサンプルで構成されている。
実験の結果、ダイレクトジェネレーションは性能が悪く、シンタクス制約ジェネレーションは精度と計算コストの最良のトレードオフを提供することがわかった。
論文 参考訳(メタデータ) (2026-03-15T17:35:03Z) - Language Drift in Multilingual Retrieval-Augmented Generation: Characterization and Decoding-Time Mitigation [11.110312833458421]
複数のデータセット,言語,LLMのバックボーンにまたがる多言語RAGにおける出力言語ドリフトについて検討した。
実験の結果,デコーダレベルの崩壊によるドリフトの結果が明らかとなり,そこではトークン分布が支配的であり,高頻度の英文パターンが意図された生成言語を支配下に置くことがわかった。
そこで本研究では,対象言語を優雅に操る軽量でトレーニング不要なデコーディング戦略であるSoft Constrained Decoding (SCD)を提案する。
論文 参考訳(メタデータ) (2025-11-13T05:36:31Z) - MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。
このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-02-25T08:53:27Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。