論文の概要: Olfactory-Inspired Sparse Combinatorial Coding for Low-Resource Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2606.21895v1
- Date: Sat, 20 Jun 2026 06:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:23:58.45224
- Title: Olfactory-Inspired Sparse Combinatorial Coding for Low-Resource Named Entity Recognition
- Title(参考訳): 低リソース名前付きエンティティ認識のための嗅覚インスピレーション付きスパースコンビネーション符号化
- Authors: Bhushan Deshpande,
- Abstract要約: 標準トークン埋め込みとBiLSTM-CRFシークエンスモデルの間には,受容体-球面ボトルネックが存在する。
データスケールの異なる条件下で、スクラッチから完全に訓練された6つの多言語データセット(事前訓練された埋め込みなしで)でアーキテクチャを評価する。
以上の結果から,表現ボトルネックの導入により,データ不足によるF1スコアの改善が期待できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) in low-resource languages suffers from limited supervision and a lack of high-quality pretrained embeddings. Biological olfaction, which relies on sparse combinatorial coding through receptor and glomerular organization, offers a compelling paradigm for learning robust representations under uncertainty. In this paper, we introduce a receptor-glomerular bottleneck - a novel, biologically-inspired olfactory architecture - between standard token embeddings and a BiLSTM-CRF sequence model. We evaluate our architecture across six multilingual datasets trained entirely from scratch (without pre-trained embeddings) under varied data-scale conditions, including a strict 1k-sentence low-resource control. Our results demonstrate that introducing a representation bottleneck yields F1 score improvements under severe data scarcity, primarily by acting as a powerful regularizer. Under the 1k capped training condition, at least one olfactory-inspired configuration achieves the highest mean F1 score across all six datasets. While these improvements represent near-ties with generic bottleneck controls for most languages, the olfactory architecture provides a significant advantage in languages like Bangla (+6.23% F1 over standard baseline and +8.47% F1 over the best control baseline) where generic bottlenecks degrade performance. We also observe improvements in the ultra-low-resource Telugu setting (+4.43% F1) at full-scale, and find that sparse specialization naturally emerges within the receptor layer. Our findings suggest that structured sparse coding inspired by olfactory networks serves as an effective inductive bias and regularizer when representations must be learned from limited or noisy supervision.
- Abstract(参考訳): 低リソース言語における名前付きエンティティ認識(NER)は、限られた監督と高品質な事前訓練型埋め込みの欠如に悩まされている。
受容体や糸球体組織を通した疎結合的なコーディングに依存している生物学的な嗅覚は、不確実性の下で堅牢な表現を学ぶための魅力的なパラダイムを提供する。
本稿では,標準トークン埋め込みとBiLSTM-CRFシークエンスモデルの間に,新規で生物学的に着想を得た嗅覚アーキテクチャである受容体-糸球体ボトルネックを導入する。
我々は、厳密な1k文の低リソース制御を含むさまざまなデータスケール条件下で、スクラッチから完全に訓練された6つの多言語データセットに対して、アーキテクチャを評価した。
この結果から,表現ボトルネックの導入はF1スコアの改善をもたらすことが示唆された。
1kのキャップ付きトレーニング条件の下では、少なくとも1つの嗅覚にインスパイアされた構成が、6つのデータセットの平均F1スコアを達成する。
これらの改善は、ほとんどの言語における一般的なボトルネックコントロールとほぼ関係があるが、嗅覚アーキテクチャは、一般的なボトルネックがパフォーマンスを低下させるBangla(標準ベースラインより+6.23% F1、最高のコントロールベースラインより+8.47% F1)のような言語において、大きな優位性を提供する。
また,超低リソースのTeluguセッティング(+4.43% F1)のフルスケールでの改善も観察した。
本研究は,嗅覚ネットワークにインスパイアされた構造的スパースコーディングが,表現を限定的あるいはノイズの多い監視から学ばなければならない場合に,効果的な帰納的バイアスおよび正規化要因となることを示唆している。
関連論文リスト
- IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources [1.022165439882148]
ペルシアの事前訓練言語モデル(PLM)は、大規模で高品質な事前訓練コーパスの不足により、依然として制限されている。
In this present IHUBERT, a monolingual Persian PLM training with the RoBERTa-base encoder (125M parameters) on a 45 GB curated subset of the Sepahr-Danesh collection。
IHUBERTは、NER、感情分析、トピック分類、NLI、抽出質問応答、関係抽出を含む7つのペルシャのNLUベンチマークで評価される。
論文 参考訳(メタデータ) (2026-06-18T11:10:22Z) - Rethinking Molecular OOD Generalization via Target-Aware Source Selection [10.102858221967791]
SCOPE-BENCHは、明示的な物理化学的記述空間におけるクラスタレベルのパーティショニングに基づいて構築されたベンチマークである。
POMAは、知識伝達を検索-合成-適応パイプラインとして定式化するフレームワークである。
SCOPE-BENCHにおける最先端の3D分子モデルの予測誤差は平均5.9倍である。
論文 参考訳(メタデータ) (2026-05-13T16:09:46Z) - Open-Set Vein Biometric Recognition with Deep Metric Learning [0.0]
我々は厳密なオープンセット制約の下でDeep Metric Learning(DML)の計算境界を厳格に評価する。
提案手法は,非ネイティブなL2正規化埋め込みを学習し,類似性しきい値を用いたプロトタイプベースマッチングを採用する。
大規模MMCBNU 6000ベンチマークでは、我々の最良のモデル(ResNet50-CBAM)がOSCR 0.9945、AUROC 0.9974、EER 1.57%を達成し、高い識別精度 (99.6% Rank-1) を維持しながら、未知の被験者を頑健に拒否する。
論文 参考訳(メタデータ) (2026-04-16T11:03:11Z) - Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - Named Entity Recognition for the Kurdish Sorani Language: Dataset Creation and Comparative Analysis [1.0499611180329804]
この研究は、自然言語処理技術の傾きとグローバルな適用性のバランスに寄与する。
このデータセットは、低リソースで低表現の言語であるKurdish Soraniのための最初の 'name entity recognition' データセットを提案する。
論文 参考訳(メタデータ) (2025-11-27T10:46:11Z) - Federated Learning for ICD Classification with Lightweight Models and Pretrained Embeddings [0.9668407688201359]
本研究では,多ラベルICD符号分類におけるフェデレート学習の有効性と性能について検討した。
本稿では, シンプルな多層パーセプトロン(MLP)分類器と凍結したテキスト埋め込みを組み合わせたスケーラブルなパイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-03T18:58:36Z) - You Are Your Own Best Teacher: Achieving Centralized-level Performance in Federated Learning under Heterogeneous and Long-tailed Data [54.56492110703343]
局所的な非IIDデータとグローバルな長期分布から生ずるデータ不均一性は、連邦学習(FL)における大きな課題である
弱い局所サンプルと強い局所サンプルの知識を蒸留し,表現学習を改善するためにFedYoYoを提案する。
我々は、FedYoYoが最先端の結果を達成し、グローバルな長期的設定の下で集中ロジット調整手法を5.4%超えたことを示します。
論文 参考訳(メタデータ) (2025-03-10T04:57:20Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。