論文の概要: Protein-Based Fish Species Identification: Dataset, Models, and Insights from Native Bangladeshi Fish
- arxiv url: http://arxiv.org/abs/2606.18302v1
- Date: Tue, 16 Jun 2026 06:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.803147
- Title: Protein-Based Fish Species Identification: Dataset, Models, and Insights from Native Bangladeshi Fish
- Title(参考訳): タンパクによる魚種同定 : バングラデシュ原産魚類のデータセット, モデルおよび知見
- Authors: Md Nasiat Hasan Fahim, Md. Abid Ullah Muhib, Mohammad Shahidur Rahman,
- Abstract要約: 魚種の正確な識別は、バングラデシュの食料安全保障、経済発展、気候回復に非常に重要である。
しかし、タンパク配列からバングラデシュ原産魚種を同定するためのベンチマークは存在しない。
バングラデシュ原産魚9種2845種のタンパク質配列について,第1回キュレートデータセットについて紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correct identification of fish species is highly significant for food security, economic development, and climate resilience in Bangladesh. Protein sequences directly reflect functional and evolutionary constraints which are important for species authentication and biodiversity monitoring. Yet there exists no benchmark for native Bangladeshi fish species identification from protein sequence. In this study, we addressed this gap by introducing the first curated dataset for nine native Bangladeshi fish species of 2845 high quality protein sequences. We also established the first protein sequence classification baseline for this domain through a systematic benchmarking of seven architectural paradigms. Moreover, we propose a realistic deployable novel hybrid architecture of MotifCNN and Transformer with Terminal-Aware Positional-Encoding (MotifCNN-Transformer+TA-PE). Our novel architecture achieves 79.80% accuracy with macro-F1 of 0.80. The highest 83.04% accuracy is achieved by finetuned protein language model ProtBERT that has 420M parameters and requires dual 16GB GPUs for inference. According to McNemar's test, ProtBERT's 3.24% accuracy gain over our MotifCNN-Transformer+TA-PE is statistically insignificant (p = 0.1120). Our novel architecture beats it among six of the nine classes in per class identification. Also our MotifCNN-Transformer+TA-PE is approximately 5x faster, 42x smaller, and supports 16x larger batch size than ProtBERT and has GPU free inference, making it more practical for deployment in resources constrained areas such as rural Bangladesh. Beyond this, our foundational work shows effects of phylogenetic relationships on sequence similarity and establishes pathways for fisheries management, food authentication and biodiversity conservation in South Asia's protein dependent economy.
- Abstract(参考訳): 魚種の正確な識別は、バングラデシュの食料安全保障、経済発展、気候回復に非常に重要である。
タンパク質配列は、種認証と生物多様性モニタリングにおいて重要な機能的および進化的制約を直接反映する。
しかし、タンパク配列からバングラデシュ原産魚種を同定するためのベンチマークは存在しない。
本研究では,バングラデシュ原産魚9種2845種を対象に,第1回キュレートデータセットを導入することにより,このギャップに対処した。
また,7つのアーキテクチャパラダイムの体系的ベンチマークにより,この領域における最初のタンパク質配列分類ベースラインを構築した。
さらに,MatiifCNN と Transformer に端末対応の位置エンコーディング(MotifCNN-Transformer+TA-PE)を併用した,現実的なデプロイ可能な新しいハイブリッドアーキテクチャを提案する。
我々の新しいアーキテクチャは79.80%の精度でマクロF1が0.80である。
最も高い83.04%の精度は、微調整されたタンパク質言語モデルであるProtBERTによって達成される。
McNemarのテストによると、我々のMotifCNN-Transformer+TA-PEに対するProtBERTの3.24%の精度は統計的に重要ではない(p = 0.1120)。
私たちの新しいアーキテクチャは、クラス単位の9つのクラスのうち6つでそれを打ち負かしています。
また、MotifCNN-Transformer+TA-PEは、約5倍速く、42倍小さく、ProtBERTの16倍のバッチサイズをサポートし、GPUフリー推論を備えています。
さらに,本研究の基礎研究は,南アジアのタンパク質依存経済において,系統的類似性に対する系統的関係の影響を示し,漁業管理,食品認証,生物多様性保全のための経路を確立するものである。
関連論文リスト
- The Whale That Outswam Evolution: Swarm Intelligence Maximises Memory in Connectome Reservoirs [0.19116784879310025]
貯留層計算は、時間的処理のためにリカレントネットワークの固定されたダイナミクスを利用しており、訓練された線形読み出ししか必要としない。
我々は6種にわたるコネクトームベースのエコー状態ネットワークのエッジ重みに4つの勾配のないバイオインスパイアされたオプティマイザを適用した。
各コネクトームは、メモリ容量、ローレンツ引力予測、NARMA-10システム識別、マッキーグラスカオス時系列予測の4つの標準貯水池計算ベンチマークで評価される。
4つのオプティマイザは、生物の重量から初期化されると、すべてのタスクや種において、最適化されていない生物学的ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-06-05T13:59:23Z) - ViroBench: Benchmarking Nucleotide Foundation Models on Viral Genomics Tasks [86.89727311669937]
我々は、ヌクレオチド基礎モデル(NFM)に特化して設計された最初の包括的かつ大規模ベンチマークであるViroBenchを紹介する。
ViroBench氏は、生物学的理解と潜伏するバイオセキュリティリスクという、2つの重要な側面にわたるモデルを評価し、4つのタスクタイプ内の18のさまざまなシナリオをカバーしている。
ViroBenchは、ウイルスヌクレオチド基盤モデルの研究のための解釈可能、診断的評価および再現可能な測定フレームワークを提供する。
論文 参考訳(メタデータ) (2026-05-25T03:31:46Z) - ProtSent: Protein Sentence Transformers [6.657830371527077]
タンパク質言語モデル (pLM) は、進化的および構造的情報をキャプチャする残基ごとの表現を生成する。
本稿では、PLMを汎用埋め込みモデルに適応させるための対照的な微調整フレームワークであるProtSent(ProtSent)を提案する。
論文 参考訳(メタデータ) (2026-05-07T18:33:49Z) - Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - BarcodeMamba: State Space Models for Biodiversity Analysis [14.524535359259414]
BarcodeMambaは、生物多様性分析におけるDNAバーコードのパフォーマンスと効率的な基礎モデルである。
本研究は,BarcodeMambaがパラメータの8.3%しか使用していない場合でも,BarcodeBERTよりも優れた性能を示した。
スケーリング調査では、BarcodeBERTのパラメータの63.6%のBarcodeMambaが、1-nearest neighbor(1-NN)探索で70.2%の遺伝子レベルの精度を達成した。
論文 参考訳(メタデータ) (2024-12-15T06:52:18Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - On the Robustness of AlphaFold: A COVID-19 Case Study [16.564151738086434]
高い精度にもかかわらず、AlphaFoldはそのような堅牢性を示していないことを実証する。
これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。
論文 参考訳(メタデータ) (2023-01-10T17:31:39Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。