論文の概要: From Genes to Tokens: a GWAS-inspired Approach for Interpretable Stylometric Analysis
- arxiv url: http://arxiv.org/abs/2606.09543v2
- Date: Tue, 09 Jun 2026 09:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.824993
- Title: From Genes to Tokens: a GWAS-inspired Approach for Interpretable Stylometric Analysis
- Title(参考訳): 遺伝子からトークンへ:GWASにインスパイアされた解釈型スティロメトリ解析のためのアプローチ
- Authors: Dmitry Pronin, Evgeny Kazartsev,
- Abstract要約: 方法は英語、ドイツ語、ロシア語のコーパスに適用される。
それぞれの"gen"トークンと"phenotype"オーサシップの関連性をテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This short paper introduces a stylometric interpretation method inspired by genome-wide association studies (GWAS). Each "gene" token's association with "phenotype" authorship is tested using logistic regression with multiple-comparison correction. Applied to English, German, and Russian corpora, the method detects statistically significant lexical markers distinctive of individual authors.
- Abstract(参考訳): 本稿では,ゲノムワイド・アソシエーション研究(GWAS)に触発された構造的解釈手法を提案する。
それぞれの「遺伝子」トークンと「フェノタイプ」の著者との関係は、多重比較補正によるロジスティック回帰を用いて検証される。
この方法は英語、ドイツ語、ロシア語のコーパスに適用され、個々の著者特有の統計的に重要な語彙を検知する。
関連論文リスト
- A Subword Embedding Approach for Variation Detection in Luxembourgish User Comments [2.4384521157164345]
本稿では,事前正規化や事前定義された変分リストに頼ることなく,変分を検出するための埋め込み型アプローチを提案する。
この方法は、コサインとn-gramの類似性の組み合わせにより、原文およびグループ関連フォームへのサブワード埋め込みを訓練する。
ルクセンブルク語のユーザーコメントの大規模なコーパスを用いて、このアプローチは方言や社会言語学の研究で記述されたパターンと一致する広範な語彙的および正書法的なバリエーションを明らかにする。
論文 参考訳(メタデータ) (2026-02-12T10:19:50Z) - Beyond cognacy [0.21756081703275998]
2つの完全に自動化された手法を比較し、語彙データから直接系統情報を抽出する。
以上の結果から,MSAに基づく推論は,より言語分類に整合し,タイプロジカルな変異を予測し,より明確な系統的シグナルを与えることがわかった。
論文 参考訳(メタデータ) (2025-07-02T06:47:34Z) - Interpretable Graph Kolmogorov-Arnold Networks for Multi-Cancer Classification and Biomarker Identification using Multi-Omics Data [36.92842246372894]
Multi-Omics Graph Kolmogorov-Arnold Network (MOGKAN)は、メッセンジャーRNA、マイクロRNA配列、DNAメチル化サンプルを利用するディープラーニングフレームワークである。
グラフに基づく深層学習とマルチオミクスデータを統合することにより,提案手法は頑健な予測性能と解釈可能性を示す。
論文 参考訳(メタデータ) (2025-03-29T02:14:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - FACE: Evaluating Natural Language Generation with Fourier Analysis of
Cross-Entropy [5.0025118866961975]
モデル生成言語と人文言語との類似度を測定するための指標であるFACEを提案する。
オープンエンド生成タスクと過去の研究による実験データから,FACEが人-モデルギャップを効果的に識別できることが判明した。
論文 参考訳(メタデータ) (2023-05-17T15:44:57Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Natural language processing for clusterization of genes according to
their functions [62.997667081978825]
本稿では,数千の遺伝子の解析を減らし,複数のクラスタの解析を行うアプローチを提案する。
これらの記述は、事前訓練された言語モデル(BERT)といくつかのテキスト処理アプローチを用いてベクトルとして符号化される。
論文 参考訳(メタデータ) (2022-07-17T12:59:34Z) - Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and
Approaches to Modeling [2.741266294612776]
非同化語彙借入に富んだスペイン語ニュースワイヤの注釈付きコーパスを導入する。
我々は,CRF,BiLSTM-CRF,Transformer-basedモデルなど,複数のシーケンスラベリングモデルがどのように動作するかを評価する。
論文 参考訳(メタデータ) (2022-03-30T09:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。