論文の概要: Data-Driven Decoding of Russell's Circumplex Model of Affect
- arxiv url: http://arxiv.org/abs/2606.16843v1
- Date: Mon, 15 Jun 2026 15:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.663939
- Title: Data-Driven Decoding of Russell's Circumplex Model of Affect
- Title(参考訳): ラッセルの効用円積モデルのデータ駆動復号法
- Authors: Amdjed Belaref, Samir Sadok, Zineb Noumir, Renaud Seguier,
- Abstract要約: 本稿ではトランスフォーマーの埋め込みがラッセルの複素モデルの幾何学的正則性を取り戻すかどうかを考察する。
テキストと音声のマルチモーダル融合は ラッセルの第一の感情の順序と 完全なトポロジカルアライメントをもたらす
私たちの貢献は、感情モデルを検証するための、新しくてデータ駆動のフレームワークです。
- 参考スコア(独自算出の注目度): 1.3066182802188202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affective computing increasingly relies on deep learning to represent emotions, yet latent spaces often remain opaque, high-dimensional black boxes. This paper investigates whether Transformers' embeddings recover the geometric regularities of Russell's circumplex model. We unify two complementary experiments testing the hypothesis that, after training models on text and speech, their resulting latent spaces encode a topology consistent with valence-arousal and reproduce human-like neighborhood relations. Specifically, we evaluate deep representations extracted from Transformer-based text (RoBERTa) and speech (wav2vec 2.0) encoders, along with a multimodal Transformer fusion architecture, across naturalistic datasets like MSP-Podcast and controlled LLM-generated stimuli. Our analysis reveals that multimodal fusion of text and audio yields perfect topological alignment with Russell's primary emotion ordering. Furthermore, in a zero-shot setting using generic text embeddings, projected fine-grained emotion terms fall close to their established human-mapped coordinates. Our contribution is a novel, data-driven framework for validating emotion models, demonstrating that Russell's circumplex structure is intrinsically encoded in the embeddings of these modalities rather than being solely an artifact of human labeling, thereby bridging the gap between psychological theory and representation learning.
- Abstract(参考訳): Affective Computingは、感情を表現するためにディープラーニングにますます頼っているが、潜伏空間はしばしば不透明で高次元のブラックボックスのままである。
本稿ではトランスフォーマーの埋め込みがラッセルの複素モデルの幾何学的正則性を取り戻すかどうかを考察する。
我々は、テキストと音声のモデルを訓練した後、それらの潜在空間は、原子価-覚醒関係と整合した位相を符号化し、人間のような近傍関係を再現するという仮説を検証した2つの相補的な実験を統一する。
具体的には,Transformer-based text (RoBERTa) と speech (wav2vec 2.0) エンコーダから抽出した深層表現と,マルチモーダルなTransformer fusion Architecture を用いて,MSP-Podcast や LLM 生成刺激などの自然的データセット間での深部表現を評価する。
分析の結果,テキストと音声のマルチモーダル融合は,ラッセルの主感情順序と完全なトポロジカルアライメントをもたらすことがわかった。
さらに、ジェネリックテキスト埋め込みを用いたゼロショット設定では、投影された微粒な感情用語は、確立された人間マップ化された座標に近づく。
我々の貢献は、感情モデルを検証するための新しい、データ駆動のフレームワークであり、ラッセルの概略構造が、単に人間のラベル付けの人工物であるのではなく、本質的にこれらのモダリティの埋め込みにエンコードされていることを実証し、心理的理論と表現学習のギャップを埋める。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - Where meaning lives: Layer-wise accessibility of psycholinguistic features in encoder and decoder language models [1.4323566945483497]
明らかな意味の局所化は、強いメソッド依存であることがわかった。
これらの違いにもかかわらず、モデルは意味次元の共有深度順序を示す。
これらの結果から,トランスフォーマーモデルにおける「生き」の意味は,方法論的選択とアーキテクチャ的制約との相互作用を反映していることがわかった。
論文 参考訳(メタデータ) (2026-01-07T10:55:04Z) - Topoformer: brain-like topographic organization in Transformer language models through spatial querying and reweighting [0.8411385346896413]
そこで我々は,トランスフォーマーを「トポフォーマー」に転換する新たな自己注意方式を提案する。
NLPベンチマークの非トポロジ制御モデルと同等に動作するが、解釈可能なトポロジ組織を生成する。
論文 参考訳(メタデータ) (2025-10-21T15:54:57Z) - Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Improving the Generalizability of Text-Based Emotion Detection by
Leveraging Transformers with Psycholinguistic Features [27.799032561722893]
本稿では,両方向長短期記憶(BiLSTM)ネットワークと変換器モデル(BERT,RoBERTa)を併用したテキストベースの感情検出手法を提案する。
提案したハイブリッドモデルでは,標準的なトランスフォーマーベースアプローチと比較して,分布外データへの一般化能力の向上が期待できる。
論文 参考訳(メタデータ) (2022-12-19T13:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。