論文の概要: Do LLM Embedding Spaces Recover Expert Structure?
- arxiv url: http://arxiv.org/abs/2606.23394v1
- Date: Mon, 22 Jun 2026 14:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 19:20:37.500209
- Title: Do LLM Embedding Spaces Recover Expert Structure?
- Title(参考訳): LLM埋め込みスペースは専門家構造を回復するか?
- Authors: Yixuan Zhu, Zhenke Duan, Fanghen Li,
- Abstract要約: 28のRedditコミュニティを2つのスケールで比較した。
プレトレーニングされた埋め込みは、メンタルヘルスサブセット内の専門家構造と測定可能なアライメントを示す。
このリカバリはレベルに依存しており、分類のみから推測されるのではなく、明示的なコンファウンドに対してテストされるべきである。
- 参考スコア(独自算出の注目度): 3.774806411089155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained text embeddings are increasingly used as representational maps, yet high category separability does not imply that their geometry recovers expert-defined structure. We study this problem in mental-health-related language, where symptom relations provide an external reference and online communities introduce strong domain, affective, stylistic, and discourse confounds. Using 28 Reddit communities, we compare pretrained and supervised fine-tuned Qwen3 embedding spaces at two scales (0.6B and 4B). We construct category prototypes, evaluate their representational dissimilarity matrices against an expert symptom matrix with representational similarity analysis, and complement this global test with prototype-based typicality and multi-baseline confound controls. Pretrained embeddings show measurable alignment with expert structure within the mental-health subset; fine-tuning strengthens this alignment most at the finest category level; and larger scale improves both zero-shot alignment and supervision-induced gains. Residual alignment remains substantial after controlling for VAD, LIWC, lexical style, and topic-distribution structure. These results suggest that LLM embeddings can recover expert-relevant category geometry, but this recovery is level-dependent and should be tested against explicit confounds rather than inferred from classification alone.
- Abstract(参考訳): 事前制約されたテキスト埋め込みは、表現地図としてますます使われるが、高いカテゴリ分離性は、それらの幾何学が専門家が定義した構造を復元することを意味するものではない。
我々は、この問題を精神保健関連言語で研究し、症状関係が外部参照を提供し、オンラインコミュニティが強いドメイン、感情的、スタイリスティック、談話の相違を導入している。
28のRedditコミュニティを用いて、2つのスケール(0.6Bと4B)で、事前訓練および教師付き微調整されたQwen3埋め込みスペースを比較した。
我々は,カテゴリのプロトタイプを構築し,その表現的相似性行列を表現的類似性分析を用いて専門家の症状行列に対して評価し,このグローバルテストをプロトタイプベースの典型とマルチベースラインの相似性制御で補完する。
プレトレーニングされた埋め込みは、メンタルヘルスサブセット内の専門家構造と測定可能なアライメントを示し、微調整は最も優れたカテゴリレベルでこのアライメントを強化し、より大きなスケールはゼロショットアライメントと監督によって引き起こされるゲインの両方を改善する。
VAD, LIWC, レキシカルスタイル, トピック・ディストリビューション構造を制御した後も, 残留アライメントは重要なままである。
以上の結果から, LLM の埋め込みは, 専門的関連カテゴリの幾何を復元することができるが, この回復はレベル依存であり, 分類のみから推定されるのではなく, 明示的なコンファウンドに対して検証されるべきであると考えられる。
関連論文リスト
- From Holistic Evaluation to Structured Criteria: Rubrics Across the Evolving LLM Landscape [79.30826980815927]
ルーブリックは、複雑な品質判断を構造化され、実行可能な標準に変換する明示的な基準セットです。
我々は,既存のルーリックデザインを体系的に整理し,その構築と最適化を検証し,評価と訓練をまたいだ役割を解析する。
論文 参考訳(メタデータ) (2026-06-07T13:34:55Z) - Group-Aware Matrix Estimation and Latent Subspace Recovery [4.619828919345115]
Group-Aware Matrix Estimation (GAME) は、サブグループ単位の低ランク行列を重畳する凸推定器である。
GAMEはサブグループ認識の正規化によって再構成精度と潜在部分空間の忠実度が向上する構造的欠落機構において最も有益であることを示す。
論文 参考訳(メタデータ) (2026-05-19T23:22:32Z) - Online Continual Learning with Dynamic Label Hierarchies [72.33335166136045]
粒度をまたいで重大度が進化する新しい問題設定であるDHOCLを導入し,各サンプルは単一階層レベルでの監視を行う。
i) 混合粒度の部分的監視は、塑性を制約し、階層間のセマンティック一貫性を損なう、進化するパスワイド階層上のポイントワイド信号のみを提供する。
本稿では,相補的分類を適応的に組み合わせ,学習可能な階層型プロトタイプによって正規化し,素早い適応,階層的整合性,構造的知識の統合を可能にするHALOを提案する。
論文 参考訳(メタデータ) (2026-05-12T08:20:23Z) - Refold: Refining Protein Inverse Folding with Efficient Structural Matching and Fusion [17.46770853528419]
逆フォールディングは、特定のバックボーン構造に折り畳むアミノ酸配列を設計することを目的としている。
データベースに基づく構造的事前の強みとディープラーニング予測を統合した,新たなフレームワークであるRefoldを紹介する。
我々はRefoldが標準ベンチマークで0.63の最先端のネイティブシークエンスリカバリを実現することを示す。
論文 参考訳(メタデータ) (2026-03-15T12:36:18Z) - Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Understanding Imbalanced Semantic Segmentation Through Neural Collapse [81.89121711426951]
セマンティックセグメンテーションは自然に文脈的相関とクラス間の不均衡分布をもたらすことを示す。
機能中心にレギュレータを導入し、ネットワークが魅力ある構造に近い機能を学ぶことを奨励する。
我々の手法は、ScanNet200テストリーダーボードで1位にランクインし、新しい記録を樹立する。
論文 参考訳(メタデータ) (2023-01-03T13:51:51Z) - An Intermediate-level Attack Framework on The Basis of Linear Regression [89.85593878754571]
本論文はECCVにおいて,いくつかのベースライン対向例の転送性を改善するため,中間レベルアタック(中間レベルアタック)を提案し,本研究を実質的に拡張するものである。
我々は,中間レベルの相違点(対角的特徴と良性的特徴)から,対角的例の分類的損失への直接的な線形写像の確立を提唱する。
1) 様々な線形回帰モデルがマッピングを確立するために考慮可能であること,2) 最終的に得られた中間レベル差の大きさが逆転率と線形に相関していること,3) ベースラインアタックを複数回実行することで,さらなる性能向上が達成できること,などが示される。
論文 参考訳(メタデータ) (2022-03-21T03:54:53Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - HUMAP: Hierarchical Uniform Manifold Approximation and Projection [40.77787659104315]
HUMAPは、局所的・大域的構造の保存に柔軟であるように設計された、新しい階層的次元削減技術である。
提案手法の優位性を示す実証的証拠を現在の階層的アプローチと比較し,データセットラベリングにHUMAPを適用したケーススタディを示す。
論文 参考訳(メタデータ) (2021-06-14T19:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。