論文の概要: Data Evolution by Wittgenstein's Rule Following
- arxiv url: http://arxiv.org/abs/2606.22674v1
- Date: Sun, 21 Jun 2026 21:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:40:35.444472
- Title: Data Evolution by Wittgenstein's Rule Following
- Title(参考訳): ウィトゲンシュタインの法則によるデータ進化
- Authors: Aydin Ghojogh, Benyamin Ghojogh,
- Abstract要約: Wittgenstein's Rule following (WRF)は、以前に観測されたデータセットのシーケンスから新しいデータセットを進化または生成するためのフレームワークである。
WRFは、各データセットをポイントワイド対応ではなく、構造記述子で表現する。
提案するフレームワークでは,サンプルサイズと機能寸法が時間とともに変化すると同時に,次のデータセットが最後のデータセットの直接的な変換であると仮定することができない。
- 参考スコア(独自算出の注目度): 0.08594140167290097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Wittgenstein's Rule Following (WRF) data evolution, a framework in philomatics for evolving or generating a new dataset from a sequence of previously observed datasets. The method is inspired by Ludwig Wittgenstein's rule-following considerations and his notion of family resemblance in Philosophical Investigations. Unlike standard synthetic data generation, where the goal is usually to sample from or augment a fixed distribution, WRF aims to continue the implicit rule expressed by a historical sequence of datasets while preserving resemblance to the previous datasets. WRF represents each dataset by structural descriptors rather than pointwise correspondences. These descriptors summarize geometric, distributional, clustering, and, in the supervised case, label-based properties of the data. The method predicts a rule-following target by extrapolating descriptor trajectories and a family-resemblance target by averaging historical descriptors. Candidate datasets are then generated from the observed history through balanced or bounded mixture recombination, scored according to these targets, and optionally refined through differentiable optimization in descriptor space. The proposed framework allows both sample size and feature dimension to vary over time and does not assume that the next dataset is a direct transformation of the last one. Simulations on synthetic and image datasets show that WRF can generate meaningful continuations of evolving datasets in both unsupervised and supervised settings.
- Abstract(参考訳): 本稿ではWittgenstein's Rule Following (WRF) データ進化について紹介する。これは、以前に観測されたデータセットのシーケンスから新しいデータセットを進化または生成するためのフィロマティクスのフレームワークである。
この手法はルートヴィヒ・ヴィトゲンシュタインの法則に従う考察と、哲学研究における家族の類似性の概念に着想を得たものである。
通常の合成データ生成とは異なり、ゴールは通常、固定された分布からサンプリングまたは拡張することであり、WRFは過去のデータセットのシーケンスで表される暗黙の規則を継続し、以前のデータセットと類似性を保つことを目的としている。
WRFは、各データセットをポイントワイド対応ではなく、構造記述子で表現する。
これらの記述子は、幾何学的、分布的、クラスタリングを要約し、教師付きケースでは、データのラベルベースの特性を要約する。
歴史記述子の平均化により、記述子軌跡と家族組立対象を外挿して規則追従対象を予測する。
候補データセットは、観測された履歴からバランスの取れたまたは境界付けられた混合物の組換えを通じて生成され、これらの目標に従ってスコアされ、任意に記述子空間における微分可能な最適化によって洗練される。
提案するフレームワークでは,サンプルサイズと機能寸法が時間とともに変化すると同時に,次のデータセットが最後のデータセットの直接的な変換であると仮定することができない。
合成データセットと画像データセットのシミュレーションにより、WRFは教師なし設定と教師なし設定の両方において、進化するデータセットの有意義な継続を生成できることが示されている。
関連論文リスト
- Critical Percolation as a Synthetic Data Model for Interpretability [0.0]
臨界平均場パーコレーションクラスタ上で定義された階層関数からなる合成データセット群を紹介する。
分類学的階層をモデル化する潜在変数は、各データポイントのターゲット値を生成する。
ニューラルネットワークのアクティベーションから,モデルの基本トラス潜伏変数を線形に復号化できることが判明した。
論文 参考訳(メタデータ) (2026-06-18T15:15:57Z) - Active Learning with Low-Rank Structure for Data Selection [85.43185363043362]
低ランク近似と残差に基づくサンプリングに基づく新しいデータ選択フレームワークを提案する。
平均損失がデータセット全体の平均損失を近似した$tildeOleft(k + frac1varepsilon2right)$データポイントの重み付きサブセットを選択することができることを示す。
論文 参考訳(メタデータ) (2026-06-14T22:29:59Z) - Statistical Embeddings for Similarity, Retrieval, and Interpretable Alignment of Numeric Tabular Datasets [0.0]
提案手法は,構造化探索データ解析記述子による数値データセットの特徴付けを行う。
カノニカル相関解析(CCA)のペナル化された定式化は、スパースで解釈可能な可変レベル対応を復元するために用いられる。
この手法は、汎用ベンチマーク、材料情報学、核グレードのグラファイトのキャラクタリゼーションにまたがる15のデータセットで評価される。
論文 参考訳(メタデータ) (2026-05-28T17:40:42Z) - Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs [81.43302841109349]
学習後のデータは、大規模言語モデル(LLM)の機能を形成する上で重要な役割を果たす
本稿では,データセット開発における進化グラフを再構築する自動マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-12T06:24:07Z) - A Random Matrix Theory Perspective on the Consistency of Diffusion Models [31.63433424187031]
データセットの異なるサブセットでトレーニングされた拡散モデルは、しばしば同じノイズシードを与えられたときに、著しく類似した出力を生成する。
我々は,学習したデノイザとサンプリングマップの期待値と分散値の有限形状を定量化するランダム行列理論(RMT)フレームワークを開発した。
我々は,UNet および DiT アーキテクチャの非記憶系における予測を検証した。
論文 参考訳(メタデータ) (2026-02-02T23:30:28Z) - Inverting Self-Organizing Maps: A Unified Activation-Based Framework [39.146761527401424]
我々は,SOMの活性化パターンを逆転させて,微妙な幾何学的条件下での正確な入力を復元できることを示す。
我々は,MUSIC (Manifold-Aware Unified SOM Inversion and Control) 更新ルールを導入する。
合成ガウス混合系, MNIST と Faces in the Wild を用いたアプローチを検証した。
論文 参考訳(メタデータ) (2026-01-20T11:02:54Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Assignment Flows for Data Labeling on Graphs: Convergence and Stability [69.68068088508505]
本稿では、連続時間割当フローを積分代入(ラベル)に収束させることを保証する重みパラメータの条件を確立する。
いくつかの反例は、条件違反は、文脈データ分類に関する代入フローの好ましくない振る舞いを伴う可能性があることを示している。
論文 参考訳(メタデータ) (2020-02-26T15:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。