著者:
(1)セルゲイ・クチェリャフスキー、オールボー大学化学・生物科学部、連絡先著者([email protected])
(2)Sergei Zhilin、CSort、LLC、Germana Titova st. 7、Barnaul、656023、ロシアおよび寄稿者0([email protected])。
編集者注: これは、数値および混合データセットの拡張のための新しい方法を詳述する研究の 4 部構成の第 1 部です。続きは以下をご覧ください。
本稿では、数値データセットと混合データセットを拡張するための新しい方法を提案します。この方法では、クロスバリデーション再サンプリングと潜在変数モデリングを利用して、追加のデータポイントを生成します。このプロパティを直接生成に利用するため、中程度から高度の共線性を持つデータセットに特に効果的です。この方法はシンプルで高速であり、パラメーターが非常に少ないため、本稿で示したように、特別な調整は必要ありません。いくつかの実際のデータセットでテストされています。ここでは、近赤外スペクトルに基づくミンチ肉のタンパク質の予測 (高度の共線性を持つ完全な数値データ) と、冠動脈造影のために紹介された患者の判別 (数値変数とカテゴリ変数の両方を含む混合データ、中程度の共線性) の 2 つのケースの詳細な結果を報告します。どちらの場合も、回帰モデルと判別モデルの開発に人工ニューラルネットワークが採用されました。結果は、モデルのパフォーマンスが明らかに向上していることを示しています。したがって、肉タンパク質の予測では、モデルを拡張データに適合させることで、独立したテスト セットに対して計算された二乗平均平方根誤差が 1.5 ~ 3 倍減少しました。
キーワード: データ拡張、人工ニューラルネットワーク、プロクルステス交差検証、潜在変数、共線性
人工ニューラル ネットワーク (ANN) などの非常に複雑なモデルに依存する最新の機械学習方法では、モデルのトレーニングと最適化に大量のデータが必要です。トレーニング データが不十分だと、調整するモデルのハイパーパラメータの数がデータセットの自由度の数よりもはるかに多くなるため、過剰適合の問題が発生することがよくあります。
この場合のもう 1 つの一般的な問題は、ANN トレーニング手順が初期モデル パラメータのランダム選択とそれらの最適化の確率的性質を考慮すると決定論的ではないため、再現性がないことです。その結果、異なるトレーニング トライアルによって異なるモデルが生成されるため、同じパラメータとパフォーマンスを持つモデルが得られることはありません。トレーニング セットが小さすぎると、この変動性が大きくなります。
この問題は、実験データのフィッティングの場合に特に緊急です。多くの実験試行を実行するには費用と時間がかかることが多く、適切なトレーニングと最適化に必要な何千もの測定値を収集することは不可能だからです。また、医学研究の許可に関連する書類手続きなど、他の障害もある可能性があります。
トレーニングデータが不十分であるという問題を克服する方法の 1 つは、新しいデータ ポイントをシミュレートするか、既存のデータ ポイントに小さな変更を加えることによって、データを人工的に拡張することです。この手法は、しばしば「データ拡張」と呼ばれます。データ拡張は、画像分析と分類において特に効率的であることが証明されており、多数の研究で、汎用性の高い拡張方法 [1] [2]、[3] と特定のケースに特に効果的な方法 [4] [5] の両方が報告されています。時系列データの拡張方法も比較的よく開発されています [6]。
しかし、中程度から高度の共線性を持つ数値データセットに対して適切なデータ拡張を提供できる効率的な方法が不足しています。このようなデータセットは、さまざまな種類の分光データ、ゲノム配列決定の結果(16S RNAなど)など、実験研究で広く使用されています。表形式のデータセットの多くは、変数が相互に相関する内部構造も示しています。現在利用可能なこのようなデータの拡張方法は、主に既存の測定値にさまざまな形式のノイズを追加することに依存していますが[7]、これでは必ずしも十分ではありません。また、潜在変数空間からランダムにサンプリングすることによって変分オートエンコーダを使用する有望な方法[8]や、生成的敵対ネットワークに基づく方法[4]もあります。欠点は、どちらのアプローチでも、データ拡張用に特定のニューラルネットワークモデルを構築して調整する必要があり、そのため徹底的でリソースを大量に消費する最適化プロセスと比較的大規模な初期トレーニングセットが必要になることです。
本稿では、数値および混合共線データセットを拡張するための、シンプルで高速、多用途でありながら効率的な方法を提案します。この方法は、当初は他の目的、特に検証セットを生成するために開発されたアプローチに基づいており、そのためプロクラステス交差検証として知られています[9][10]。しかし、本稿で実証されているように、この方法はデータ拡張の問題に効果的に対処し、予測または分類のパフォーマンスが大幅に向上したモデルを生み出します。
私たちの方法は、生成手順で共線性を直接活用します。トレーニング データを一連の潜在変数に適合させ、次にクロス検証再サンプリングを使用して変数の方向の変動を測定します。次に、この変動がサンプリング エラーとしてトレーニング セットに導入され、新しいデータ ポイント セットが生成されます。
2 つのフィッティング モデル (特異値分解 (SVD) と部分最小二乗 (PLS) 分解) を使用できます。フィッティング モデルを選択すると、新しいデータの生成に使用される共分散構造の一部を優先できます。
どちらのフィッティング モデルにも、潜在変数の数と、クロス検証の再サンプリングに使用されるセグメントの数という 2 つのパラメーターがあります。ただし、実験では、パラメーターに特別な調整は必要ないことがわかりました。トレーニング セット値の体系的な変化を捉えるのに十分な大きさの潜在変数の数であれば、同様に機能します。また、3 から始まる任意の数のセグメントでも機能します。
提案された方法は汎用性が高く、完全な数値データだけでなく、1 つまたは複数の変数が定性的である表形式のデータにも適用できます。これにより、データ モックという別の観点が開かれます。これは、たとえば、高負荷のソフトウェア システムのテストに役立ちますが、ここではこの側面については考慮しません。
この論文では、この方法の理論的基礎を説明し、性質の異なる 2 つのデータセットに基づいて、その実際の応用とパフォーマンスを示します。また、この方法を実際のシナリオのさまざまなデータセットに効果的に適用する方法を包括的に説明します。
この手法は、Python、R、MATLAB、JavaScript などの複数のプログラミング言語で実装されており、すべての実装は GitHub リポジトリ (https://github.com/svkucheryavski/pcv) で無料で入手できます。さらに、ブラウザーで直接新しいデータ ポイントを生成できるオンライン バージョンも提供しています (https://mda.tools/pcv)。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。