paint-brush
Cercetătorii introduc un truc inteligent de matematică pentru a îmbunătăți seturile de date minuscule fără a vă prăji GPU-ulde@procrustes
699 lecturi
699 lecturi

Cercetătorii introduc un truc inteligent de matematică pentru a îmbunătăți seturile de date minuscule fără a vă prăji GPU-ul

Prea lung; A citi

Cercetătorii au dezvoltat o nouă metodă pentru a genera puncte de date suplimentare prin utilizarea reeșantionării prin validare încrucișată și modelarea variabilelor latente pentru a antrena inteligența artificială.
featured image - Cercetătorii introduc un truc inteligent de matematică pentru a îmbunătăți seturile de date minuscule fără a vă prăji GPU-ul
Procrustes Technologies HackerNoon profile picture
0-item

Autori:

(1) Sergey Kucheryavskiy, Departamentul de Chimie și Bioștiință, Universitatea Aalborg și un autor corespondent ([email protected]);

(2) Serghei Zhilin, CSort, LLC., str. Germana Titova. 7, Barnaul, 656023, Rusia și autori contributori0 ([email protected]).

Nota editorului: Aceasta este Partea 1 din 4 a unui studiu care detaliază o nouă metodă pentru creșterea seturilor de date numerice și mixte. Citiți restul mai jos.

Tabelul de legături

  • Rezumat și 1 Introducere
  • 2 Metode
    • 2.1 Generarea de seturi fotovoltaice bazate pe descompunerea valorii singulare
    • 2.2 Generarea de seturi fotovoltaice bazate pe descompunerea PLS
  • 3 Rezultate
    • 3.1 Seturi de date
    • 3.2 Regresia ANN a datelor Tecator
    • 3.3 Clasificarea ANN a datelor Heart
  • 4 Discuție
    • 5 Concluzii și referințe

Abstract

În această lucrare, propunem o nouă metodă de creștere a seturilor de date numerice și mixte. Metoda generează puncte de date suplimentare prin utilizarea reeșantionării prin validare încrucișată și modelarea variabilelor latente. Este deosebit de eficient pentru seturile de date cu grade moderate până la ridicate de coliniaritate, deoarece utilizează direct această proprietate pentru generare. Metoda este simplă, rapidă și are foarte puțini parametri, care, așa cum se arată în lucrare, nu necesită o reglare specifică. A fost testat pe mai multe seturi de date reale; aici, raportăm rezultate detaliate pentru două cazuri, predicția proteinei din carnea tocată pe baza spectrelor în infraroșu apropiat (date complet numerice cu grad ridicat de coliniaritate) și discriminarea pacienților trimiși pentru angiografie coronariană (date mixte, cu variabile atât numerice, cât și categoriale, și coliniaritate moderată). În ambele cazuri, au fost folosite rețele neuronale artificiale pentru dezvoltarea modelelor de regresie și discriminare. Rezultatele arată o îmbunătățire clară a performanței modelelor; astfel, pentru predicția proteinei din carne, adaptarea modelului la datele augmentate a dus la o reducere a erorii pătrate medii calculate pentru testul independent de 1,5 până la 3 ori.


Cuvinte cheie : creșterea datelor, rețele neuronale artificiale, validarea încrucișată a lui Procrustes, variabile latente, coliniaritate

1 Introducere

Metodele moderne de învățare automată care se bazează pe modele de complexitate ridicată, cum ar fi rețelele neuronale artificiale (ANN), necesită o cantitate mare de date pentru a antrena și optimiza modelele. Datele insuficiente de antrenament duc adesea la probleme de supraadaptare, deoarece numărul de hiperparametri ai modelului de reglat este mult mai mare decât numărul de grade de libertate din setul de date.


O altă problemă comună în acest caz este lipsa de reproductibilitate deoarece procedura de antrenament ANN nu este deterministă, având în vedere selecția aleatorie a parametrilor inițiali ai modelului și natura stocastică a optimizării acestora. În consecință, nu duce niciodată la un model cu aceiași parametri și performanțe, deoarece încercări de antrenament diferite pot duce la modele diferite. Această variabilitate devine mare dacă setul de antrenament este prea mic.


Această problemă este deosebit de urgentă în cazul potrivirii datelor experimentale, deoarece este adesea costisitoare și consumatoare de timp pentru a rula multe teste experimentale, ceea ce face pur și simplu imposibilă colectarea a mii de măsurători necesare pentru instruirea și optimizarea corespunzătoare. Pot exista și alte obstacole, cum ar fi documentele legate de permisiunile în cercetarea medicală.


O modalitate de a depăși problema datelor de antrenament insuficiente este de a le crește artificial fie prin simularea unor noi puncte de date, fie prin mici modificări la cele existente. Această tehnică este adesea denumită „augmentare a datelor”. Mărirea datelor s-a dovedit a fi deosebit de eficientă în analiza și clasificarea imaginilor, cu un corp mare de cercetări raportând atât metode versatile de mărire [1] [2], [3], cât și metode care sunt deosebit de eficiente pentru cazuri specifice [4] [5] . Metodele de creștere a datelor din seria temporală sunt, de asemenea, relativ bine dezvoltate [6].


Cu toate acestea, există o lipsă de metode eficiente care să poată oferi o creștere decentă a datelor pentru seturile de date numerice cu un grad moderat până la înalt de coliniaritate. Astfel de seturi de date sunt larg răspândite în cercetarea experimentală, inclusiv diferite tipuri de date spectroscopice, rezultate ale secvențierii genomului (de exemplu, ARN 16S) și multe altele. Multe seturi de date tabulate prezintă, de asemenea, structuri interne în care variabilele sunt corelate reciproc. Metodele disponibile în prezent pentru creșterea unor astfel de date se bazează în principal pe adăugarea diferitelor forme de zgomot [7] la măsurătorile existente, ceea ce nu este întotdeauna suficient. Există, de asemenea, metode promițătoare care utilizează autoencodere variaționale prin eșantionare aleatorie din spațiul lor variabil latent [8] sau metode bazate pe rețele adverse generative [4]. Dezavantajele sunt că ambele abordări necesită construirea și reglarea unui model de rețea neuronală specifică pentru creșterea datelor și, prin urmare, necesită un proces de optimizare amănunțit și care necesită resurse și un set de instruire inițial relativ mare.


În această lucrare, propunem o metodă simplă, rapidă, versatilă, dar eficientă pentru creșterea seturilor de date numerice și mixte coliniare. Metoda se bazează pe o abordare care a fost dezvoltată inițial în alte scopuri, în special pentru generarea de seturi de validare și, prin urmare, este cunoscută sub numele de validare încrucișată Procrustes [9] [10]. Cu toate acestea, așa cum se demonstrează în această lucrare, abordează eficient problema creșterii datelor, rezultând modele cu performanțe de predicție sau clasificare semnificativ îmbunătățite.


Metoda noastră folosește direct coliniaritatea în procedura de generare. Se potrivește datele de antrenament cu un set de variabile latente și apoi utilizează reeșantionarea prin validare încrucișată pentru a măsura variațiile în orientarea variabilelor. Această variație este apoi introdusă în setul de antrenament ca eroare de eșantionare, rezultând un nou set de puncte de date.


Pot fi utilizate două modele de potrivire — descompunerea valorii singulare (SVD) și descompunerea celor mai mici pătrate parțiale (PLS). Alegerea modelului de potrivire permite utilizatorului să prioritizeze o parte a structurii de covarianță, care va fi utilizată pentru generarea noilor date.


Ambele modele de potrivire au doi parametri - numărul de variabile latente și numărul de segmente utilizate pentru reeșantionarea validării încrucișate. Experimentele arată însă că parametrii nu necesită o reglare specifică. Orice număr de variabile latente suficient de mare pentru a surprinde variația sistematică a valorilor setului de antrenament servesc la fel de bine. La fel și orice număr de segmente începând de la trei.


Metoda propusă este versatilă și poate fi aplicată atât datelor complet numerice, cât și datelor tabulate în care una sau mai multe variabile sunt calitative. Aceasta deschide o altă perspectivă, și anume batjocorirea datelor, care poate fi utilă, de exemplu, pentru testarea sistemelor software cu încărcare mare, deși nu luăm în considerare acest aspect aici.


Lucrarea descrie bazele teoretice ale metodei și ilustrează aplicarea și performanța sa practică pe baza a două seturi de date de natură diferită. Acesta oferă detalii cuprinzătoare despre modul în care metoda poate fi aplicată eficient la diverse seturi de date în scenarii din lumea reală.


Am implementat metoda în mai multe limbaje de programare, inclusiv Python, R, MATLAB și JavaScript, iar toate implementările sunt disponibile gratuit în depozitul GitHub (https://github.com/svkucheryavski/pcv). În plus, oferim o versiune online în care se pot genera noi puncte de date direct într-un browser (https://mda.tools/pcv).


Această lucrare este disponibilă pe arxiv sub licență CC BY 4.0 DEED.