paint-brush
Изследователи въвеждат умен математически трик за увеличаване на малки набори от данни, без да изпържите вашия GPUот@procrustes
699 показания
699 показания

Изследователи въвеждат умен математически трик за увеличаване на малки набори от данни, без да изпържите вашия GPU

от Procrustes Technologies5m2025/01/27
Read on Terminal Reader

Твърде дълго; Чета

Изследователите са разработили нов метод за генериране на допълнителни точки от данни чрез използване на повторно вземане на проби за кръстосано валидиране и моделиране на латентни променливи за обучение на изкуствен интелект.
featured image - Изследователи въвеждат умен математически трик за увеличаване на малки набори от данни, без да изпържите вашия GPU
Procrustes Technologies HackerNoon profile picture
0-item

автори:

(1) Сергей Кучерявски, Катедра по химия и бионауки, Университет в Олборг и автор-кореспондент ([email protected]);

(2) Сергей Жилин, CSort, LLC., ул. Германа Титова. 7, Барнаул, 656023, Русия и участващи автори0 ([email protected]).

Бележка на редактора: Това е част 1 от 4 на проучване, описващо нов метод за увеличаване на цифрови и смесени масиви от данни. Прочетете останалото по-долу.

Таблица с връзки

  • Резюме и 1 въведение
  • 2 Методи
    • 2.1 Генериране на фотоволтаични комплекти на базата на разлагане на сингулярна стойност
    • 2.2 Генериране на фотоволтаични комплекти на базата на PLS декомпозиция
  • 3 резултата
    • 3.1 Набори от данни
    • 3.2 ANN регресия на данни от Tecator
    • 3.3 ANN класификация на данните за сърцето
  • 4 Дискусия
    • 5 Заключения и литература

Резюме

В тази статия ние предлагаме нов метод за увеличаване на числови и смесени набори от данни. Методът генерира допълнителни точки от данни чрез използване на повторно вземане на проби при кръстосано валидиране и латентно моделиране на променливи. Той е особено ефективен за набори от данни с умерена до висока степен на колинеарност, тъй като директно използва това свойство за генериране. Методът е прост, бърз и има много малко параметри, които, както е показано в статията, не изискват специфична настройка. Той е тестван върху няколко реални масива от данни; тук докладваме подробни резултати за два случая, прогнозиране на протеин в мляно месо въз основа на близки инфрачервени спектри (напълно цифрови данни с висока степен на колинеарност) и дискриминация на пациенти, насочени за коронарна ангиография (смесени данни, както с числени, така и с категорични променливи, и умерена колинеарност). И в двата случая са използвани изкуствени невронни мрежи за разработване на моделите на регресия и дискриминация. Резултатите показват ясно подобрение в работата на моделите; по този начин за прогнозирането на месния протеин, напасването на модела към разширените данни доведе до намаляване на средната квадратна грешка, изчислена за независимия тестов набор от 1,5 до 3 пъти.


Ключови думи : увеличаване на данните, изкуствени невронни мрежи, кръстосано валидиране на Прокруст, латентни променливи, колинеарност

1 Въведение

Съвременните методи за машинно обучение, които разчитат на модели с висока сложност, като изкуствени невронни мрежи (ANN), изискват голямо количество данни за обучение и оптимизиране на моделите. Недостатъчните данни за обучение често водят до проблеми с пренастройването, тъй като броят на хиперпараметрите на модела за настройка е много по-голям от броя на степените на свобода в набора от данни.


Друг често срещан проблем в този случай е липсата на възпроизводимост, тъй като процедурата за обучение на ANN не е детерминистична, предвид произволния избор на първоначалните параметри на модела и стохастичния характер на тяхната оптимизация. Следователно, това никога не води до модел със същите параметри и производителност, тъй като различните опити за обучение могат да доведат до различни модели. Тази променливост става голяма, ако наборът за обучение е твърде малък.


Този проблем е особено спешен в случай на приспособяване на експерименталните данни, тъй като често е скъпо и отнема много време да се проведат много експериментални опити, което прави просто невъзможно събирането на хиляди измервания, необходими за правилното обучение и оптимизация. Може да има и други пречки, като например документация, свързана с разрешения за медицински изследвания.


Един от начините за преодоляване на проблема с недостатъчните данни за обучение е изкуственото им увеличаване чрез симулиране на нови точки от данни или извършване на малки модификации на съществуващите. Тази техника често се нарича „увеличаване на данни“. Увеличаването на данни се оказа особено ефективно при анализ и класификация на изображения, с голям брой изследвания, докладващи както за многостранни методи за увеличаване [1] [2], [3], така и за методи, които са особено ефективни за специфични случаи [4] [5] . Методите за увеличаване на данните за времеви редове също са сравнително добре развити [6].


Липсват обаче ефективни методи, които могат да осигурят прилично увеличаване на данните за цифрови набори от данни с умерена до висока степен на колинеарност. Такива набори от данни са широко разпространени в експерименталните изследвания, включително различни видове спектроскопски данни, резултати от геномно секвениране (напр. 16S РНК) и много други. Много таблични масиви от данни също показват вътрешни структури, където променливите са взаимно корелирани. Наличните в момента методи за увеличаване на такива данни разчитат най-вече на добавяне на различни форми на шум [7] към съществуващите измервания, което не винаги е достатъчно. Съществуват също така обещаващи методи, които използват вариационни автоенкодери чрез произволно вземане на проби от тяхното латентно променливо пространство [8] или методи, базирани на генеративни състезателни мрежи [4]. Недостатъците са, че и двата подхода изискват изграждане и настройка на специфичен модел на невронна мрежа за увеличаване на данните и следователно се нуждаят от задълбочен и изискващ ресурси процес на оптимизация и сравнително голям набор от първоначално обучение.


В тази статия ние предлагаме прост, бърз, гъвкав, но ефективен метод за увеличаване на числени и смесени колинеарни набори от данни. Методът се основава на подход, който първоначално е разработен за други цели, специално за генериране на набори за валидиране, и следователно е известен като кръстосано валидиране на Прокруст [9] [10]. Въпреки това, както е показано в този документ, той ефективно се справя с проблема с увеличаването на данните, което води до модели със значително подобрена ефективност на прогнозиране или класификация.


Нашият метод директно използва колинеарността в процедурата за генериране. Той съчетава данните за обучение с набор от латентни променливи и след това използва повторно вземане на проби за кръстосано валидиране, за да измери вариациите в ориентацията на променливите. Тази вариация след това се въвежда в набора за обучение като грешка при вземане на проби, което води до нов набор от точки от данни.


Могат да се използват два подходящи модела — разлагане на сингулярна стойност (SVD) и частично разлагане на най-малки квадрати (PLS). Изборът на подходящия модел позволява на потребителя да даде приоритет на част от ковариационната структура, която ще се използва за генериране на нови данни.


И двата модела за напасване имат два параметъра — броя на латентните променливи и броя на сегментите, използвани за повторно вземане на проби за кръстосано валидиране. Експериментите обаче показват, че параметрите не изискват специфична настройка. Всеки брой латентни променливи, достатъчно големи, за да уловят систематичната вариация на стойностите на набора за обучение, служат еднакво добре. Както и произволен брой сегменти, започващи от три.


Предложеният метод е многофункционален и може да се прилага както към изцяло цифрови данни, така и към таблични данни, където една или няколко променливи са качествени. Това отваря друга перспектива, а именно подиграване на данни, което може да бъде полезно, например, за тестване на високо натоварени софтуерни системи, въпреки че не разглеждаме този аспект тук.


Документът описва теоретичните основи на метода и илюстрира неговото практическо приложение и ефективност въз основа на два набора от данни от различно естество. Той предоставя изчерпателни подробности за това как методът може да бъде ефективно приложен към различни набори от данни в сценарии от реалния свят.


Ние внедрихме метода в няколко езика за програмиране, включително Python, R, MATLAB и JavaScript, и всички реализации са свободно достъпни в хранилището на GitHub (https://github.com/svkucheryavski/pcv). Освен това предоставяме онлайн версия, където можете да генерирате нови точки от данни директно в браузър (https://mda.tools/pcv).


Този документ е достъпен в arxiv под лиценз CC BY 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

Procrustes Technologies HackerNoon profile picture
Procrustes Technologies@procrustes
Procrustes' method aligns and adjusts, making data conform, with precision and control, in the realm of math and shape.

ЗАКАЧВАЙТЕ ЕТИКЕТИ

ТАЗИ СТАТИЯ Е ПРЕДСТАВЕНА В...