කර්තෘ:
(1) සර්ජි කුචෙරියව්ස්කි, රසායන විද්යා සහ ජීව විද්යා දෙපාර්තමේන්තුව, ඇල්බර්ග් විශ්ව විද්යාලය සහ අනුරූප කර්තෘ ([email protected]);
(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, බර්නාල්, 656023, රුසියාව සහ දායක කතුවරුන්0 ([email protected]).
සංස්කාරක සටහන: මෙය සංඛ්යාත්මක සහ මිශ්ර දත්ත කට්ටල වැඩි කිරීම සඳහා නව ක්රමයක් විස්තර කරන අධ්යයනයක 4 හි 1 කොටසයි. ඉතිරිය පහතින් කියවන්න.
මෙම ලිපියෙන් අපි සංඛ්යාත්මක සහ මිශ්ර දත්ත කට්ටල වැඩි කිරීම සඳහා නව ක්රමයක් යෝජනා කරමු. ක්රමය හරස් වලංගු කිරීමේ නැවත නියැදීම සහ ගුප්ත විචල්ය ආකෘතිකරණය භාවිතා කිරීමෙන් අමතර දත්ත ලක්ෂ්ය ජනනය කරයි. එය උත්පාදනය සඳහා මෙම දේපල සෘජුවම භාවිතා කරන බැවින්, මධ්යස්ථ සහ ඉහළ සහසම්බන්ධතා සහිත දත්ත කට්ටල සඳහා එය විශේෂයෙන් කාර්යක්ෂම වේ. මෙම ක්රමය සරල, වේගවත්, සහ ඉතා සුළු පරාමිතීන් ඇත, කඩදාසි පෙන්වා ඇති පරිදි, නිශ්චිත සුසර කිරීම අවශ්ය නොවේ. එය සැබෑ දත්ත කට්ටල කිහිපයක් මත පරීක්ෂා කර ඇත; මෙහිදී, අපි අවස්ථා දෙකක් සඳහා සවිස්තරාත්මක ප්රතිඵල වාර්තා කරන්නෙමු, ආසන්න අධෝරක්ත වර්ණාවලිය (ඉහළ සහසම්බන්ධතාවය සහිත පූර්ණ සංඛ්යාත්මක දත්ත) මත පදනම්ව අඹරන ලද මස් වල ප්රෝටීන් පුරෝකථනය කිරීම සහ කිරීටක ඇන්ජියෝග්රැෆි (සංඛ්යාත්මක සහ වර්ගීකරණ විචල්යයන් සමඟ මිශ්ර දත්ත, සහ මධ්යස්ථ සහසම්බන්ධතාවය). අවස්ථා දෙකේදීම, ප්රතිගාමීත්වය සහ වෙනස් කොට සැලකීමේ ආකෘති වර්ධනය කිරීම සඳහා කෘතිම ස්නායු ජාල භාවිතා කරන ලදී. ප්රතිඵල ආකෘතිවල ක්රියාකාරිත්වයේ පැහැදිලි දියුණුවක් පෙන්නුම් කරයි; මේ අනුව මස් ප්රෝටීන් පුරෝකථනය සඳහා, වර්ධක දත්ත වලට ආකෘතිය සවිකිරීමේ ප්රතිඵලයක් ලෙස ස්වාධීන පරීක්ෂණය සඳහා ගණනය කරන ලද මූල මධ්යන්ය වර්ග දෝෂය 1.5 සිට 3 ගුණයකින් අඩු විය.
මූල පද : දත්ත වැඩි කිරීම, කෘතිම ස්නායු ජාල, Procrustes හරස් වලංගුකරණය, ගුප්ත විචල්යයන්, සහසම්බන්ධතාවය
කෘතිම ස්නායු ජාල (ANN) වැනි ඉහළ සංකීර්ණතා ආකෘති මත රඳා පවතින නවීන යන්ත්ර ඉගෙනුම් ක්රමවලට ආකෘති පුහුණු කිරීමට සහ ප්රශස්ත කිරීමට විශාල දත්ත ප්රමාණයක් අවශ්ය වේ. ප්රමාණවත් නොවන පුහුණු දත්ත බොහෝ විට වැඩිපුර ගැළපීමේ ගැටළු වලට තුඩු දෙයි, සුසර කිරීමට ඇති ආදර්ශ අධිපරිමාණ සංඛ්යාව දත්ත කට්ටලයේ නිදහස් අංශක ගණනට වඩා විශාල වේ.
මෙම නඩුවේ තවත් පොදු ගැටළුවක් වන්නේ ප්රතිනිෂ්පාදනය නොමැතිකමයි, මන්ද ANN පුහුණු ක්රියාපටිපාටිය තීරනාත්මක නොවන අතර, ආරම්භක ආදර්ශ පරාමිතීන් අහඹු ලෙස තෝරා ගැනීම සහ ඒවායේ ප්රශස්තකරණයේ ස්ටෝචස්ටික් ස්වභාවය අනුව ය. එහි ප්රතිඵලයක් වශයෙන්, එය කිසිවිටෙක එකම පරාමිති සහ කාර්ය සාධනය සහිත ආකෘතියකට යොමු නොවේ, විවිධ පුහුණු අත්හදා බැලීම් විවිධ මාදිලිවලට හේතු විය හැක. පුහුණු කට්ටලය ඉතා කුඩා නම් මෙම විචලනය විශාල වේ.
බොහෝ පර්යේෂණාත්මක අත්හදා බැලීම් ක්රියාත්මක කිරීම බොහෝ විට මිල අධික සහ කාලය ගතවන බැවින්, නිසි පුහුණුව සහ ප්රශස්තකරණය සඳහා අවශ්ය දහස් ගණන් මිනුම් එකතු කිරීම සරලව කළ නොහැකි බැවින්, පර්යේෂණාත්මක දත්ත සවි කිරීමේදී මෙම ගැටළුව විශේෂයෙන් හදිසි වේ. වෛද්ය පර්යේෂණවල අවසර සම්බන්ධ ලේඛන කටයුතු වැනි වෙනත් බාධක ද තිබිය හැකිය.
ප්රමාණවත් නොවන පුහුණු දත්තවල ගැටලුව මඟහරවා ගැනීමට එක් ක්රමයක් නම් නව දත්ත ලක්ෂ්ය අනුකරණය කිරීමෙන් හෝ පවතින ඒවාට කුඩා වෙනස් කිරීම් කිරීමෙන් එය කෘතිමව වැඩි කිරීමයි. මෙම තාක්ෂණය බොහෝ විට "දත්ත වැඩි කිරීම" ලෙස හැඳින්වේ. දත්ත වැඩි කිරීම රූප විශ්ලේෂණය සහ වර්ගීකරණයේදී විශේෂයෙන් කාර්යක්ෂම බව ඔප්පු වී ඇත, විශාල පර්යේෂණ කණ්ඩායමක් බහුකාර්ය වර්ධන ක්රම දෙකම වාර්තා කරයි [1] [2], [3] සහ විශේෂිත අවස්ථා සඳහා විශේෂයෙන් ඵලදායී වන ක්රම [4] [5] . කාල ශ්රේණි දත්ත සඳහා වර්ධන ක්රම ද සාපේක්ෂව හොඳින් වර්ධනය වී ඇත [6].
කෙසේ වෙතත්, මධ්යස්ථ සහ ඉහළ මට්ටමේ සහසම්බන්ධතාවයක් සහිත සංඛ්යාත්මක දත්ත කට්ටල සඳහා යහපත් දත්ත වැඩිකිරීමක් සැපයිය හැකි කාර්යක්ෂම ක්රමවල හිඟයක් පවතී. විවිධ වර්ගයේ වර්ණාවලීක්ෂ දත්ත, ප්රවේණි අනුක්රමණයේ ප්රතිඵල (උදා, 16S RNA) සහ තවත් බොහෝ දේ ඇතුළුව පර්යේෂණාත්මක පර්යේෂණවල එවැනි දත්ත කට්ටල පුලුල්ව පැතිර ඇත. බොහෝ වගුගත දත්ත කට්ටල විචල්යයන් අන්යෝන්ය වශයෙන් සහසම්බන්ධ වන අභ්යන්තර ව්යුහයන් ද ප්රදර්ශනය කරයි. එවැනි දත්ත වැඩි කිරීම සඳහා දැනට පවතින ක්රම බොහෝ දුරට රඳා පවතින්නේ පවතින මිනුම්වලට විවිධ ශබ්ද [7] එකතු කිරීම මත වන අතර එය සැමවිටම ප්රමාණවත් නොවේ. ඒවායේ ගුප්ත විචල්ය අවකාශයෙන් අහඹු නියැදීමෙන් විචල්ය ස්වයංක්රීය කේතක භාවිතා කරන පොරොන්දු ක්රම ද ඇත [8], හෝ උත්පාදක විරුද්ධවාදී ජාල [4] මත පදනම් වූ ක්රම. අවාසිය නම්, ප්රවේශයන් දෙකටම දත්ත වැඩි දියුණු කිරීම සඳහා නිශ්චිත ස්නායුක ජාල ආකෘතියක් ගොඩනැගීම සහ සුසර කිරීම අවශ්ය වන අතර එබැවින් පරිපූර්ණ සහ සම්පත් ඉල්ලා සිටින ප්රශස්තිකරණ ක්රියාවලියක් සහ සාපේක්ෂව විශාල ආරම්භක පුහුණු කට්ටලයක් අවශ්ය වේ.
මෙම ලිපියෙන්, සංඛ්යාත්මක සහ මිශ්ර කොලීනියර් දත්ත කට්ටල වැඩි කිරීම සඳහා සරල, වේගවත්, බහුකාර්ය, නමුත් කාර්යක්ෂම ක්රමයක් අපි යෝජනා කරමු. මෙම ක්රමය පදනම් වී ඇත්තේ වෙනත් අරමුණු සඳහා, විශේෂයෙන්ම වලංගුකරණ කට්ටල ජනනය කිරීම සඳහා මුලින් සංවර්ධනය කරන ලද ප්රවේශයක් මත වන අතර, එබැවින් Procrustes හරස් වලංගුකරණය ලෙස හැඳින්වේ [9] [10]. කෙසේ වෙතත්, මෙම ලිපියේ පෙන්නුම් කර ඇති පරිදි, එය දත්ත වර්ධක ගැටලුව ඵලදායී ලෙස ආමන්ත්රණය කරයි, එහි ප්රතිඵලයක් ලෙස සැලකිය යුතු ලෙස වැඩිදියුණු කළ පුරෝකථනය හෝ වර්ගීකරණ කාර්ය සාධනය සහිත ආකෘති ඇති වේ.
අපගේ ක්රමය උත්පාදන ක්රියාපටිපාටියේ සහසම්බන්ධතාවය සෘජුවම උත්තේජනය කරයි. එය ගුප්ත විචල්ය සමූහයක් සමඟ පුහුණු දත්තවලට ගැලපෙන අතර විචල්යවල දිශානතියේ වෙනස්කම් මැනීම සඳහා හරස් වලංගු කිරීමේ නැවත නියැදීම භාවිතා කරයි. මෙම විචලනය පසුව පුහුණු කට්ටලයට නියැදි දෝෂයක් ලෙස හඳුන්වා දෙනු ලැබේ, එහි ප්රතිඵලයක් ලෙස නව දත්ත ලක්ෂ්ය කට්ටලයක් ඇති වේ.
ගැලපෙන ආකෘති දෙකක් භාවිතා කළ හැක - ඒකීය අගය වියෝජනය (SVD) සහ අර්ධ අවම වර්ග (PLS) වියෝජනය. ගැළපෙන මාදිලියේ තේරීම මඟින් නව දත්ත උත්පාදනය සඳහා භාවිතා කරනු ලබන සහකාර ව්යුහයේ කොටසකට ප්රමුඛත්වය දීමට පරිශීලකයාට ඉඩ සලසයි.
ගැලපෙන මාදිලි දෙකටම පරාමිති දෙකක් ඇත - ගුප්ත විචල්ය ගණන සහ හරස් වලංගු කිරීමේ නැවත නියැදීම සඳහා භාවිතා කරන කොටස් ගණන. පරීක්ෂණවලින් පෙන්නුම් කරන්නේ පරාමිතීන් සඳහා නිශ්චිත සුසර කිරීමක් අවශ්ය නොවන බවයි. පුහුණු කට්ටල අගයන්හි ක්රමානුකූල විචලනය ග්රහණය කර ගැනීමට තරම් විශාල ගුප්ත විචල්ය සංඛ්යාවක් සමානව සේවය කරයි. තුනෙන් ආරම්භ වන ඕනෑම කොටස් සංඛ්යාවක් මෙන්ම.
යෝජිත ක්රමය බහුකාර්ය වන අතර සම්පූර්ණ සංඛ්යාත්මක දත්ත වලට මෙන්ම විචල්ය එකක් හෝ කිහිපයක් ගුණාත්මක වන වගුගත දත්ත වලටද යෙදිය හැක. මෙය තවත් ඉදිරිදර්ශනයක් විවෘත කරයි, එනම් දත්ත සමච්චල් කිරීම, එය ප්රයෝජනවත් විය හැකිය, උදා, ඉහළ පටවන ලද මෘදුකාංග පද්ධති පරීක්ෂා කිරීම සඳහා, නමුත් අපි මෙම අංගය මෙහි නොසලකමු.
පත්රිකාව ක්රමයේ න්යායික පදනම් විස්තර කරන අතර විවිධ ස්වභාවයේ දත්ත කට්ටල දෙකක් මත පදනම්ව එහි ප්රායෝගික යෙදුම සහ ක්රියාකාරීත්වය නිදර්ශනය කරයි. තථ්ය-ලෝක අවස්ථා වලදී විවිධ දත්ත කට්ටල සඳහා ක්රමය ඵලදායි ලෙස යෙදිය හැකි ආකාරය පිළිබඳ සවිස්තරාත්මක විස්තර එය සපයයි.
අපි Python, R, MATLAB, සහ JavaScript ඇතුළු ක්රමලේඛන භාෂා කිහිපයකින් ක්රමය ක්රියාත්මක කර ඇති අතර, සියලුම ක්රියාත්මක කිරීම් GitHub ගබඩාවේ (https://github.com/svkucheryavski/pcv) නොමිලේ ලබා ගත හැක. මීට අමතරව, අපි බ්රවුසරයක (https://mda.tools/pcv) සෘජුවම නව දත්ත ලක්ෂ්ය උත්පාදනය කළ හැකි සබැඳි අනුවාදයක් සපයන්නෙමු.
මෙම පත්රය CC BY 4.0 DEED බලපත්රය යටතේ arxiv මත ඇත .