מחברים:
(1) Sergey Kucheryavskiy, המחלקה לכימיה וביו-מדעים, אוניברסיטת אלבורג ומחבר מקביל ([email protected]);
(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, Barnaul, 656023, רוסיה ומחברים תורמים0 ([email protected]).
הערת העורך: זהו חלק 1 מתוך 4 של מחקר המפרט שיטה חדשה להגדלה של מערכי נתונים מספריים ומעורבים. קרא את השאר למטה.
במאמר זה, אנו מציעים שיטה חדשה להגדלה של מערכי נתונים מספריים ומעורבים. השיטה מייצרת נקודות נתונים נוספות על ידי שימוש בדגימה מחדש של אימות צולב ומידול משתנים סמויים. זה יעיל במיוחד עבור מערכי נתונים עם דרגות בינוניות עד גבוהות של קולינאריות, מכיוון שהוא מנצל ישירות את המאפיין הזה ליצירה. השיטה פשוטה, מהירה ובעלת מעט מאוד פרמטרים, אשר, כפי שמוצג בעיתון, אינם דורשים כוונון ספציפי. זה נבדק על כמה מערכי נתונים אמיתיים; כאן, אנו מדווחים על תוצאות מפורטות עבור שני מקרים, חיזוי של חלבון בבשר טחון על סמך ספקטרום אינפרא אדום קרוב (נתונים מספריים מלאים עם רמה גבוהה של קולינאריות) ואפליה של חולים שהופנו לאגיוגרפיה כלילית (נתונים מעורבים, עם משתנים מספריים וקטגוריים כאחד, וקולינאריות מתונה). בשני המקרים, רשתות עצבים מלאכותיות הופעלו לפיתוח מודל הרגרסיה וההבחנה. התוצאות מראות שיפור ברור בביצועי המודלים; לפיכך, עבור חיזוי של חלבון בשר, התאמת המודל לנתונים המוגדלים הביאה להפחתה של השגיאה הממוצעת בריבוע השורש שחושבה עבור הבדיקה העצמאית שנקבעה פי 1.5 עד 3.
מילות מפתח : הגדלת נתונים, רשתות עצביות מלאכותיות, אימות צולב של Procrustes, משתנים סמויים, קולינאריות
שיטות למידת מכונה מודרניות המסתמכות על מודלים במורכבות גבוהה, כגון רשתות עצביות מלאכותיות (ANN), דורשות כמות גדולה של נתונים כדי לאמן ולייעל את המודלים. נתוני אימון לא מספקים מובילים לעתים קרובות לבעיות התאמת יתר, מכיוון שמספר ההיפרפרמטרים של המודל לכוונון גדול בהרבה ממספר דרגות החופש במערך הנתונים.
בעיה שכיחה נוספת במקרה זה היא היעדר יכולת שחזור מכיוון שהליך האימון של ANN אינו דטרמיניסטי, לאור הבחירה האקראית של פרמטרי מודל ראשוניים והאופי הסטוכסטי של האופטימיזציה שלהם. כתוצאה מכך, זה אף פעם לא מוביל למודל עם אותם פרמטרים וביצועים, שכן ניסויי אימון שונים יכולים לגרום למודלים שונים. השונות הזו הופכת גדולה אם מערך האימונים קטן מדי.
בעיה זו דחופה במיוחד במקרה של התאמת נתוני הניסוי, מכיוון שלעתים קרובות זה יקר וגוזל זמן להפעיל ניסויים ניסויים רבים, מה שהופך את זה פשוט לבלתי אפשרי לאסוף אלפי מדידות הדרושות לאימון ואופטימיזציה מתאימים. יכולים להיות גם מכשולים אחרים, כמו ניירת הקשורה להרשאות במחקר רפואי.
דרך אחת להתגבר על הבעיה של לא מספיק נתוני אימון היא להגדיל אותם באופן מלאכותי על ידי הדמיית נקודות נתונים חדשות או ביצוע שינויים קטנים באלה הקיימות. טכניקה זו מכונה לעתים קרובות "הגדלת נתונים". הגדלת נתונים הוכחה כיעילה במיוחד בניתוח וסיווג תמונות, כאשר גוף גדול של מחקרים מדווח הן על שיטות הגדלה מגוונות [1] [2], [3] והן על שיטות יעילות במיוחד למקרים ספציפיים [4] [5] . גם שיטות הגדלה לנתוני סדרות זמן מפותחות יחסית [6].
עם זאת, יש חוסר בשיטות יעילות שיכולות לספק הגדלת נתונים הגונה עבור מערכי נתונים מספריים עם רמה בינונית עד גבוהה של קולינאריות. מערכי נתונים כאלה נפוצים במחקר ניסיוני, כולל סוגים שונים של נתונים ספקטרוסקופיים, תוצאות של רצף גנום (למשל, 16S RNA), ועוד רבים אחרים. מערכי נתונים רבים המוצגים בטבלאות מציגים גם מבנים פנימיים שבהם משתנים נמצאים בקורלציה הדדית. השיטות הזמינות כיום להגדלת נתונים כאלה מסתמכות בעיקר על הוספת צורות שונות של רעש [7] למדידות הקיימות, מה שלא תמיד מספיק. ישנן גם שיטות מבטיחות המשתמשות במקודדים אוטומטיים וריאציות על ידי דגימה אקראית ממרחב המשתנה הסמוי שלהם [8], או שיטות המבוססות על רשתות יריבות גנרטיביות [4]. החסרונות הם ששתי הגישות דורשות בנייה וכוונון של מודל רשת עצבית ספציפי להגדלת הנתונים ומכאן שצריך תהליך אופטימיזציה יסודי ודורש משאבים ומערך הדרכה ראשוני גדול יחסית.
במאמר זה, אנו מציעים שיטה פשוטה, מהירה, רב-תכליתית, אך יעילה להגדלת מערכי נתונים מספריים ומעורבים קולינאריים. השיטה מבוססת על גישה שפותחה בתחילה למטרות אחרות, במיוחד ליצירת ערכות אימות, ומכאן ידועה כ-Procrustes cross-validation [9] [10]. עם זאת, כפי שהודגם במאמר זה, הוא מטפל ביעילות בבעיית הגדלת הנתונים, וכתוצאה מכך מודלים עם ביצועי חיזוי או סיווג משופרים משמעותית.
השיטה שלנו ממנפת באופן ישיר קולינאריות בהליך היצירה. הוא מתאים לנתוני האימון קבוצה של משתנים סמויים ולאחר מכן משתמש בדגימה חוזרת של אימות צולב כדי למדוד שינויים בכיוון המשתנים. וריאציה זו מוצגת לאחר מכן לערכת האימונים כשגיאת דגימה, וכתוצאה מכך קבוצה חדשה של נקודות נתונים.
ניתן להשתמש בשני מודלים מתאימים - פירוק ערך יחיד (SVD) ופירוק ריבועים קטנים (PLS). הבחירה במודל ההתאמה מאפשרת למשתמש לתעדף חלק ממבנה שיתוף פעולה, אשר ישמש ליצירת הנתונים החדשים.
לשני המודלים המתאימים יש שני פרמטרים - מספר המשתנים הסמויים ומספר המקטעים המשמשים לדגימה מחדש של אימות צולב. הניסויים מראים כי הפרמטרים אינם דורשים כוונון ספציפי. כל מספר של משתנים סמויים גדול מספיק כדי ללכוד את הווריאציה השיטתית של ערכי ערכת האימון משרתים באותה מידה. כמו גם כל מספר של קטעים החל משלושה.
השיטה המוצעת היא רב-תכליתית וניתנת ליישום הן על נתונים מספריים מלאים והן על נתונים בטבלאות שבהן משתנה אחד או כמה הם איכותיים. זה פותח פרספקטיבה נוספת, כלומר לעג לנתונים, שיכול להיות שימושי, למשל, לבדיקת מערכות תוכנה עמוסות, אם כי איננו מתייחסים להיבט זה כאן.
המאמר מתאר את היסודות התיאורטיים של השיטה וממחיש את היישום והביצועים המעשיים שלה בהתבסס על שני מערכי נתונים בעלי אופי שונה. הוא מספק פרטים מקיפים כיצד ניתן ליישם את השיטה ביעילות על מערכי נתונים מגוונים בתרחישים בעולם האמיתי.
הטמענו את השיטה במספר שפות תכנות, כולל Python, R, MATLAB ו-JavaScript, וכל ההטמעות זמינות באופן חופשי במאגר GitHub (https://github.com/svkucheryavski/pcv). בנוסף, אנו מספקים גרסה מקוונת שבה ניתן ליצור נקודות נתונים חדשות ישירות בדפדפן (https://mda.tools/pcv).
מאמר זה זמין ב-arxiv תחת רישיון CC BY 4.0 DEED.