AI, பகுப்பாய்வு அல்லது தரவு அறிவியலில் உள்ள எவரிடமும் பேசுங்கள், அவர்கள் செயற்கை தரவுதான் எதிர்காலம் என்று உங்களுக்குச் சொல்வார்கள். ஆனால் "செயற்கை தரவு" என்றால் என்ன என்று அவர்களிடம் கேட்டால், உங்களுக்கு மிகவும் மாறுபட்ட பதில்கள் கிடைக்கும். ஏனென்றால் செயற்கை தரவு என்பது ஒரு விஷயம் மட்டுமல்ல - இது பல பயன்பாட்டு நிகழ்வுகள் மற்றும் வரையறைகளைக் கொண்ட ஒரு பரந்த வகையாகும். மேலும் அந்த தெளிவின்மை உரையாடல்களை குழப்பமடையச் செய்கிறது.
எனவே, சத்தத்தைக் குறைப்போம். அதன் மையத்தில், செயற்கைத் தரவு இரண்டு முக்கிய பரிமாணங்களில் செயல்படுகிறது. முதலாவது, ஏற்கனவே உள்ள தரவுத்தொகுப்பில் காணாமல் போன தரவை நிரப்புவது முதல் முற்றிலும் புதிய தரவுத்தொகுப்புகளை உருவாக்குவது வரையிலான ஒரு நிறமாலையாகும். இரண்டாவது, மூல தரவு மட்டத்தில் தலையீடுகள் மற்றும் நுண்ணறிவு அல்லது விளைவு மட்டத்தில் தலையீடுகளை வேறுபடுத்துகிறது.
இந்த பரிமாணங்களை ஒரு விளக்கப்படத்தில் அச்சுகளாக கற்பனை செய்து பாருங்கள். இது நான்கு கால் பகுதிகளை உருவாக்குகிறது, ஒவ்வொன்றும் வெவ்வேறு வகையான செயற்கைத் தரவைக் குறிக்கின்றன: தரவு கணக்கீடு, பயனர் உருவாக்கம், நுண்ணறிவு மாதிரியாக்கம் மற்றும் தயாரிக்கப்பட்ட விளைவுகள் . ஒவ்வொன்றும் ஒரு தனித்துவமான செயல்பாட்டைச் செய்கின்றன, மேலும் நீங்கள் எந்தத் திறனிலும் தரவுகளுடன் பணிபுரிகிறீர்கள் என்றால், நீங்கள் வித்தியாசத்தை அறிந்து கொள்ள வேண்டும்.
தரவு கணக்கீடு: வெற்றிடங்களை நிரப்புதல்
தரவு கணக்கீடு என்பது உண்மையிலேயே செயற்கை தரவு அல்ல என்று சிலர் வாதிடலாம், ஆனால் நவீன கணக்கீடு நுட்பங்கள் எளிய சராசரி அல்லது சராசரி மாற்றீட்டைத் தாண்டி உருவாகியுள்ளன. இன்று, மேம்பட்ட கணக்கீடு இயந்திர கற்றல் மற்றும் ஜெனரேட்டிவ் AI மாதிரிகளைப் பயன்படுத்துகிறது, இதனால் உருவாக்கப்பட்ட மதிப்புகள் முன்பை விட மிகவும் நுட்பமானதாகவும் சூழல் ரீதியாக பொருத்தமானதாகவும் ஆக்குகின்றன.
தரவு imputation என்பது காணாமல் போன தரவு மற்றும் மூல தரவு தலையீட்டின் சந்திப்பில் அமர்ந்திருக்கிறது. இதன் பொருள் இடைவெளிகளைக் கொண்ட ஏற்கனவே உள்ள தரவுத்தொகுப்புகளுடன் நாங்கள் பணியாற்றி வருகிறோம், மேலும் அவற்றை முடிக்க நம்பத்தகுந்த மதிப்புகளை உருவாக்குவதே எங்கள் குறிக்கோள். மற்ற வகையான செயற்கை தரவுகளைப் போலல்லாமல், imputation என்பது முற்றிலும் புதிய தகவல்களை உருவாக்குவது பற்றியது அல்ல - இது முழுமையற்ற தரவை மேலும் பயன்படுத்தக்கூடியதாக மாற்றுவது பற்றியது.
எடுத்துக்காட்டு: ஊடக செயல்திறன் ஆய்வுகளை நடத்தும் ஒரு சந்தை ஆராய்ச்சி நிறுவனம், கணக்கெடுப்பு பதில்கள் இல்லாததால் அதன் பார்வையாளர்களின் பதில் தரவுகளில் இடைவெளிகளைக் கொண்டிருக்கலாம். முழுமையற்ற தரவுத்தொகுப்புகளை நிராகரிப்பதற்குப் பதிலாக, புள்ளிவிவர மாதிரியாக்கம் அல்லது இயந்திர கற்றல் போன்ற குற்றச்சாட்டு நுட்பங்கள் யதார்த்தமான மதிப்பீடுகளை உருவாக்க முடியும், இதனால் ஆய்வாளர்கள் தரவிலிருந்து அர்த்தமுள்ள நுண்ணறிவுகளைப் பெற முடியும் என்பதை உறுதி செய்கிறது.
பயனர் உருவாக்கம்: போலி நபர்கள், உண்மையான நுண்ணறிவுகள்
பயனர் உருவாக்கம் என்பது புதிய தரவு உருவாக்கம் மற்றும் மூல தரவு தலையீட்டிற்கு இடையில் உள்ளது. ஏற்கனவே உள்ள தரவை மாற்றுவதற்கு பதிலாக, இந்த அணுகுமுறை முற்றிலும் புதிய பயனர் சுயவிவரங்கள் மற்றும் நடத்தைகளை உருவாக்குகிறது. உண்மையான பயனர் தரவு கிடைக்காதபோது, உணர்திறன் மிக்கதாக இருக்கும்போது அல்லது செயற்கையாக அளவிட வேண்டியிருக்கும் போது இது மிகவும் பயனுள்ளதாக இருக்கும்.
தயாரிப்புகளைச் சோதித்தல், பாதுகாப்பை மேம்படுத்துதல் மற்றும் AI மாதிரிகளைப் பயிற்றுவித்தல் ஆகியவற்றில் பயனர் உருவாக்கம் ஒரு பெரிய மாற்றமாகும்.
உதாரணம்: ஒரு ஸ்ட்ரீமிங் சேவை உண்மையான வாடிக்கையாளர் தரவை வெளிப்படுத்தாமல் அதன் பரிந்துரை இயந்திரத்தை சோதிக்க செயற்கை பயனர் சுயவிவரங்களை உருவாக்கக்கூடும். சைபர் பாதுகாப்பு நிறுவனங்களும் தாக்குதல் சூழ்நிலைகளை உருவகப்படுத்தவும், மோசடி கண்டறிதல் அமைப்புகளுக்கு பயிற்சி அளிக்கவும் இதையே செய்கின்றன.
நுண்ணறிவு மாதிரியாக்கம்: தனியுரிமை அபாயங்கள் இல்லாத வடிவங்கள்
நுண்ணறிவு மாதிரியாக்கம், ஏற்கனவே உள்ள தரவு மற்றும் நுண்ணறிவு மட்டத்தில் தலையீட்டின் சந்திப்பில் செயல்படுகிறது. மூல தரவு புள்ளிகளைக் கையாளுவதற்குப் பதிலாக, உண்மையான பதிவுகளை வெளிப்படுத்தாமல் நிஜ உலகத் தரவின் புள்ளிவிவர பண்புகளைப் பாதுகாக்கும் தரவுத்தொகுப்புகளை இது உருவாக்குகிறது. இது தனியுரிமை உணர்திறன் பயன்பாடுகளுக்கு ஏற்றதாக அமைகிறது.
நுண்ணறிவு மாதிரியாக்கம், ஆராய்ச்சியாளர்கள் ஏற்கனவே உள்ள தரவுத்தொகுப்புகளிலிருந்து நுண்ணறிவுகளை அளவிட அனுமதிக்கிறது, குறிப்பாக பெரிய அளவிலான தரவைச் சேகரிப்பது நடைமுறைக்கு மாறானதாக இருக்கும்போது. இது சந்தைப்படுத்தல் ஆராய்ச்சியில் பொதுவானது, அங்கு தரவு சேகரிப்பு சிக்கலானதாகவும் விலை உயர்ந்ததாகவும் இருக்கும். இருப்பினும், இந்த அணுகுமுறைக்கு நிஜ உலக பயிற்சி தரவின் உறுதியான அடித்தளம் தேவைப்படுகிறது.
எடுத்துக்காட்டு: நகல் சோதனையை நடத்தும் ஒரு சந்தை ஆராய்ச்சி நிறுவனம், அதன் நெறிமுறை தரவுத்தளத்தை அளவிட நுண்ணறிவு மாதிரியைப் பயன்படுத்தலாம். சேகரிக்கப்பட்ட கணக்கெடுப்பு பதில்களை மட்டுமே நம்புவதற்குப் பதிலாக, நிறுவனம் ஏற்கனவே உள்ள நெறிமுறைத் தரவிலிருந்து வடிவங்களை விரிவுபடுத்தும் செயற்கை நுண்ணறிவு மாதிரிகளை உருவாக்க முடியும். இது புதிய கணக்கெடுப்பு பதில்களைத் தொடர்ந்து சேகரிக்காமல், பரந்த, அதிக முன்கணிப்பு தரவுத்தொகுப்புக்கு எதிராக ஆக்கப்பூர்வமான செயல்திறனை சோதிக்க பிராண்டுகளை அனுமதிக்கிறது.
தயாரிக்கப்பட்ட விளைவுகள்: தரவு இன்னும் இல்லாதபோது
புதிய தரவு உருவாக்கம் மற்றும் நுண்ணறிவு-நிலை தலையீடு ஆகிய இரண்டின் தீவிர முடிவில் உற்பத்தி செய்யப்பட்ட முடிவுகள் அமர்ந்துள்ளன. இந்த அணுகுமுறை, AI பயிற்சி, மாடலிங் மற்றும் உருவகப்படுத்துதல்களுக்கு அவசியமான சூழல்கள் அல்லது காட்சிகளை உருவகப்படுத்துவதற்கு புதிதாக முற்றிலும் புதிய தரவுத்தொகுப்புகளை உருவாக்குவதை உள்ளடக்கியது.
சில நேரங்களில், உங்களுக்குத் தேவையான தரவு வெறுமனே இருக்காது - அல்லது நிஜ உலகில் சேகரிக்க மிகவும் விலை உயர்ந்ததாகவோ அல்லது ஆபத்தானதாகவோ இருக்கும். அங்குதான் தயாரிக்கப்பட்ட முடிவுகள் வருகின்றன. இந்த செயல்முறை முற்றிலும் புதிய தரவுத்தொகுப்புகளை உருவாக்குகிறது, பெரும்பாலும் நகலெடுக்க கடினமாக இருக்கும் சூழல்களில் AI அமைப்புகளுக்கு பயிற்சி அளிக்க.
உதாரணம்: சுய-ஓட்டுநர் கார் நிறுவனங்கள், நிஜ உலக ஓட்டுநர் காட்சிகளில் அடிக்கடி தோன்றாத அரிதான ஆனால் முக்கியமான சூழ்நிலைகளில் தங்கள் AI-யைப் பயிற்றுவிக்க, ஒரு பாதசாரி திடீரென ஜெய்வாக்கிங் செய்வது போன்ற செயற்கை சாலை காட்சிகளை உருவாக்குகின்றன.
செயற்கை தரவுகளின் அபாயங்கள் மற்றும் பரிசீலனைகள்
செயற்கைத் தரவு சக்திவாய்ந்த தீர்வுகளை வழங்கினாலும், அது ஆபத்துகள் இல்லாமல் இல்லை. ஒவ்வொரு வகையான செயற்கைத் தரவும் தரவு தரம், நம்பகத்தன்மை மற்றும் நெறிமுறை பயன்பாட்டை பாதிக்கக்கூடிய அதன் சொந்த சவால்களைக் கொண்டுள்ளது. மனதில் கொள்ள வேண்டிய சில முக்கிய கவலைகள் இங்கே:
- சார்பு பரப்புதல்: கணக்கீடு, நுண்ணறிவு மாதிரியாக்கம் அல்லது தயாரிக்கப்பட்ட விளைவுகளுக்குப் பயன்படுத்தப்படும் அடிப்படைத் தரவு சார்புகளைக் கொண்டிருந்தால், அந்த சார்புகளை வலுப்படுத்தலாம் அல்லது பெருக்கலாம்.
- நிஜ உலக பிரதிநிதித்துவமின்மை: பயனர் உருவாக்கம் மற்றும் தரவு உற்பத்தி யதார்த்தமாகத் தோன்றும் தரவை உருவாக்கக்கூடும், ஆனால் உண்மையான பயனர் நடத்தை அல்லது சந்தை நிலைமைகளின் நுணுக்கங்களைப் பிடிக்கத் தவறிவிடும்.
- அதிகப்படியான பொருத்தம் மற்றும் தவறான நம்பிக்கை: நுண்ணறிவு மாதிரியாக்கம், முறையற்ற முறையில் பயன்படுத்தப்படும்போது, பயிற்சித் தொகுப்புடன் மிக நெருக்கமாக ஒத்துப்போகும் தரவை உருவாக்கி, தவறான முடிவுகளுக்கு வழிவகுக்கும்.
- ஒழுங்குமுறை மற்றும் நெறிமுறை கவலைகள்: உண்மையான நபர்களை அடையாளம் காண செயற்கைத் தரவுகளை தலைகீழ் பொறியியலில் உருவாக்க முடிந்தால், GDPR மற்றும் CCPA போன்ற தனியுரிமைச் சட்டங்கள் இன்னும் அதற்குப் பொருந்தும்.
செயற்கைத் தரவை மதிப்பிடும்போது கேட்க வேண்டிய முக்கிய கேள்விகள்
செயற்கைத் தரவு தரத் தரங்களைப் பூர்த்தி செய்வதை உறுதிசெய்ய, இந்தக் கேள்விகளைக் கவனியுங்கள்:
- அசல் தரவின் மூலம் என்ன? செயற்கைத் தரவின் அடித்தளத்தைப் புரிந்துகொள்வது சாத்தியமான சார்புகளையும் வரம்புகளையும் மதிப்பிட உதவுகிறது.
- செயற்கை தரவு எவ்வாறு உருவாக்கப்பட்டது? வெவ்வேறு முறைகள் - இயந்திர கற்றல், புள்ளிவிவர மாதிரிகள் அல்லது விதி அடிப்படையிலான அமைப்புகள் - செயற்கை தரவின் நம்பகத்தன்மையை பாதிக்கின்றன.
- செயற்கைத் தரவு நிஜ உலகத் தரவின் புள்ளிவிவர ஒருமைப்பாட்டைப் பராமரிக்கிறதா? உருவாக்கப்பட்ட தரவு வெறும் நகலெடுக்காமல் உண்மையான தரவைப் போலவே செயல்படுவதை உறுதிசெய்யவும்.
- செயற்கைத் தரவை தணிக்கை செய்யவோ அல்லது சரிபார்க்கவோ முடியுமா? நம்பகமான செயற்கைத் தரவு சரிபார்ப்பு வழிமுறைகளைக் கொண்டிருக்க வேண்டும்.
- இது ஒழுங்குமுறை மற்றும் நெறிமுறை வழிகாட்டுதல்களுக்கு இணங்குகிறதா? தரவு செயற்கையாக இருப்பதால் அது தனியுரிமை விதிமுறைகளிலிருந்து விலக்கு அளிக்கப்படுகிறது என்று அர்த்தமல்ல.
- அடிப்படை தரவு மாதிரிகளைப் புதுப்பிக்க ஒரு செயல்முறை உள்ளதா? செயற்கைத் தரவு, அது அடிப்படையாகக் கொண்ட நிஜ உலகத் தரவைப் போலவே சிறந்தது. அடிப்படை தரவுத்தொகுப்பைத் தொடர்ந்து புதுப்பிப்பதற்கான செயல்முறையை உறுதி செய்வது, மாதிரிகள் காலாவதியாகி, தற்போதைய போக்குகளுடன் தவறாக இணைக்கப்படுவதைத் தடுக்கிறது.
அதை மூடுதல்
செயற்கைத் தரவு என்பது ஒரு பரந்த சொல், நீங்கள் AI, பகுப்பாய்வு அல்லது ஏதேனும் தரவு சார்ந்த துறையில் பணிபுரிகிறீர்கள் என்றால், நீங்கள் எந்த வகையான தரவைக் கையாளுகிறீர்கள் என்பது குறித்து தெளிவாக இருக்க வேண்டும். காணாமல் போன தரவை நிரப்புகிறீர்களா (கணிப்பு), சோதனை பயனர்களை உருவாக்குகிறீர்களா (பயனர் உருவாக்கம்), அநாமதேய வடிவங்களை உருவாக்குகிறீர்களா (நுண்ணறிவு மாதிரியாக்கம்), அல்லது புதிதாக புதிதாக தரவுத்தொகுப்புகளை உருவாக்குகிறீர்களா (உற்பத்தி செய்யப்பட்ட முடிவுகள்)?
இவை ஒவ்வொன்றும் நாம் தரவை எவ்வாறு பயன்படுத்துகிறோம் மற்றும் பாதுகாக்கிறோம் என்பதில் வெவ்வேறு பங்கை வகிக்கின்றன, மேலும் அவற்றைப் புரிந்துகொள்வது AI மற்றும் தரவு அறிவியலின் வேகமாக வளர்ந்து வரும் உலகில் தகவலறிந்த முடிவுகளை எடுப்பதற்கு முக்கியமாகும். எனவே அடுத்த முறை யாராவது "செயற்கை தரவு" என்ற வார்த்தையைச் சுற்றி வரும்போது, அவர்களிடம் கேளுங்கள்: எந்த வகை?