जो चीज GPT-3 और डैल को शक्तिशाली बनाती है, वह बिल्कुल एक ही चीज है: डेटा।
हमारे क्षेत्र में डेटा महत्वपूर्ण है, और हमारे मॉडल बेहद डेटा-भूखे हैं। ये बड़े मॉडल, या तो जीपीटी के लिए भाषा मॉडल या डेल के लिए छवि मॉडल, सभी को एक ही चीज़ की आवश्यकता होती है: बहुत अधिक डेटा।
आपके पास जितना अधिक डेटा होगा, उतना ही बेहतर होगा। इसलिए आपको उन मॉडलों को बढ़ाने की जरूरत है, खासकर वास्तविक दुनिया के अनुप्रयोगों के लिए।
बड़े मॉडल बेहतर करने के लिए बड़े डेटासेट का उपयोग तभी कर सकते हैं, जब डेटा उच्च गुणवत्ता का हो।
वास्तविक दुनिया का प्रतिनिधित्व नहीं करने वाली छवियों को खिलाने से कोई फायदा नहीं होगा और यहां तक कि मॉडल की सामान्यीकरण की क्षमता भी खराब हो जाएगी। यह वह जगह है जहाँ डेटा-केंद्रित AI काम आता है ...
वीडियो में और जानें:
►पूरा लेख पढ़ें: https://www.louisbouchard.ai/data-centric-ai/
डेटा-केंद्रित एआई: https://snorkel.ai/data-centric-ai
कमजोर पर्यवेक्षण: https://snorkel.ai/weak-supervision/
प्रोग्रामेटिक लेबलिंग: https://snorkel.ai/programmatic-labeling/
डेटा-केंद्रित एआई के लिए संसाधनों की क्यूरेटेड सूची: https://github.com/hazyresearch/data-centric-ai
स्नोर्कल के बारे में अधिक जानें: https://snorkel.ai/company/
मॉडल-केंद्रित से डेटा-केंद्रित AI - एंड्रयू एनजी:
सॉफ्टवेयर 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2
पेपर 1: रैटनर, ए.जे., डी सा, सीएम, वू, एस., सेल्सम, डी. और रे, सी.,
2016. डेटा प्रोग्रामिंग: जल्दी से बड़े प्रशिक्षण सेट बनाना। अग्रिमों
तंत्रिका सूचना प्रसंस्करण प्रणालियों में, 29.
पेपर 2: रैटनर, ए., बाख, एसएच, एहरेनबर्ग, एच., फ्राइज़, जे., वू, एस. और
आरई, सी।, 2017, नवंबर। स्नोर्कल: कमजोर के साथ तेजी से प्रशिक्षण डेटा निर्माण
पर्यवेक्षण। वीएलडीबी बंदोबस्ती की कार्यवाही में। अंतरराष्ट्रीय
बहुत बड़े डेटा बेस पर सम्मेलन (खंड 11, संख्या 3, पृष्ठ 269)। एनआईएच पब्लिक
पहुँच।
पेपर 3: आरई, सी (2018)। सॉफ्टवेयर 2.0 और स्नोर्कल: बियॉन्ड हैंड-लेबल
जानकारी। 24वें ACM SIGKDD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही
नॉलेज डिस्कवरी एंड डेटा माइनिंग।
►माई न्यूज़लेटर (आपके ईमेल को साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/
वीडियो प्रतिलेख
0:00
क्या gpt3 और दिल्ली को शक्तिशाली बनाता है?
0:03
बिल्कुल वही बात डेटा डेटा है
0:06
हमारे क्षेत्र में महत्वपूर्ण हैं और हमारे मॉडल हैं
0:08
अत्यधिक डेटा भूखे इन बड़े मॉडलों
0:11
जीपीटी या छवि के लिए या तो भाषा मॉडल
0:13
दिल्ली के लिए सभी मॉडलों को समान की आवश्यकता होती है
0:15
चीज़
0:16
दुर्भाग्य से बहुत अधिक डेटा अधिक
0:19
डेटा आपके पास बेहतर है इसलिए आप
0:21
विशेष रूप से उन मॉडलों को बढ़ाने की जरूरत है
0:24
वास्तविक दुनिया के अनुप्रयोगों के लिए बड़ा
0:26
मॉडल बड़े डेटासेट का उपयोग कर सकते हैं
0:28
डेटा उच्च होने पर ही सुधार करें
0:30
गुणवत्ता वाले खिला चित्र जो नहीं करते हैं
0:32
वास्तविक दुनिया का प्रतिनिधित्व नहीं होगा
0:34
उपयोग करें और मॉडल की क्षमता को भी खराब करें
0:37
इसे सामान्य बनाने के लिए डेटा केंद्रित है
0:39
एआई प्ले डेटा सेंट्रिक एआई में भी आता है
0:43
सॉफ्टवेयर 2.0 के रूप में संदर्भित सिर्फ एक है
0:46
यह कहने का शानदार तरीका है कि हम अपना अनुकूलन करते हैं
0:48
मॉडल को अधिकतम करने के लिए डेटा
0:50
मॉडल-केंद्रित के बजाय प्रदर्शन
0:52
जहां आप सिर्फ मॉडल के ट्वीक करेंगे
0:54
निश्चित रूप से निश्चित डेटासेट पर पैरामीटर
0:57
सर्वश्रेष्ठ होने के लिए दोनों को करने की आवश्यकता है
0:59
परिणाम संभव है लेकिन डेटा बहुत दूर है
1:02
इस वीडियो में यहां बड़ा खिलाड़ी
1:04
स्नोर्कल के साथ साझेदारी मैं कवर करूंगा
1:06
डेटा केंद्रित एआई क्या है और कुछ की समीक्षा करें
1:09
क्षेत्र में बड़ी प्रगति आप करेंगे
1:11
जल्दी से समझें कि डेटा ऐसा क्यों है
1:13
मशीन लर्निंग में महत्वपूर्ण जो है
1:15
स्नोर्कल का मिशन . से एक उद्धरण लेते हुए
1:17
उनकी ब्लॉग पोस्ट नीचे टीमों से जुड़ी होगी
1:19
अक्सर नए मॉडल लिखने में समय बिताते हैं
1:21
उनकी समस्या को समझने के बजाय
1:23
और डेटा में इसकी अभिव्यक्ति अधिक गहराई से
1:26
एक नया मॉडल लिखना एक सुंदर है
1:28
की गंदगी से छिपने की शरण
1:30
वास्तविक समस्याओं को समझना और यह
1:33
इस वीडियो का उद्देश्य एक में मुकाबला करना है
1:36
वाक्य डेटा केंद्रित एआई का लक्ष्य है
1:38
हमारे डेटा से ज्ञान को एन्कोड करने के लिए
1:40
डेटा को अधिकतम करके मॉडल
1:42
गुणवत्ता और मॉडल का प्रदर्शन यह सब
1:45
2016 में स्टैनफोर्ड में एक पेपर के साथ शुरू हुआ
1:48
डेटा प्रोग्रामिंग कहा जाता है जो बड़ा बनाता है
1:51
प्रशिक्षण सेट जल्दी से शुरू कर रहा है a
1:54
प्रशिक्षण डेटा सेट को लेबल करने के लिए प्रतिमान
1:56
प्रोग्रामेटिक रूप से बजाय हाथ से
1:58
यह एक अनंत काल पहले ai . के संदर्भ में था
2:01
अनुसंधान युग जैसा कि आप सबसे अच्छी तरह जानते हैं
2:04
तिथि उपयोग के दृष्टिकोण पर्यवेक्षित
2:05
एक ऐसी प्रक्रिया सीखना जिसमें मॉडल प्रशिक्षित होते हैं
2:08
डेटा और लेबल पर और करना सीखें
2:10
डेटा दिए जाने पर लेबल को पुन: पेश करें
2:13
उदाहरण के लिए आप एक मॉडल को कई खिलाएंगे
2:15
उनके साथ बत्तख और बिल्लियों की छवियां
2:17
संबंधित लेबल और मॉडल से पूछें
2:20
पता करें कि तस्वीर में क्या है तो उपयोग करें
2:23
मॉडल को प्रशिक्षित करने के लिए वापस प्रचार
2:25
यदि आप हैं तो यह कितनी अच्छी तरह सफल होता है, इस पर आधारित
2:27
पीछे के प्रसार से अपरिचित i
2:29
वीडियो देखने के लिए रोकने के लिए आमंत्रित करें
2:31
मेरा एक मिनट का स्पष्टीकरण और वापसी
2:33
जहां आपने छोड़ा था क्योंकि डेटा सेट हैं
2:35
बड़ा और बड़ा होता जाता है
2:37
उन्हें क्यूरेट करना कठिन होता जा रहा है
2:39
और हानिकारक डेटा को हटाने की अनुमति देने के लिए
2:41
केवल प्रासंगिक डेटा पर ध्यान केंद्रित करने के लिए मॉडल जो आप
2:44
पता लगाने के लिए अपने मॉडल को प्रशिक्षित नहीं करना चाहता
2:46
एक बिल्ली जब यह एक बदमाश है तो वह समाप्त हो सकता है
2:48
बुरी तरह से जब मैं डेटा का उल्लेख करता हूं तो ध्यान रखें
2:51
कि यह किसी भी प्रकार का डेटा सारणीबद्ध हो सकता है
2:53
चित्र पाठ वीडियो आदि अब जो आप कर सकते हैं
2:57
किसी भी कार्य के लिए आसानी से एक मोडल डाउनलोड करें
2:59
डेटा सुधार में बदलाव और
3:01
अनुकूलन अपरिहार्य मोटर है
3:03
उपलब्धता हाल के डेटा का पैमाना
3:05
सेट और डेटा निर्भर सीडी मॉडल
3:08
हैं इसलिए इस तरह के एक प्रतिमान के लिए
3:10
लेबलिंग प्रशिक्षण डेटा सेट
3:12
प्रोग्रामेटिक रूप से आवश्यक हो जाता है
3:14
अब मुख्य समस्या होने के साथ आती है
3:17
हमारे डेटा के लिए लेबल जिन्हें रखना आसान है
3:19
बिल्लियों और कुत्तों के हजारों चित्र लेकिन
3:22
यह जानना बहुत कठिन है कि कौन सी छवियां
3:24
एक खोदा है और किन छवियों में एक बिल्ली है
3:26
और उनका सटीक होना और भी कठिन
3:28
विभाजन के लिए छवि में स्थान
3:31
उदाहरण के लिए कार्य
3:32
पहला पेपर एक डेटा पेश करता है
3:34
प्रोग्रामिंग ढांचा जहां उपयोगकर्ता
3:36
या तो एमएल इंजीनियर या डेटा साइंटिस्ट
3:38
कमजोर पर्यवेक्षण रणनीतियों को व्यक्त करता है:
3:41
एक जेनरेटर का उपयोग करके लेबलिंग फ़ंक्शन
3:43
मॉडल जो डेटा के सबसेट को लेबल करता है
3:46
और पाया कि डेटा प्रोग्रामिंग हो सकती है
3:48
गैर-विशेषज्ञों के लिए बनाने का एक आसान तरीका
3:51
प्रशिक्षण के दौरान मशीन लर्निंग मॉडल
3:53
डेटा सीमित है या संक्षेप में उपलब्ध नहीं है
3:56
वे दिखाते हैं कि बिना डेटा के कैसे सुधार किया जा सकता है
3:58
रखते हुए बहुत अतिरिक्त काम
4:00
मॉडल वही सुधार परिणाम जो है
4:03
अब एक स्पष्ट लेकिन आवश्यक कदम
4:05
पत्थर यह वास्तव में दिलचस्प है
4:07
इस क्षेत्र में फाउंडेशन पेपर और मूल्य
4:09
पढ़ा
4:10
दूसरा पेपर जिसे हम यहां कवर करते हैं, कहलाता है
4:12
स्नोर्कल रैपिड ट्रेनिंग डेटा क्रिएशन
4:15
कमजोर पर्यवेक्षण के साथ यह पेपर
4:17
से एक साल बाद भी प्रकाशित
4:19
स्टैनफोर्ड विश्वविद्यालय एक लचीला प्रस्तुत करता है
4:22
लेबलिंग लिखने के लिए इंटरफ़ेस परत
4:24
निरंतर अनुभव के आधार पर कार्य
4:27
इस विचार पर कि प्रशिक्षण डेटा है
4:28
तेजी से बड़ा और कठिन
4:30
मॉडल में अड़चन पैदा करने वाला लेबल
4:33
प्रदर्शन वे पेश करते हैं स्नोर्कल a
4:36
सिस्टम जो पिछले को लागू करता है
4:37
एंड-टू-एंड सिस्टम सिस्टम में पेपर
4:40
लोगों को ज्ञान विशेषज्ञों की अनुमति दी
4:42
जो डेटा को आसानी से समझ सके
4:44
लेबलिंग कार्यों को परिभाषित करें
4:46
इसके बजाय डेटा को स्वचालित रूप से लेबल करें
4:48
हाथ से एनोटेशन बिल्डिंग मॉडल बनाना
4:51
2.8 गुना तेज जबकि भी
4:54
a . द्वारा भविष्य कहनेवाला प्रदर्शन बढ़ाना
4:56
इसके बजाय फिर से 45.5 प्रतिशत का औसत
5:00
उपयोगकर्ताओं या ज्ञान को लेबल करने के लिए
5:03
विशेषज्ञ ये लेबलिंग फ़ंक्शन लिखते हैं
5:05
फ़ंक्शंस बस को अंतर्दृष्टि देते हैं
5:07
देखने के लिए पैटर्न पर मॉडल or
5:10
कुछ भी विशेषज्ञ वर्गीकृत करने के लिए उपयोग करेगा
5:12
मॉडल का पालन करने में मदद करने वाला डेटा
5:14
एक ही प्रक्रिया तो सिस्टम लागू होता है
5:17
नव लिखित लेबलिंग कार्य समाप्त
5:19
हमारा बिना लेबल वाला डेटा और सीखता है a
5:21
आउटपुट को संयोजित करने के लिए जनरेटिव मॉडल
5:24
संभाव्य लेबल में लेबल जो
5:26
फिर हमारे अंतिम गहरे को प्रशिक्षित करने के लिए उपयोग किया जाता है
5:29
तंत्रिका नेटवर्क स्नोर्कल यह सब करता है
5:32
स्वयं इस पूरी प्रक्रिया को सुगम बना रहे हैं
5:35
पहली बार के लिए
5:36
हमारा आखिरी पेपर भी स्टैनफोर्ड से
5:39
एक और साल बाद सॉफ्टवेयर पेश करता है
5:42
2.0 यह एक पेज का पेपर एक बार फिर है
5:45
उसी गहराई के साथ आगे बढ़ते हुए
5:47
डेटा केंद्रित दृष्टिकोण सीखना
5:49
प्रशिक्षण का उत्पादन करने के लिए लेबलिंग कार्य
5:51
बड़े लेबल रहित डेटा सेट के लिए लेबल और
5:54
हमारे अंतिम मॉडल को प्रशिक्षित करें जो है
5:56
विशाल इंटरनेट के लिए विशेष रूप से उपयोगी
5:59
स्क्रैप किए गए डेटा सेट जैसे कि उपयोग किया जाता है
6:01
Google एप्लिकेशन जैसे Google विज्ञापन
6:03
की कमी से निपटने के लिए जीमेल यूट्यूब आदि
6:06
हाथ से लेबल किया गया डेटा बेशक यह सही है
6:09
प्रगति का एक सिंहावलोकन और
6:10
डेटा केंद्रित ai और i . की दिशा
6:13
पढ़ने के लिए आपको पुरजोर आमंत्रित करते हैं
6:14
करने के लिए नीचे विवरण में जानकारी
6:16
डेटा केंद्रित ai का पूरा दृश्य है
6:19
यह कहाँ से आता है और कहाँ है
6:21
हेडिंग मैं स्नोर्कल को भी धन्यवाद देना चाहता हूं
6:24
इस वीडियो को प्रायोजित कर रहा हूं और मैं आपको आमंत्रित करता हूं
6:26
अधिक के लिए अपनी वेबसाइट देखने के लिए
6:28
जानकारी यदि आपने नहीं सुना है
6:30
स्नोर्कल इससे पहले कि आप अभी भी इस्तेमाल कर चुके हैं
6:32
जैसे कई उत्पादों में उनका दृष्टिकोण
6:35
यूट्यूब गूगल विज्ञापन जीमेल और अन्य बड़े
6:37
अनुप्रयोग
6:39
वीडियो देखने के लिए धन्यवाद
6:41
समाप्त
[संगीत]