2025 жылдың басынан бастап AI зертханалары бізді көптеген жаңа модельдермен толтырды, мен оларды ұстауға тырысамын.
Бірақ трендтер ешкімге мән бермейді дейді! Тек ChatGPT бар:
Қалай солай?
Жаңа модельдер керемет, бірақ олардың атаулары толығымен шатасады. Сонымен қатар, сіз бұдан былай үлгілерді эталондар бойынша ажырата алмайсыз. «Бұл ең жақсы, оны бәрі пайдаланады» деген қарапайым сөз қазір жұмыс істемейді.
Бір сөзбен айтқанда, нарықта көптеген керемет AI модельдері бар, бірақ оларды аз адамдар пайдаланады.
Және бұл ұят!
Мен атаудағы хаосты түсінуге тырысамын, эталондық дағдарысты түсіндіремін және қажеттіліктеріңізге дұрыс үлгіні таңдау туралы кеңестермен бөлісемін.
Тым көп модельдер, қорқынышты атаулар
Дарио Амодей біз модельдерімізді нақты атауды үйренбей тұрып, AGI жасай аламыз деп көптен қалжыңдады. Google дәстүрлі түрде шатастыру ойынын басқарады:
Әділ болу үшін, бұл белгілі бір мағынаға ие. Әрбір «базалық» модельде қазір көптеген жаңартулар бар. Олар әр жаңартуды жаңа нұсқа ретінде негіздеу үшін әрдайым жаңашыл бола бермейді. Бұл префикстердің барлығы осы жерден шыққан.
Заттарды жеңілдету үшін мен барлық қажет емес бөлшектерді алып тастап, негізгі зертханалардағы үлгі түрлерінің кестесін жинадым.
Сонымен, бұл үлгілердің қандай түрлері бар?
Үлкен, қуатты базалық модельдер бар. Олар әсерлі, бірақ масштабта баяу және қымбат.
Сондықтан біз дистилляцияны ойлап таптық: негізгі үлгіні алыңыз, оның жауаптары бойынша ықшам үлгіні оқытыңыз және сіз шамамен бірдей мүмкіндіктерге ие боласыз, тек тезірек және арзанырақ.
Бұл әсіресе ойлау үлгілері үшін өте маңызды. Үздік орындаушылар енді көп сатылы дәлелдеу тізбегін бақылайды — шешімді жоспарлайды, орындайды және нәтижені тексереді. Тиімді, бірақ қымбат.
Сондай-ақ арнайы үлгілер бар: іздеу үшін, қарапайым тапсырмалар үшін өте арзан модельдер немесе медицина және заң сияқты нақты салаларға арналған модельдер. Сонымен қатар суреттер, бейне және аудио үшін бөлек топ. Мен мұның бәрін шатастырып алмау үшін қоспадым. Мен оны мүмкіндігінше қарапайым ету үшін кейбір басқа модельдер мен зертханаларды әдейі елемедім.
Кейде көбірек мәліметтер жағдайды нашарлатады.
Барлық модельдер қазір бірдей
Жеңімпазды анықтау қиынға соқты. Андрей Карпати жақында мұны «бағалау дағдарысы» деп атады.
Қазір қандай көрсеткіштерді қарау керектігі белгісіз. MMLU ескірген, ал SWE-Bench тым тар. Chatbot Arena танымал болғаны сонша, зертханалар оны «бұзуды» үйренді.
Қазіргі уақытта модельдерді бағалаудың бірнеше әдістері бар:
- Тар өлшемдер Python кодтауы немесе галлюцинация жылдамдығы сияқты өте нақты дағдыларды өлшейді. Бірақ модельдер ақылды болып, көбірек тапсырмаларды меңгеруде, сондықтан олардың деңгейін енді бір ғана метрикамен өлшей алмайсыз.
- Кешенді салыстырулар метриканың жүктемелері бар бірнеше өлшемдерді түсіруге тырысады. Дегенмен, осы ұпайлардың барлығын салыстыру тез хаотикалық болады. Адамдар осы күрделі эталондардың еселіктерін факторлауға тырысатынын ескеріңіз. Бір уақытта бес-он! Бір модель мұнда жеңеді, екіншісі сол жерде - оны түсінуде сәттілік.
- Арена, мұнда адамдар жеке қалауларға негізделген үлгілік жауаптарды соқыр түрде салыстырады. Модельдер шахматшылар сияқты ELO рейтингін алады. Жиі жеңіске жетіңіз, жоғары ELO алыңыз. Бірақ бұл модельдер бір-біріне тым жақын болғанша керемет болды.
35 ұпайлық айырмашылық модель уақыттың 55% ғана жақсырақ дегенді білдіреді.
Шахматтағы сияқты, ELO деңгейі төмен ойыншының жеңіске жету мүмкіндігі әлі де жоғары. Тіпті 100 ұпайлық алшақтық болса да, «нашар» модель әлі де жағдайлардың үштен бірінен асып түседі.
Және тағы да — кейбір тапсырмалар бір үлгімен, басқалары басқа үлгімен жақсырақ шешіледі. Тізімнен жоғарырақ үлгіні таңдаңыз және 10 сұрауыңыздың біреуі жақсырақ болуы мүмкін. Қайсысы және қаншалықты жақсы?
Кім біледі.
Сонымен, сіз қалай таңдайсыз?
Жақсы нұсқалардың жоқтығынан Карпати виб-тексеруге сүйенуді ұсынады.
Модельдерді өзіңіз сынап көріңіз және қайсысы дұрыс екенін көріңіз. Әрине, өзіңізді алдау оңай.
Бұл субъективті және біржақтылыққа бейім, бірақ бұл практикалық.
Міне, менің жеке кеңесім:
- Тапсырма жаңа болса, әртүрлі үлгілері бар бірнеше қойындыларды ашып, нәтижелерді салыстырыңыз. Қай модель азырақ түзетуді немесе өңдеуді қажет ететініне сеніңіз.
- Егер тапсырма көбірек таныс болса, тек ең жақсы үлгіңізді пайдаланыңыз.
- Эталондық сандарды іздеуді ұмытыңыз. Өзіңізге ұнайтын UX-ге назар аударыңыз және төлеуге дайын жазылымға басымдық беріңіз.
- Егер әлі де сандар қажет болса, https://livebench.ai/#/ пайдаланып көріңіз. Жасаушылар ол бұзу, ескіру, тарлық және субъективтілік сияқты жалпы салыстыру мәселелерін түзетеді деп мәлімдейді.
- Өнім жасаушылар үшін HuggingFace ұсынған өзіңіздің жеке эталоныңызды қалай орнатуға болатыны туралы тамаша нұсқаулық. https://github.com/huggingface/evaluation-guidebook/
Сонымен қатар, егер сіз ChatGPT-тен басқа бірдеңені қолданып көру үшін белгіні күткен болсаңыз, мына жерде:
Әрі қарай, мен әр модельдің маңызды сәттерін қарастырамын және басқа адамдардың діріл тексерулерін қорытындылаймын.
Егер сізге бұл ұнаса және келесі мақаланы жіберіп алғыңыз келмесе, жазылыңыз!