Превише АИ са превише страшних имена: Како одабрати свој АИ модел

Од почетка 2025. лабораторије АИ су нас преплавиле са толико нових модела да се борим да их пратим.

Али трендови кажу да никог није брига! Постоји само ЦхатГПТ:

Како то?

Нови модели су сјајни, али њихово именовање је потпуна збрка. Поред тога, више не можете чак ни да разликујете моделе по мерилима. Обичан „овај је најбољи, сви га користе“ сада не функционише.

Укратко, постоји много заиста фантастичних АИ модела на тржишту, али мало људи их заправо користи.

И то је штета!

Покушаћу да схватим хаос у именовању, објасним кризу мерила и поделим савете о томе како да изаберете прави модел за ваше потребе.

Превише модела, ужасна имена

Дарио Амодеи се дуго шалио да бисмо могли да направимо АГИ пре него што научимо да јасно именујемо наше моделе. Гоогле традиционално води игру конфузије:

Да будемо поштени, има неког смисла. Сваки "базни" модел сада има много ажурирања. Нису увек довољно револуционарни да оправдају свако ажурирање као нову верзију. Одатле потичу сви ови префикси.

Да поједноставим ствари, саставио сам табелу типова модела из великих лабораторија, уклањајући све непотребне детаље.

Дакле, које су ове врсте модела?

Постоје огромни, моћни основни модели. Они су импресивни, али спори и скупи у обиму.
Зато смо измислили дестилацију : узмите основни модел, обучите компактнији модел на његове одговоре, и добићете отприлике исте могућности, само брже и јефтиније.
Ово је посебно критично за моделе расуђивања . Најбољи извођачи сада прате ланце расуђивања у више корака — планирају решење, извршавају га и верификују исход. Ефикасно, али скупо.

Постоје и специјализовани модели: за претрагу, супер јефтини за једноставне задатке или модели за специфичне области попут медицине и права. Плус посебна група за слике, видео и аудио. Нисам укључио све ово да избегнем забуну. Такође сам намерно игнорисао неке друге моделе и лабораторије како бих био што једноставнији.

Понекад више детаља само погоршава ствари.

Сви модели су сада у основи једнаки

Постало је тешко изабрати јасног победника. Андреј Карпати је ово недавно назвао „кризом евалуације“.

Нејасно је које метрике сада гледати. ММЛУ је застарео, а СВЕ-клупа је преуска. Цхатбот Арена је толико популарна да су лабораторије научиле да је „хакују“.

Тренутно постоји неколико начина за процену модела:

Уски стандарди мере веома специфичне вештине, попут Питхон кодирања или стопе халуцинација. Али модели постају паметнији и савладавају више задатака, тако да више не можете да мерите њихов ниво само једном метриком.

Свеобухватна мерила перформанси покушавају да обухвате више аспеката са мноштвом показатеља. Међутим, поређење свих ових резултата брзо постаје хаотично. Имајте на уму да људи покушавају да факторе вишеструке од ових сложених мерила. Пет или десет одједном! Један модел побеђује овде, други тамо - срећно у разумевању.

Арена, где људи слепо упоређују одговоре модела на основу личних преференција. Модели добијају ЕЛО оцену, попут шахиста. Побеђујте чешће, добијајте већи ЕЛО. Али ово је било сјајно све док се модели нису превише приближили један другом.

Разлика од 35 поена значи да је модел бољи само 55% времена.

Као и у шаху, играч са нижим ЕЛО и даље има добре шансе за победу. Чак и са размаком од 100 поена, „гори“ модел и даље има бољи учинак у трећини случајева.

И опет — неке задатке боље решава један модел, други други. Изаберите модел који је виши на листи и један од ваших 10 захтева би могао бити бољи. Који и колико бољи?

ко зна.

Дакле, како бирате?

Због недостатка бољих опција, Карпатхи предлаже да се ослоните на проверу вибрације.

Сами тестирајте моделе и видите који вам одговара. Наравно, лако је преварити себе.

То је субјективно и склоно пристрасности - али је практично.

Ево мог личног савета:

Ако је задатак нов—отворите више картица са различитим моделима и упоредите резултате. Верујте свом осећају који модел захтева мање подешавања или измена.
Ако вам је задатак познатији, користите само свој најбољи модел.
Заборавите на јурење за референтним бројевима. Фокусирајте се на кориснички доживљај који вам се свиђа и дајте приоритет претплати за коју сте већ спремни да платите.
Ако и даље желите бројеве, покушајте хттпс://ливебенцх.аи/#/ . Креатори тврде да поправља уобичајена питања бенчмаркинга као што су хаковање, застарелост, ускост и субјективност.
За креаторе производа, ево одличног водича са ХуггингФаце-а о томе како да поставите сопствену референтну вредност. хттпс://гитхуб.цом/хуггингфаце/евалуатион-гуидебоок/

У међувремену, ако сте чекали знак да испробате нешто друго осим ЦхатГПТ-а, ево га:

хттпс://цлауде.аи/

хттпс://гемини.гоогле.цом/

хттпс://грок.цом/

хттпс://цхат.деепсеек.цом/

хттрс://схат.опенаи.сом

Затим ћу покрити значајне нагласке из сваког модела и резимирати провере вибрација других људи.

Ако сте уживали у овоме и не желите да пропустите следећи чланак, претплатите се!