999 lexime
999 lexime

Shumë AI me shumë emra të tmerrshëm: Si të zgjidhni modelin tuaj të AI

nga Leo Khomenko4m2025/03/25
Read on Terminal Reader

Shume gjate; Te lexosh

Laboratorët e inteligjencës artificiale na kanë përmbytur me kaq shumë modele të reja, saqë po mundohem të vazhdoj. Modelet e reja janë të mrekullueshme, por emërtimi i tyre është një rrëmujë e plotë. Ju nuk mund t'i dalloni më modelet me standarde. Fjala e thjeshtë "ky është më i miri, të gjithë e përdorin" nuk funksionon tani.
featured image - Shumë AI me shumë emra të tmerrshëm: Si të zgjidhni modelin tuaj të AI
Leo Khomenko HackerNoon profile picture

Që nga fillimi i vitit 2025, laboratorët e inteligjencës artificiale na kanë vërshuar me kaq shumë modele të reja, saqë po mundohem të vazhdoj.


Por tendencat thonë se askush nuk kujdeset! Ekziston vetëm ChatGPT:


Si kështu?


Modelet e reja janë të mrekullueshme, por emërtimi i tyre është një rrëmujë e plotë. Plus, ju nuk mund t'i dalloni më modelet sipas standardeve. Fjala e thjeshtë "ky është më i miri, të gjithë e përdorin" nuk funksionon tani.


Me pak fjalë, ka shumë modele vërtet fantastike të AI në treg, por pak njerëz i përdorin ato.


Dhe kjo është një turp!


Do të përpiqem të kuptoj kaosin e emërtimit, të shpjegoj krizën e standardeve dhe të ndaj këshilla se si të zgjidhni modelin e duhur për nevojat tuaja.

Shumë modele, emra të tmerrshëm

Dario Amodei ka bërë shaka prej kohësh se ne mund të krijojmë AGI para se të mësojmë t'i emërtojmë qartë modelet tona. Google tradicionalisht po udhëheq lojën e konfuzionit:



Për të qenë të drejtë, ka pak kuptim. Çdo model "bazë" tani ka shumë përditësime. Ata nuk janë gjithmonë mjaft novator për të justifikuar çdo përditësim si një version të ri. Nga vijnë të gjitha këto parashtesa.


Për t'i thjeshtuar gjërat, kam bashkuar një tabelë të llojeve të modeleve nga laboratorët kryesorë, duke hequr të gjitha detajet e panevojshme.



Pra, cilat janë këto lloje modelesh?


  1. Ka modele bazë të mëdha dhe të fuqishme. Ato janë mbresëlënëse, por të ngadalta dhe të kushtueshme në shkallë.


  2. Kjo është arsyeja pse ne shpikëm distilimin : merrni një model bazë, stërvitni një model më kompakt në përgjigjet e tij dhe ju merrni afërsisht të njëjtat aftësi, thjesht më shpejt dhe më lirë.


  3. Kjo është veçanërisht kritike për modelet e arsyetimit . Interpretuesit më të mirë tani ndjekin zinxhirët e arsyetimit me shumë hapa - planifikojnë zgjidhjen, ekzekutojnë dhe verifikojnë rezultatin. Efektive por e kushtueshme.


Ka edhe modele të specializuara: për kërkim, super të lira për detyra të thjeshta, ose modele për fusha specifike si mjekësia dhe drejtësia. Plus një grup të veçantë për imazhe, video dhe audio. Nuk i përfshiva të gjitha këto për të shmangur konfuzionin. Unë gjithashtu injorova qëllimisht disa modele dhe laboratorë të tjerë për ta mbajtur atë sa më të thjeshtë.


Ndonjëherë, më shumë detaje thjesht i bëjnë gjërat më keq.

Të gjitha modelet janë në thelb të barabarta Tani

Është bërë e vështirë të zgjedhësh një fitues të qartë. Andrej Karpathy kohët e fundit e quajti këtë një "krizë vlerësimi".


Është e paqartë se cilat metrika duhen parë tani. MMLU është i vjetëruar dhe SWE-Bench është shumë i ngushtë. Chatbot Arena është aq popullor sa laboratorët kanë mësuar ta "hakojnë" atë.



Aktualisht, ekzistojnë disa mënyra për të vlerësuar modelet:


  1. Standardet e ngushta masin aftësi shumë specifike, si kodimi i Python ose normat e halucinacioneve. Por modelet po bëhen më të zgjuara dhe po zotërojnë më shumë detyra, kështu që nuk mund ta matni më nivelin e tyre vetëm me një metrikë.


  1. Standardet gjithëpërfshirëse përpiqen të kapin dimensione të shumta me ngarkesa metrike. Megjithatë, krahasimi i të gjitha këtyre rezultateve shpejt bëhet kaotik. Vini re se njerëzit përpiqen të faktorizojnë shumëfish të këtyre standardeve komplekse. Pesë ose dhjetë në një kohë! Një model fiton këtu, një tjetër atje - fat i mirë për ta kuptuar atë.

LifeBench ka 3 metrikë brenda secilës kategori. Dhe ky është vetëm një pikë referimi midis dhjetëra.


  1. Arena, ku njerëzit i krahasojnë verbërisht përgjigjet model bazuar në preferencat personale. Modelet marrin një vlerësim ELO, si lojtarët e shahut. Fitoni më shpesh, merrni një ELO më të lartë. Por kjo ishte e mrekullueshme derisa modelet u afruan shumë me njëra-tjetrën.


Një diferencë prej 35 pikësh do të thotë se një model është më i mirë vetëm në 55% të rasteve.


Ashtu si në shah, lojtari me ELO më të ulët ka ende një shans të mirë për të fituar. Edhe me një hendek prej 100 pikësh, një model "më i keq" vazhdon të jetë më i mirë në një të tretën e rasteve.


Dhe përsëri - disa detyra zgjidhen më mirë nga një model, të tjerat nga një tjetër. Zgjidhni një model më të lartë në listë dhe një nga 10 kërkesat tuaja mund të jetë më e mirë. Cila dhe sa më mirë?


Kush e di.

Pra, si e zgjidhni?

Për mungesë opsionesh më të mira, Karpathy sugjeron të mbështeteni në kontrollin e vibe-ve.


Provoni vetë modelet dhe shikoni se cili është i duhuri. Sigurisht, është e lehtë të mashtrosh veten.


Është subjektiv dhe i prirur për paragjykim - por është praktik.


Këtu është këshilla ime personale:


  1. Nëse detyra është e re - hapni skeda të shumta me modele të ndryshme dhe krahasoni rezultatet. Besoni mendjen tuaj se cili model kërkon më pak ndryshime ose modifikime.
  2. Nëse detyra është më e njohur, përdorni vetëm modelin tuaj më të mirë.
  3. Harrojeni ndjekjen e numrave të standardeve. Përqendrohuni në UX që ju pëlqen dhe jepni përparësi abonimit për të cilin jeni tashmë të gatshëm të paguani.
  4. Nëse dëshironi akoma numra, provoni https://livebench.ai/#/ . Krijuesit pretendojnë se rregullon çështjet e zakonshme të standardeve si hakerimi, vjetërimi, ngushtësia dhe subjektiviteti.
  5. Për krijuesit e produkteve, këtu është një udhëzues i mrekullueshëm nga HuggingFace se si të vendosni standardin tuaj. https://github.com/huggingface/evaluation-guidebook/


Ndërkohë, nëse keni pritur për një shenjë për të provuar diçka tjetër përveç ChatGPT, këtu është:


https://claude.ai/

https://gemini.google.com/

https://grok.com/

https://chat.deepseek.com/

httрs://сhаt.openai.сom


Më pas, do të mbuloj pikat kryesore të secilit model dhe do të përmbledh kontrollet e atmosferës së njerëzve të tjerë.


Nëse ju pëlqeu kjo dhe nuk dëshironi të humbisni artikullin tjetër, abonohuni!



Ka më shumë për të ardhur!!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks