999 lekti
999 lekti

Twòp AI ak twòp non terib: Ki jan yo chwazi modèl AI ou a

pa Leo Khomenko4m2025/03/25
Read on Terminal Reader

Twò lontan; Pou li

Laboratwa AI te inonde nou ak anpil nouvo modèl ke mwen ap lite pou kenbe. Nouvo modèl yo se pè, men nonmen yo se yon dezòd konplè. Ou pa ka menm separe modèl yo pa referans ankò. Plèn "sa a se pi bon an, tout moun sèvi ak li" pa travay kounye a.
featured image - Twòp AI ak twòp non terib: Ki jan yo chwazi modèl AI ou a
Leo Khomenko HackerNoon profile picture

Depi kòmansman ane 2025, laboratwa AI te inonde nou ak anpil nouvo modèl ke mwen ap lite pou kenbe.


Men, tandans yo di pèsonn pa pran swen! Gen sèlman ChatGPT:


Kòman sa?


Nouvo modèl yo se pè, men nonmen yo se yon dezòd konplè. Anplis, ou pa menm ka separe modèl yo pa referans ankò. Plèn "sa a se pi bon an, tout moun sèvi ak li" pa travay kounye a.


Nan ti bout tan, gen anpil modèl AI vrèman kokenn sou mache a, men kèk moun aktyèlman sèvi ak yo.


Epi sa se yon wont!


Mwen pral eseye fè sans nan dezòd nonmen an, eksplike kriz referans lan, epi pataje konsèy sou kòman yo chwazi bon modèl la pou bezwen ou yo.

Twòp Modèl, Non Terib

Dario Amodei te fè blag depi lontan ke nou ta ka kreye AGI anvan nou aprann non modèl nou yo klè. Google se tradisyonèlman ki mennen jwèt la konfizyon:



Pou nou jis, li fè kèk sans. Chak modèl "baz" kounye a gen anpil mizajou. Yo pa toujou inogirasyon ase yo jistifye chak aktyalizasyon kòm yon nouvo vèsyon. Se la tout prefiks sa yo soti.


Pou senplifye bagay sa yo, mwen mete ansanm yon tablo kalite modèl ki soti nan pi gwo laboratwa, retire tout detay ki pa nesesè yo.



Se konsa, ki kalite modèl sa yo?


  1. Gen gwo, modèl baz pwisan. Yo enpresyonan men ralanti ak koute chè nan echèl.


  2. Se poutèt sa nou envante distilasyon : pran yon modèl debaz, fòme yon modèl ki pi kontra enfòmèl ant repons li yo, epi ou jwenn apeprè menm kapasite yo, jis pi vit ak pi bon mache.


  3. Sa a se espesyalman kritik pou rezònman modèl. Pi bon pèfòmè yo kounye a swiv chenn rezònman plizyè etap-planifye solisyon an, egzekite, epi verifye rezilta a. Efektif men chè.


Genyen tou modèl espesyalize: pou rechèch, super-bon mache pou travay senp, oswa modèl pou domèn espesifik tankou medikaman ak lalwa. Plis yon gwoup separe pou imaj, videyo, ak odyo. Mwen pa mete tout bagay sa yo pou evite konfizyon. Mwen tou fè espre inyore kèk lòt modèl ak laboratwa kenbe li kòm senp ke posib.


Pafwa, plis detay jis fè bagay yo vin pi mal.

Tout Modèl yo fondamantalman egal kounye a

Li vin difisil pou chwazi yon gayan klè. Andrej Karpathy dènyèman te rele sa a yon "kriz evalyasyon."


Li pa klè ki mezi yo gade kounye a. MMLU demode, e SWE-Bench la twò etwat. Chatbot Arena se tèlman popilè ke laboratwa yo te aprann "rache" li.



Kounye a, gen plizyè fason pou evalye modèl yo:


  1. Referans etwat mezire konpetans trè espesifik, tankou kodaj Python oswa pousantaj alisinasyon. Men, modèl yo ap vin pi entelijan ak metrize plis travay, kidonk ou pa ka mezire nivo yo ak yon sèl metrik ankò.


  1. Referans konplè eseye pran plizyè dimansyon ak anpil mezi. Sepandan, konpare tout nòt sa yo byen vit vin chaotic. Remake byen ke moun eseye faktè miltip nan referans konplèks sa yo. Senk oswa dis nan yon moman! Yon modèl genyen isit la, yon lòt la-bon chans fè sans de li.

LifeBench gen 3 paramèt nan chak kategori. Epi sa se jis yon referans pami plizyè douzèn.


  1. Arena, kote moun avèg konpare repons modèl ki baze sou preferans pèsonèl yo. Modèl yo jwenn yon evalyasyon ELO, tankou jwè echèk. Genyen pi souvan, jwenn yon ELO ki pi wo. Men, sa a te gwo jiskaske modèl yo te twò pre youn ak lòt.


Yon diferans 35 pwen vle di yon modèl se pi bon jis 55% nan tan an.


Kòm nan echèk, jwè ki gen ELO ki pi ba a toujou gen yon bon chans pou genyen. Menm ak yon diferans 100 pwen, yon modèl "pi mal" toujou depase nan yon tyè nan ka yo.


Epi ankò-kèk travay yo pi byen rezoud pa yon modèl, lòt moun pa yon lòt. Chwazi yon modèl ki pi wo nan lis la, epi youn nan 10 demann ou yo ta ka pi bon. Kiyès ak konbyen pi bon?


Ki moun ki konnen.

Se konsa, ki jan ou chwazi?

Pou mank de pi bon opsyon, Karpathy sijere repoze sou vibe-chèk la.


Teste modèl yo tèt ou epi wè kiyès ki santi bon. Asire w, li fasil twonpe tèt ou.


Li subjectif ak tandans fè patipri—men li pratik.


Men konsèy pèsonèl mwen:


  1. Si travay la nouvo-louvri plizyè onglet ak modèl diferan epi konpare rezilta yo. Mete konfyans ou nan zantray ou sou ki modèl ki mande mwens ajisteman oswa modifye.
  2. Si travay la pi abitye, sèvi ak sèlman pi bon modèl ou.
  3. Bliye sou kouri dèyè nimewo referans. Konsantre sou UX ou renmen an, epi bay priyorite abònman ou deja vle peye pou li.
  4. Si ou toujou vle nimewo, eseye https://livebench.ai/#/ . Kreyatè yo reklame li ranje pwoblèm komen referans tankou Hacking, obsolesans, etwat, ak subjectivite.
  5. Pou kreyatè pwodwi yo, isit la se yon bon gid nan HuggingFace sou kòman yo mete kanpe pwòp referans ou. https://github.com/huggingface/evaluation-guidebook/


Pandan se tan, si ou te ap tann pou yon siy eseye yon lòt bagay pase ChatGPT, isit la li ye:


https://claude.ai/

https://gemini.google.com/

https://grok.com/

https://chat.deepseek.com/

httрs://сhаt.openai.сom


Apre sa, mwen pral kouvri pwen enpòtan nan chak modèl epi rezime chèk vibe lòt moun.


Si ou te renmen sa a epi ou pa vle rate pwochen atik la, abònman!



Gen plis k ap vini!!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks