paint-brush
WLTechov AI agent postigao je velike rezultate u izazovu od milion dolaraby@wltechai
Nova istorija

WLTechov AI agent postigao je velike rezultate u izazovu od milion dolara

Predugo; Citati

AGI ima za cilj stvaranje AI sistema koji zaista mogu generalizirati znanje i vještine. Može naučiti osnovne principe koji se mogu primijeniti na potpuno nove situacije. Trenutni AI će trebati hiljade sati podataka za obuku.
featured image - WLTechov AI agent postigao je velike rezultate u izazovu od milion dolara
WLTech.AI (WebLab Technology) HackerNoon profile picture


Hajdemo na trenutak da razmislimo o učenju vožnje. Svako od nas može naučiti osnovne principe vožnje iz samo nekoliko demonstracija, a kada shvatimo koncepte poput upravljanja, ubrzanja i kočenja, možemo primijeniti te vještine na bilo koji automobil - od kompaktne limuzine do velikog kamiona. Uz ove vještine, također se možemo brzo prilagoditi različitim uvjetima na cesti, vremenskim prilikama i prometnim situacijama, čak i ako se s njima nikada prije nismo susreli. Međutim, trenutnoj AI će biti potrebne hiljade sati podataka za obuku za svako specifično vozilo i stanje, dok bi AGI bio u stanju da shvati osnovne principe vožnje i da ih široko primjenjuje.


AGI ima za cilj da stvori AI sisteme koji mogu istinski generalizovati znanja i veštine — učenje osnovnih principa koji se mogu primeniti na potpuno nove situacije. Vožnja auta, igranje sira, go, Minecraft, itd. Ovo se značajno razlikuje od današnjih AI sistema, uključujući LLM, koji prvenstveno rade kroz sofisticirano uparivanje obrazaca u ogromnim skupovima podataka za obuku.


Dok se moderni LLM mogu uključiti u naizgled inteligentne razgovore i rješavati složene probleme, oni u osnovi rade tako što prepoznaju i rekombinuju obrasce na koje su naišli tokom treninga. Ovo je više slično izuzetno naprednom pamćenju i statističkoj korelaciji nego istinskom razumijevanju i generalizaciji, jer ne grade prave kauzalne modele ili apstraktne reprezentacije svijeta. Kada se čini da generalizuju, obično samo pronalaze suptilne statističke obrasce u svojim podacima o obuci, a ne razumiju dublje principe.

Zašto je ARC važan?

ARC se bavi ključnim problemom mjerenja u istraživanju umjetne inteligencije – kako zapravo testiramo može li AI sistem generalizirati?


Tradicionalna mjerila obično mjere učinak na specifičnim zadacima s velikim skupovima podataka za obuku, ali visoki rezultati ne ukazuju nužno na pravu sposobnost generalizacije. AI bi mogao dobro funkcionirati jednostavnim pamćenjem obrazaca u podacima o obuci umjesto razvijanja istinskog razumijevanja.


Kao što F. Chollet piše: “Koliko nam je poznato, ARC nije pristupačan nijednom postojećom tehnikom mašinskog učenja (uključujući duboko učenje)”.


Glavne poteškoće su sljedeće:

– Očekivani izlaz nije etiketa ili čak set etiketa, već mreža u boji veličine do 30x30 i do 10 različitih boja. Stoga spada u domen strukturiranog predviđanja.

– Predviđeni izlaz mora tačno odgovarati očekivanom izlazu. Ako je jedna ćelija pogrešna, zadatak se smatra neuspjelim. Da bi se to nadoknadilo, dozvoljena su tri pokušaja za svaku ulaznu mrežu.

– U svakom zadatku općenito postoje između dvije i četiri instance obuke (ulazna mreža + izlazna mreža) i jedna ili dvije instance testa za koje se mora napraviti predviđanje.

– Svaki zadatak se oslanja na različitu transformaciju iz ulazne mreže u izlaznu mrežu. Konkretno, nijedan zadatak evaluacije ne može se riješiti ponovnim korištenjem transformacije naučene na zadacima obuke. Svaki zadatak je poseban problem učenja, a ono što ARC ocjenjuje je široka generalizacija i učenje u nekoliko hitaca.


ARC nudi rigorozniji test generalizacije predstavljanjem svake slagalice sa samo 3-5 uzoraka, samo nekoliko snimaka. Ovi minimalni podaci o obuci znače da se AI ne može osloniti na ekstenzivno uparivanje obrazaca – mora izdvojiti osnovne principe i primijeniti ih na nove situacije, baš kao što to čine ljudi. Zagonetke su također namjerno dizajnirane da se odupru rješenjima prečica ili strategijama pamćenja.


Ono što ARC čini posebno vrijednim je to što pruža kvantitativno mjerenje sposobnosti generalizacije. Umjesto da raspravljamo o tome da li sistem umjetne inteligencije zaista „razumije“ u nekom filozofskom smislu, možemo mjeriti konkretne performanse na ovim pažljivo osmišljenim zadacima rasuđivanja. Ovo istraživačima daje jasan standard za napredak ka vještačkoj općoj inteligenciji.


Ako želite saznati više o ARC mjerilu i šta to znači za razvoj AI, ovaj video je odlično mjesto za početak:

Pristupi rješavanju ARC-a

  1. Brute-Force pristupi

Kaggle takmičenje 2020. otkrilo je jedan od prvih pristupa rješavanju ARC-a — brute-force pretragu kroz prostor unaprijed definiranih transformacija. Pobedničko rešenje konstruisalo je jezik specifičan za domen (DSL) koji sadrži 142 ručno izrađene mrežne operacije. Sistematskim pretraživanjem kroz kombinacije ovih operacija, postigao je 20% tačnosti na privatnim zadacima evaluacije. Drugo slično rješenje koje koristi gramatičku evoluciju za vođenje pretrage transformacije dostiglo je 3–7,68% preciznosti.


Iako su značajna po svom početnom uspjehu, ova rješenja su istakla ključno ograničenje: oslanjala su se na iscrpnu pretragu unaprijed programiranih pravila umjesto na razvijanje bilo kakvog stvarnog razumijevanja ili sposobnosti generalizacije. Ovaj jaz između programskog pretraživanja i prave inteligencije pokazuje zašto ARC ostaje izazovno mjerilo za mjerenje sposobnosti generalizacije.


  1. Minimalna dužina opisa (MDL)

Trenutni pristup ( https://github.com/sebferre/ARC-MDL/tree/master ) zasniva se na fundamentalnom principu koji se koristi za otkrivanje obrazaca i izgradnju modela koji najbolje objašnjavaju podatke na najsažetiji mogući način. U svojoj srži, MDL navodi da je „najbolji model za neke podatke onaj koji komprimira većinu podataka“.


Rješenje koristi specijalizirani jezik za modeliranje za efikasno opisivanje obrazaca mreže. Ovaj jezik pruža strukturiran način predstavljanja i ulaznih i izlaznih mreža kao kombinacija osnovnih elemenata:


Na najvišem nivou, svaka slagalica je predstavljena kao par i sadrži dvije mreže:

● Mreža za unos (in)

● izlazna mreža (out)


Svaka mreža je definisana sa tri komponente:

  1. Vektor veličine (definisanje visine i širine)
  2. Boja pozadine
  3. Lista slojeva koji sadrže objekte


Objekti su pozicionirani oblici, gdje svaki oblik može biti:

● Jednobojna tačka

● Pravougaonik sa određenom veličinom, bojom i maskom


Sistem maski je posebno moćan, omogućavajući pravougaonicima da poprime različite oblike:

● Puni (puni pravougaonik)

● Ivica (samo obris)

● Obrasci šahovnice (parni ili neparni)

● Unakrsni uzorci (u obliku plusa ili puta)

● Prilagođeni bitmap obrasci


Ovaj jezik omogućava sistemu da kompaktno opiše složene obrasce mreže. Na primjer, umjesto pohranjivanja mreže 10x10 piksel po piksel (100 vrijednosti), on bi je mogao pohraniti kao „crnu pozadinu sa crvenim pravougaonikom 3x3 na poziciji (2,2)” – koristeći mnogo manje vrijednosti dok hvata osnovnu strukturu.


Kada traži obrasce, sistem pokušava pronaći najsažetiji opis i ulaznih i izlaznih mreža koristeći ovaj jezik. Dobra rješenja imaju tendenciju da ponovo koriste elemente između ulaza i izlaza (kao što je uzimanje oblika od ulaza i transformacija u izlaz), što dovodi do kraćih opisa i bolje kompresije.


Uspjeh ovog pristupa (riješeno je 94/400 zadataka za obuku) sugerira da ovaj jezik obuhvata mnoge ključne obrasce prisutne u ARC zagonetkama dok je dovoljno ograničen da izbjegne pretjerano prilagođavanje konkretnim primjerima.


  1. Direktno predviđanje izlaza s osnovnim LLM-ovima

Dok su LLM-ovi pokazali impresivne sposobnosti u mnogim domenima, njihovo direktno korištenje za rješavanje ARC-a predstavlja i mogućnosti i izazove. Naivni pristup uključuje pružanje LLM primjera input-outputa i traženje od njega da predvidi odgovor za nove inpute. Međutim, ova metoda ima značajna ograničenja. LLM pokazuju vrlo ograničene mogućnosti prostornog rezonovanja u ovom kontekstu i vrlo su skloni halucinacijama kada pokušavaju da predvide transformacije mreže.


  1. Lanac poboljšanja misli za LLM rješavanje problema

Ovaj pristup se zasniva na metodi direktnog predviđanja tako što se prvo traži od LLM-a da analizira i opiše obrasce koje opaža u parovima ulaz-izlaz. Iako ovaj dodatni korak razmišljanja daje bolje rezultate pomažući LLM-u da razloži problem, on i dalje ima ista osnovna ograničenja. Model nastavlja da pokazuje visoku stopu halucinacija kada pokušava da predvidi konačne rezultate, čak i nakon identifikovanja potencijalnih obrazaca. Ovo sugerira da samo dodavanje eksplicitnih koraka zaključivanja nije dovoljno da se prevaziđu LLM-ova ograničenja prostornog rezonovanja u rješavanju ARC izazova.

AI agenti i njihova uloga u AGI

U WLTech.AI vidimo da je ogromna uloga AI agenata u potrazi za AGI od velike važnosti. Dizajnirani su za dinamičku interakciju sa svojim postavkama, prilagođavanje na osnovu onoga što uče i samostalno. Za razliku od statičkih modela koji su obučeni samo jednom, AI agenti mogu učiti iz tekućih interakcija i prilagoditi se promjenjivim okolnostima, što ih čini vitalnom komponentom u razvoju AGI.


AI agenti su mozak operacije, koordinirajući niz tehnika koje su prilagođene specifičnim zahtjevima zadatka. Simbolički sistemi su odlični u preciznom zaključivanju zasnovanom na pravilima, što ih čini savršenim za zadatke koji zahtijevaju razumijevanje transformacija kao što su rotacije ili refleksije. Neuronske mreže su odlične u prepoznavanju obrazaca i generalizaciji iz podataka, što je zaista korisno za identifikaciju osnovnih struktura u ARC zadacima.


Međutim, izazovi ARC-a se ne završavaju simboličkom manipulacijom ili prepoznavanjem uzoraka. Mnogi zadaci zahtijevaju napredniji nivo apstrakcije, uključujući sposobnost stvaranja novih pravila, uspostavljanja veza i prilagođavanja novim situacijama. Jezički modeli su ovdje korisni jer se mogu koristiti za stvari poput sinteze programa i apstraktnog zaključivanja. Algoritmi pretraživanja su još jedan alat u kutiji jer mogu efikasno istražiti moguće transformacije kako bi identificirali rješenja. Sistemi planiranja, s druge strane, pružaju okvir za razbijanje i rješavanje složenih problema korak po korak.


Ono što čini AI agente tako pametnim je to što mogu spojiti sve ove različite pristupe. Oni ne koriste samo jednu po jednu metodu. Oni procjenjuju i primjenjuju najbolju kombinaciju tehnika za rješavanje svakog jedinstvenog problema. Ova sposobnost prilagođavanja u hodu je ono što razlikuje ljude i važan je dio unapređenja AGI.

U svojoj srži, AI agenti su u osnovi inteligentni koordinatori. Oni vode evidenciju šta radi, a šta ne, tako da mogu učiti iz prošlih iskustava.


Naše Agentic AI rješenje Možete pronaći naše rješenje ovdje: https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing ili na Githubu: https://github.com/weblab-technology/ arc-challenge-2024-10



Naš proboj je proizašao iz oponašanja ljudskog ponašanja u rješavanju problema: analiziranjem primjera, hipotezom pravila, testiranjem i usavršavanjem. Umjesto grube sile, naša umjetna inteligencija fokusira se na pisanje funkcija generiranja — Python koda koji definira transformacije — i odmah ih testira na podacima za obuku.

Ključni koraci:

  1. Analizirajte obrasce: AI identificira odnose u parovima ulaz-izlaz.
  2. Generiraj funkciju: piše transformaciju (ulaz): izlaznu funkciju na osnovu uočenih obrazaca.
  3. Neposredno testiranje: Funkcija se testira na ulazima za obuku. Ako se izlazi tačno podudaraju, rješenje se pretpostavlja valjanim i primjenjuje se na testne ulaze.
  4. Ponavljanje: Ako testovi ne uspiju, funkcija se rafinira i ponovo testira.


Iznenađujuće otkriće u našem pristupu bilo je da iterativna poboljšanja često ometaju napredak, a ne pomažu. Ako je početna pretpostavka iza funkcije generiranja pogrešna, pokušaj njenog preciziranja obično pojačava grešku umjesto da je ispravlja. Ova spoznaja iz temelja je preoblikovala našu metodologiju.

Svježe ideje preko prefinjenosti

Umjesto da preciziramo netačne pretpostavke, smatrali smo da je efikasnije:

  1. U potpunosti odbacite pogrešan pristup.
  2. Generirajte novu hipotezu od nule na osnovu svježih uvida iz podataka o obuci.


Ovo odražava ljudsko ponašanje resetiranja i ponovnog razmišljanja kada se put rješenja pokaže neproduktivnim, umjesto da se zakrpi pokvarena strategija.

Zašto genetski algoritmi nisu radili

Ovaj uvid također objašnjava zašto genetski algoritmi nisu uspjeli poboljšati rezultate. Po dizajnu, genetski algoritmi postepeno razvijaju rješenja, usavršavajući ih tokom generacija. Međutim, kada su temeljne pretpostavke pogrešne, inkrementalne promjene dovode do zamršenih rješenja koja dalje odudaraju od ispravne transformacije.


LLM Evaluacija: Claude 3.5 Sonet nadmašuje konkurente

Da bismo se uhvatili u koštac s izazovom ARC-a, opsežno smo testirali višestruke modele velikih jezika (LLM) kako bismo pomogli u pisanju funkcija generiranja. Među njima, Claude 3.5 Sonnet se pokazao kao najsposobniji, značajno nadmašivši svoje konkurente.


Ključni nalazi:

Claude 3.5 Sonet vs. GPT-4o:

Performanse: Claude 3.5 Sonet je identifikovao više obrazaca od GPT-4o, postižući skoro duplo veću preciznost u prepoznavanju obrazaca.

Efikasnost: Claude je postigao iste rezultate kao OpenAI GPT-4o u 1/7 vremena izvršenja, čineći ga ne samo efikasnijim već i bržim.


Pad GPT-4o:

● Primetili smo primetan pad u performansama GPT-4o tokom vremena. Početna verzija GPT-4o bila je daleko sposobnija za ARC zadatke od kasnijih verzija, što ukazuje na potencijalni pomak u njegovoj optimizaciji koji je ometao prepoznavanje obrazaca i obrazloženje za ovaj izazov.


Zašto se Claude 3.5 Sonet ističe


Klodova prednost leži u njegovoj sposobnosti da generalizuje i identifikuje suptilne transformacije, što je ključno za ARC-ovu prirodu nekoliko snimaka. Njegove dosljedne performanse i efikasnost učinili su ga jasnim izborom za integraciju u naš okvir AI agenta, postavljajući novi standard za LLM vođeno razmišljanje u strukturiranom rješavanju problema.

Rezultati

Naš pristup je postigao blizu 30% tačnosti na skupu evaluacije ARC-a , značajno nadmašujući osnovne metode. Ovaj rezultat naglašava snagu oponašanja ljudskog ponašanja u rješavanju problema, korištenje svježih hipoteza preko iterativnih usavršavanja i korištenje najsposobnijih LLM-a kao što je Claude 3.5 Sonnet. Iako još uvijek postoji značajan prostor za poboljšanje, ova prekretnica pokazuje značajan napredak u rješavanju izazova ARC-a i napredovanju ka široj generalizaciji u AI.

Budući smjerovi za ARC

U WLTech.AI vjerujemo da budućnost rješavanja ARC-a leži u kontinuiranom rastu LLM mogućnosti u kombinaciji sa okvirima za razmišljanje višeg nivoa kao što je Minimalna dužina opisa (MDL) ili slični pristupi za sažeto objašnjenje šablona. Ova poboljšanja mogu omogućiti modelima da bolje apstraktuju i generaliziraju transformacije. Dodatno, integrisanje samoprofinirajućeg sistema brzih informacija baziranog na rastućoj banci rješenja omogućilo bi modelima da iterativno poboljšaju svoje razmišljanje i crpe iz prošlih uspjeha, stvarajući prilagodljiviji i efikasniji cevovod za rješavanje problema. Ova sinergija između naprednih LLM-ova, strukturiranih objašnjenja i adaptivnog učenja ima potencijal za otključavanje novih prekretnica u razvoju ARC-a i AGI-ja.

Značajni ARC rješavači

Reper Abstraction and Reasoning Corpus (ARC) bio je ključan za testiranje koliko dobro AI može primijeniti opća pravila i razmišljati na apstraktniji način. Tokom godina, vidjeli smo brojne izvrsne rješavače koji su se pojavili, od kojih svaki dodaje nešto drugačije na teren.


● Pristup Ryana Greenblatta

Godine 2024., Ryan Greenblatt, inženjer u Redwood Research-u, postigao je veliku prekretnicu postigavši 42% na skupu javne evaluacije ARC-AGI, uz verifikacioni rezultat od 43%. Njegov pristup je uključivao korištenje GPT-4o za generiranje i usavršavanje nekoliko Python programa i odabir najboljih za podnošenje. Ovo pokazuje kako možemo koristiti velike jezičke modele sa sintezom programa za rješavanje složenih zadataka zaključivanja.


● Icecuber 2020

Rješenje “icecuber 2020”, prethodno pobjednik takmičenja, dobilo je ocjenu javne evaluacije od 39% i ocjenu verifikacije od 17%. Iako nemamo sve detalje o metodologiji, ovo rješenje je bilo zaista važno u postavljanju granice za naredne ARC rješavače.

ARC Prize 2024 Leaderboard

ARC Prize 2024 rang lista uključuje sljedeće najbolje izvođače :


● MindsAI su u vodstvu sa rezultatom od 55,5%.

● ARChitects su blizu sa rezultatom od 53,5%.

● Guillermo Barbadillo je treći sa rezultatom od 40%.

● Alijs na četvrtom, takođe sa 40%.

● TuMinhDang peti sa rezultatom od 38%.


Ovi rezultati pokazuju kako svi naporno rade i smišljaju nove načine da se pozabave ARC benchmarkom. Oni također pokazuju kako različiti timovi koriste različite strategije.

Uloga ARC-a u inspiriranju istraživača AI

ARC benchmark je još uvijek odličan način da se testira koliko dobro AI sistemi mogu zaključiti i generalizirati. Iako je došlo do velikog napretka, nijedan model se nije u potpunosti uhvatio u koštac s ARC-om, pokazujući koliko je teško postići umjetnu opću inteligenciju. Istraživači i praktičari uvijek traže načine da kombinuju različite pristupe, koristeći simboličko razmišljanje s neuronskim mrežama, kako bi se približili rješavanju problema.


Merila kao što je ARC daju nam kratak pogled u ono što budućnost donosi za istraživanje veštačke inteligencije. Oni pomiču polje prema sistemima koji mogu razmišljati i prilagođavati se poput ljudi. Iako još uvijek sporo napredujemo, ARC je već postavio jasan put ka postizanju AGI.


Fokus se kreće ka generalizaciji. ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )

U budućnosti, AI sistemi će biti dizajnirani da generalizuju, a ne da se specijalizuju. Kao što pokazuju zadaci ARC-a, sposobnost rješavanja novih problema bez prekvalifikacije je ključni znak prave inteligencije. Čini se vjerojatnim da će istraživači razviti modele koji su odlični u učenju s nekoliko ili nula snimaka, uzimajući inspiraciju iz načina na koji naš mozak funkcionira.


Hibridni modeli će biti norma.

Uspjeh ARC rješavača nam je već pokazao da sistemi s jednim pristupom imaju svoja ograničenja. Budućnost veštačke inteligencije biće hibridni modeli koji integrišu neuronske mreže, simboličke sisteme i probabilističko rezonovanje. Ovi modeli će se dobro snaći na ARC-u, ali će takođe moći da se nose sa problemima iz stvarnog sveta gde su fleksibilnost i prilagodljivost ključni.


Postoji novi fokus na kognitivnoj arhitekturi.

ARC je naveo ljude da razmišljaju o kognitivnim arhitekturama koje kopiraju sposobnost ljudskog mozga da kombinuje različite načine zaključivanja. Vidjet ćemo još istraživanja o radnoj memoriji, meta-učenju i sistemima s više agenata, što će pomoći da se otvori put AI koja može razmišljati, učiti i prilagođavati se u hodu.


Kako AI sistemi budu postajali pametniji, počeće da rade sa nama radije nego da samo rade naše poslove umesto nas. Merila poput ARC-a pomažu u razvoju AI sistema koji rade zajedno s ljudima, nudeći uvide i rješenja u složenim područjima kao što su naučna otkrića i kreativno rješavanje problema.


Takva takmičenja su zaista inspirisala AI zajednicu. Sa nagradom od preko 1.000.000 dolara, ARC nagrada je veliki poticaj za istraživače da iznađu rješenja otvorenog koda koja mogu nadmašiti trenutna mjerila.


U WLTech.AI prepoznajemo da vrijednost takvih rješenja daleko premašuje 1.000.000 dolara, i uzbuđeni smo što ćemo sljedeće godine ponovo učestvovati u izazovu kako bismo nastavili napredovati u ovoj oblasti.

L O A D I N G
. . . comments & more!

About Author

WLTech.AI (WebLab Technology) HackerNoon profile picture
WLTech.AI (WebLab Technology)@wltechai
Experienced Full-Cycle AI Dedicated Development Teams. Since 2013.

HANG TAGS

OVAJ ČLANAK JE PREDSTAVLJEN U...