Plastični influencer. AI Fanboy. Stručnjak za karton. Svi pojmovi koji ulaze u moderni leksikon za opisivanje vala 'hypea' koji okružuje AI. Dugo sam bio skeptik prema nekim neobičnijim i grandioznijim tvrdnjama na GenAI sceni.
1/ Programeri će nestati
2/ AGI će stići 2024
3/ Svi poslovi bit će automatizirani
4/ Roboti će postati svjesni (Skynet)
Sva ova neutemeljena hiperbola, a da se čak i ne upušta u ekstremnije poglede (postoji jedinstveni forum na Redditu koji ima 3,4 milijuna članova)
Osobito me zbunjuje projekcija emocija i fantazije na računalne algoritme koji mogu raditi super stvari. Nećete me pronaći u pratećoj aplikaciji i vjerujem da su mnogi briljantni ljudi koji se pretplate na ovu Skynetovu percepciju AI svijesti u opasnosti od gubitka razuma.
Moji nedavni blogovi bili su u suprotnosti s uvriježenim i pomalo fantastičnim pogledom na svijet AI 👇
Sve što ovi API-ji rade je pretvaranje zvuka u tekst, njegova obrada kroz jezični model, a zatim ponovno pretvaranje u zvuk. Na površini se može činiti sofisticiranim, ali ispod toga je samo osnovno generiranje teksta robotovim glasom. Svaki pojedinačni sustav je sveobuhvatan i razumno zreo, ali zalijepite ih sve zajedno na našu poslovičnu svinju i nema stvarnog razumijevanja nijansi audio interakcija.
Ako izgleda kao svinja, cvili kao svinja i hoda kao svinja. To je svinja. Čak i ako nosi ruž.
Barijera za izvrsnost nikada nije bila tako niska, jer konkurencija je sve veća s algoritmom i njegovim neangažiranim i nestručnim gospodarom.
Robot nikada neće dosegnuti istinsku stručnost, jer nikada neće postojati dovoljan skup podataka pravih stručnjaka iz kojih bi se moglo koristiti mnoštvo. A crowdsourcing uzima prosječan rezultat, a ne najbolji. Robot ne razmišlja. Ponavlja se.
Problem s pružanjem alata ili okvira koji vam omogućuje apstrahiranje funkcionalnosti je taj što dolazi s nizom pretpostavki. Kad kupim čekić, pretpostavljam da će raditi. Kad kupim visokotlačni čistač, pretpostavljam da će raditi.
Problem je u tome što kada koristim okvir, pretpostavljam da će raditi. Ali to je doslovno nemoguće s obzirom na zrelost temeljne tehnologije. Daleko od povećanja usvajanja, Agentic Frameworks prodaje iluziju na vrhu visoko kontroliranih demonstracija i ograničenih slučajeva upotrebe koji nikada neće funkcionirati u rukama tipičnog korisnika (a ima ih milijune...).
Ovaj predgovor je da se naglasi.
Vjerujte mi kad kažem da to ne govorim olako.
Ono što je Google upravo napravio s Gemini 2.0 flashom promijenilo je apsolutno sve. Sve.
I nitko nije vidio da dolazi.
Jedna od najdražih priča mojih roditelja je kako sam, kad sam imao 5 godina, dobio ulogu u lokalnoj predstavi o jaslicama. Izliven kao stablo, moja je uloga bila tiho ukrašavati scenu dok su starija i sposobnija djeca izvodila interpretaciju rođenja Isusa Krista.
Nisam bio osobito zadovoljan ovom manjom ulogom.
Sljedećih 10-15 minuta prije nego što su me odvukli s pozornice, pratio sam glumačku postavu oko pozornice, kradući njihove rečenice i izgovarajući vlastitu interpretaciju predstave.
Ubacivanje u savršene trenutke, izvođenje u drugima. Bio je to majstorski tečaj ometanja, a svaki hihot i suzne oči publike koja je gledala potaknuli su me na još više. Bilo je to nemilosrdno uništavanje.
Predstava se pretvorila u farsu, publika je plakala od smijeha; glumci zabezeknuti i zbunjeni.
Smijeh me ohrabrio, postao je krešendo.
Predstava je pretvorena u pantomimu, posao završen. Do danas je to ostala priča koja se na večerama priča novim i mlađim članovima obitelji.
Naravno, ova konkretna igra je OpenAIs 12 dana Božića i kako Google nije samo ukrao njihovu grmljavinu, već je zapovijedao pričom, ukrao svjetla pozornosti i pretvorio božićno slavlje OpenAI-ja u zimsku noćnu moru.
Ja sam se (kao i većina racionalnih ljudi) uključio u 12 božićnih dana OpenAI-ja sa zdravim stupnjem skepse, i gledao sam kako demonstriraju telefonske pozive i astronomski skupe i spore API pozive na neznatno poboljšanom LLM modelu, i osjećao sam se uvjereno da moj cinični pogled na svijet bio je potvrđen.
Onda se nešto dogodilo.
Dogodilo se u pozadini, u savršenom kazališnom trenutku; poput potresa, posljedice dolaze i svi će ih osjetiti i vidjeti u svakom proizvodu.
Mislio sam da je Google bacio loptu na AI, svi jesmo. Jednostavno su bili nevažni u svim praktičnim upotrebama. Kvaliteta je bila loša, funkcionalnost ograničena.
Ispostavilo se da nisu ispustili loptu i nisu spavali na poslu. Jednostavno su ostavljali konkurenciju (sada djecu za usporedbu) da se bore s Beta izdanjima, jedva funkcionalnim API-jima i problemima s razmjerom dok su u tišini gradili alat koji je neophodan za učinkovito korištenje GenAI-ja u proizvodnji.
Do prije tjedan dana nisam čak ni imao aktivni Google API ključ.
Ovaj tjedan sam u procesu migracije svih svojih usluga.
Ovo se može činiti nepromišljenim, ali dopustite mi da objasnim.
Trenutno postoje dvije različite frakcije unutar svijeta umjetne inteligencije; znanstvenika i graditelja.
Pioniri i znanstvenici traže AGI i nove slučajeve upotrebe; ovo je važan posao kao što su novi pristupi liječenju raka ili traženje akademskih otkrića u kvantnoj fizici. To može biti teorijski ili čak u nekim slučajevima neki mladi izdanci praktičnih slučajeva uporabe, posebice u domeni robotike na primjer.
Ti su ljudi zainteresirani za nastavak AGI-ja i prilagođavanje GenAI-ja hibridnijem obliku inteligencije koji će eksponencijalno povećati korisnost u odnosu na trenutne LLM-ove. Ovo može trajati godinama, može trajati generacijama (vjerojatno!).
Ja sam čvrsto i bez srama u drugoj frakciji; mi smo graditelji.
GenAI je već sposoban za nevjerojatne stvari. Stvari koje bi prije godinu ili dvije bile nemoguće. Želim izgraditi stvari koje rade, upravo sada.
Zanat i posao pri ruci je rad s dostupnim LLM-ovima i API-jima i traženje slučajeva upotrebe koje možemo implementirati.
Graditelj treba alate, a moj skup je proizašao iz bezbrojnih sati provedenih u testiranju korisnosti svih dostupnih API-ja i modela.
1/ Claude 3.5 Sonet za kodiranje (Šifra)
2/ OpenAI API-ji za rezoniranje strukturiranih podataka (Agenti)
3/ Groq / Fireworks AI API-ji za jeftino i trenutno zaključivanje (pojedinačni pozivi)
4/ Llama za lokalno/na uređaju (rubno računalstvo)
Mislio sam da će većina mojih baza biti pokrivena sljedećih 3-5 godina.
Potencijalno bih u nekom trenutku mogao zamijeniti OpenAI modele za jeftiniju alternativu, ali trošak zaključivanja mi ionako nije problem u mojoj mjeri. Da budem iskren, nisam bio zainteresiran ni za jedan GenAI model koji nije gore naveden, čak nisam obraćao pozornost na Gemini Flash v2.0.
Sada obraćam pažnju.
Svi znamo da je 2025. godina agenata, društvene mreže nam ne prestaju govoriti.
Mrzim hype vlakove, ali temeljna istina je da su AI sustavi sada u osnovi sposobni 'polupouzdano' poduzimati radnje u naše ime. Stoga je pošteno reći da će 2025. biti objavljeno mnoštvo popularnog softvera koji će koristiti ovu paradigmu.
Tipični agentski tok ide otprilike ovako.
Primamo upute (Rezerviraj let, nazovi moju mamu, napravi mi doručak) koje tumači Prompt. Prompt se obično izvršava putem API-ja, dakle vaš OpenAI ili Groq ili Fireworks AI API). Taj prompt poziva alat (Skyscanner, web pretraživanje) koji dobiva rezultat i poziva neke postavke koda od strane programera i radi "stvari". Rezultat ove "stvari" se zatim vraća u drugi Prompt i ciklus se nastavlja (nJumps) dok ne izvršimo radnju. Hura.
Ne izgleda kao najčišća arhitektura?
Ako bilo koji od ovih API poziva ne uspije ili vrati neočekivani rezultat, cijeli lanac je prekinut. Pojavili su se deseci Python okvira koji apstrahiraju ovaj problem, ali ga ne mogu riješiti. Alati se poboljšavaju, sada možemo vidjeti pogreške u izvršavanju, potvrditi strukturirane podatke i izgraditi lance s nečim što se približava pouzdanosti, otuda pompa za Agent 2025.
Ali gornja arhitektura ostaje zamršena, složena i nepouzdana. Unatoč tome, to je također jedini način na koji smo imali da otključamo potencijal GenAI-ja u tokovima Agentica.
U prosincu 2024. Google je upravo učinio gornji agentski model zastarjelim prije nego što je uopće postao sveprisutan.
Glavni razlozi su sljedeći:
1/ Izvorno pretraživanje
2/ Integrirana orkestracija
3/ Multimodalno (što funkcionira!)
https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool
Pročitajte Gemini API dokumente i imajte na umu da ovo nije prijedlog ili fantazija, već API koji radi i može dati rezultate u milisekundama.
Googleovo integrirano pretraživanje je pouzdano i također radi brzo. Rivali kao što je Perplexity imaju AI tražilicu temeljenu na tekstu, ona ima svoje mjesto u širem okruženju, ali imajte na umu da je prijedlog temeljne vrijednosti sada integriran kao 'značajka' Gemini Flasha v2.0.
Svrha i razlog postojanja Perplexity AI-a pretpostavljeni su unutar stvarnog modela AI-a koji je sposoban za istu kvalitetu i brzinu rezultata s velikom korisnošću iu drugim područjima.
Ovdje je ključna činjenica da Google posjeduje vlasnički API za pretraživanje. Imaju "Nativni alat", u paketu s istim API-jem koji služi modelu zaključivanja koji može pretraživati dostupan internet samo dodavanjem teksta pozivu API-ja. Ah, ali čujem kako kažete da OpenAI može i to?
OpenAI se ne može natjecati. Njihova potraga nije izvorna (ili nije zrela) i to je važno. Stvarno se vidi. Imaju "API u stvarnom vremenu", ali ne radi tako dobro i osjetno je sporiji i ima više grešaka od Googleove Gemini Flash v2.0 implementacije. U stvarnom vremenu, više nego u bilo kojoj drugoj domeni, latencija je sve. Rezultati nisu ni blizu.
Google doslovno pokreće zahtjev za pretraživanje DOK model odgovara i ima infrastrukturu za pružanje odgovora prije nego što pročitate odgovor. Ovaj mali detalj pokriva kritične milisekunde koje mijenjaju iskustvo interakcije iz "Ruž na svinji" u "pravu jebenu stvar".
Googleovo integrirano pretraživanje radi i radi stvarno jako brzo.
Mnogo se priča u svijetu umjetne inteligencije o tome kako nitko nema jarak.
Pa Google je upravo napunio golemi jarak božićnim veseljem i povukao pokretni most.
Cijena, brzina, kvaliteta… Odaberite dvije? Hmmmm…
Google pobjeđuje u tri točke.
Sretan Božić OpenAI.
Ali tu ne staje. Google je promijenio igru u pogledu Agentic flowova. Pretražite internet za "AI alate" i pronaći ćete brda okvira, repozitorija koda i projekata koji u osnovi rade istu stvar.
Pretraživanje interneta; Provjeriti.
Scape web mjesto; provjeriti
Pretvori u markdown; provjeriti.
Pokreni kod; provjeriti.
Dohvati neke privatne podatke; provjeriti.
Svi ovi alati automatiziraju pretraživanje, dohvaćanje i izvršavanje koda. https://python.langchain.com/docs/integrations/tools/
Stvar je u tome što je Google upravo ovo integrirao u svoj API, jednu krajnju točku za rukovanje svim gore navedenim. Sada je to u biti riješen problem.
Više nam nisu potrebni složeni agentski tokovi za mnoge slučajeve upotrebe.
Donji dijagram iz OpenAI-ja pokazuje kako funkcionira pozivanje funkcija za agente.
Do sada smo imali izvršno okruženje izvan GenAI API-ja.
Google je upravo ugradio većinu te funkcije u temeljni API koji mogu koristiti programeri.
Na primjer, ako želim koristiti Llama 3.3 za pretraživanje interneta, mogu pozvati alat na sljedeći način.
Isti tok s Gemini Flash v2.0:
Povratak na prethodnu točku, brzina, kvaliteta, cijena…
Google je upravo izabrao sva 3.
Gotovo svi alati su varijacije pretraživanja, dohvaćanja (pretvorite u markdown i ubacite u prompt) i izvršavanja proizvoljnog koda s posipanjem privatnih podataka. Osim podataka (gotovo sigurno uskoro…), to su sada ključni problemi, zbog kojih su mnogi Agentic sustavi zastarjeli prije nego što su lansirani.
Neće proći dugo prije nego što ćemo također imati izvorne dodatke za vaše Google izvore podataka (logičan sljedeći korak), u kojoj su točki, osim rijetkih skaliranih i vrlo složenih AI sustava, u osnovi svi trenutni okviri i procesi samo zamršene implementacije onoga što se može postići bolje, brže i jeftinije u jednom API pozivu.
Relevantnost ovoga s arhitektonskog gledišta je da umjesto izgradnje ulančanih i složenih tokova, mogu poboljšati jedan jednostavan model. Sve je jednostavno postalo puno jednostavnije.
Zbogom Python okviri. (nemojte ostati u kontaktu).
Čak i ako trenutno ne možemo učiniti sve što trebamo, crta u pijesku je povučena i "alati" će postati ključna briga, a davatelji će ih integrirati u API-je. Ne trebamo više DIY vlastite agente, imamo pouzdane, skalirane i brze API-je s kojima možemo raditi.
Poput mene, vjerojatno ste pomalo opečeni multimodalnom 'demo' integracijom upotrebe audio/video zapisa. Sjećam se da sam bio toliko uzbuđen što sam isprobao audio-streaming (godinama sam razvijao na WebRTC-u i u prošlom sam životu osnovao alat za e-trgovinu za streaming videa).
Potencijal je očit, ali cijela stvar jednostavno ne izgleda dobro. Za primjer idite na igralište OpenAI i isprobajte njihov API u stvarnom vremenu. Pokazuje potencijal, ali je miljama daleko od toga da bude ugodno korisničko iskustvo. Većina korisnika (a ja sam razgovarao sa 100-ima) samo želi iskustvo koje "radi". Te milisekunde i prirodne intonacije nisu detalji, one su sama bit proizvoda.
Gemini Flash v2.0 je prvi model koji mi je dao "wow" trenutak koji sam imao kada sam prvi put počeo koristiti Claude za kodiranje. Isti je osjećaj kao kad ste prvi put skeptično postavili ChatGPT pitanje i "stroj" vam je dao ljudski odgovor.
Kašnjenje, pauze, intonacija glasa. Google je to NAUČIO. To je očito još uvijek AI sustav, ali to nikada nije bio problem. Problem su uvijek bile pauze, prekidi, način na koji je model komunicirao s ljudima.
Nemam ništa protiv razgovora sa strojem, pod pretpostavkom da stroj ima znanja, sposoban je komunicirati i sposoban je raditi stvari koje ja trebam. Ovo je 100% prvi put da stvarno vidim model koji može pružiti ovo iskustvo, a posljedice su ogromne.
Ako ste bili uzbuđeni audio ili video interakcijama i pomalo skeptični prema modelima. Isprobajte Gemini Flash v2.0. Google je očito uložio vrijeme, trud i resurse u rješavanje problema s kašnjenjem i troškovima. Nijedan drugi model umjetne inteligencije koji sam isprobao nije mu ni blizu.
I jeftino je…
I skalabilan je…
Uzbuđen sam kao i prvi put kad sam prije toliko godina zamolio ChatGPT da napiše linkedin post. U ovoj fazi mog života i uključenosti u GenAI, to nije osobito lako.
Nisam očekivao da će ovaj trenutak doći tako brzo.
Sada imamo stvarnost s jeftinim, brzim i vrlo sposobnim modelom s kojim možemo komunicirati u stvarnom vremenu.
Ovo je doslovno prvi put u mom životu da mogu razgovarati s računalom i osjećati da me razumije, da mi može odgovoriti i poduzimati radnje u moje ime. To nije složen agent, to je jedan API poziv.
Ovo je tehničko postignuće koje će odjeknuti svijetom umjetne inteligencije, iako mnogi to još nisu shvatili.
Osim prirodnog sučelja i interakcija, model je sposoban izvorno pretraživati internet, izvršavati kod i davati mi odgovor u vremenu potrebnom za formiranje rečenice.
Postojao je san koji je bio UX Generative AI.
U prosincu 2024. to je postalo stvarnost.
Sad me ispričajte, idem graditi stvari.