Plastový influencer. AI Fanboy. Odborník na lepenku. Všetky výrazy, ktoré vstupujú do moderného slovníka, opisujú vlnu „hype“ okolo AI. Dlho som bol skeptický voči niektorým výstrednejším a grandióznejším tvrdeniam na scéne GenAI.
1/ Programátori zmiznú
2/ AGI príde v roku 2024
3/ Všetky úlohy budú automatizované
4/ Roboty sa stanú vedomými (Skynet)
Všetky tieto nepodložené hyperboly bez toho, aby sme sa ponorili do extrémnejších názorov (existuje jedinečné fórum Reddit, ktoré má 3,4 milióna členov)
Obzvlášť ma znepokojuje premietanie emócií a fantázie do počítačových algoritmov, ktoré dokážu robiť skvelé veci. Nenájdete ma v sprievodnej aplikácii a verím, že mnohým skvelým ľuďom, ktorí sa prihlásia k tomuto vnímaniu vedomia AI Skynetom, hrozí strata zdravého rozumu.
Moje nedávne blogy boli v rozpore s mainstreamovým a trochu fantastickým svetovým pohľadom na AI 👇
Všetky tieto rozhrania API robia konverziu zvuku na text, jeho spracovanie prostredníctvom jazykového modelu a jeho následnú konverziu späť na zvuk. Na prvý pohľad sa to môže zdať sofistikované, ale pod tým je to len základné generovanie textu hlasom robota. Každý jednotlivý systém je komplexný a primerane vyspelý, ale všetky ich prilepte na naše povestné prasa a neexistuje žiadne skutočné pochopenie nuancií zvukových interakcií.
Ak vyzerá ako prasa, kvičí ako prasa a chodí ako prasa. Je to prasa. Aj keď má na sebe rúž.
Bariéra dokonalosti nebola nikdy taká nízka, pretože konkurencia je čoraz viac s algoritmom a jeho nezaujatým a neodborným majstrom.
Robot nikdy nedosiahne skutočnú odbornosť, pretože nikdy nebude existovať dostatočný súbor údajov skutočných odborníkov, od ktorých by sa dalo crowdsourcovať. A crowdsourcing má priemerný výsledok, nie ten najlepší. Robot nemyslí. Opakuje sa.
Problém s poskytovaním nástroja alebo rámca, ktorý vám umožňuje abstraktné funkcie, je v tom, že prichádza so súborom predpokladov. Keď si kúpim kladivo, predpokladám, že bude fungovať. Keď si kúpim tlakový čistič, predpokladám, že bude fungovať.
Problém je v tom, že keď použijem framework, predpokladám, že bude fungovať. Ale to je doslova nemožné vzhľadom na vyspelosť základnej technológie. Agentic Frameworks, ďaleko od zvyšovania prijatia, predávajú ilúziu nad rámec vysoko kontrolovaných ukážok a prípadov konečného použitia, ktoré v rukách typického používateľa nikdy nebudú fungovať (a sú ich milióny...).
Tento predslov má naznačiť.
Verte mi, keď hovorím, že to nehovorím ľahkovážne.
To, čo Google práve urobil s Gemini 2.0 flash, zmenilo absolútne všetko. Všetko.
A nikto to nevidel.
Jeden z najobľúbenejších príbehov mojich rodičov je, ako som ako 5-ročný dostal rolu v miestnej betlehemskej hre. Mojou úlohou bolo v tichosti ozdobiť scénu, kým staršie a zdatnejšie deti predviedli výklad o narodení Ježiša Krista.
S touto menšou úlohou som nebol obzvlášť spokojný.
V priebehu nasledujúcich 10-15 minút predtým, ako ma odvliekli z javiska, som sledoval hercov po javisku, kradol som ich repliky a hromžil som na vlastnú interpretáciu hry.
Prihováranie sa v perfektných chvíľach, vystupovanie pred ostatnými. Bola to majstrovská trieda vyrušovania a každý chichot a slzavé oko z prizerajúceho sa davu ma podnietili k ďalšiemu. Bolo to nemilosrdné ničenie.
Predstavenie upadlo do frašky, publikum plakalo od smiechu; herci zmätení a zmätení.
Smiech ma povzbudil, bolo z toho crescendo.
Hra bola prevedená na pantomímu, úloha je hotová. Dodnes zostáva rozprávkou, ktorá sa rozprávala na večierkoch novým a mladším členom rodiny.
Samozrejme, táto konkrétna hra je Open AIs 12 days of Christmas a ako Google nielenže ukradol ich hrom, ale ovládol príbeh, ukradol svetlo reflektorov a zmenil vianočnú oslavu z OpenAI na zimnú nočnú moru.
Ja, (ako väčšina racionálne uvažujúcich ľudí), som sa na 12 dní Vianoc od OpenAI naladil so zdravou mierou skepticizmu a sledoval som, ako predvádzali telefonáty a astronomicky drahé a pomalé volania cez API na mierne vylepšený model LLM, a cítil som istotu, že môj cynický pohľad na svet sa potvrdil.
Potom sa niečo stalo.
Stalo sa to v pozadí, s dokonalým divadelným načasovaním; následky prichádzajú ako zemetrasenie a budú ich cítiť všetci a vidieť ich v každom produkte.
Myslel som, že Google pustil loptu na AI, my všetci. Boli jednoducho irelevantné vo všetkých praktických použitiach. Kvalita bola zlá, funkčnosť obmedzená.
Ukázalo sa, že loptu nespustili a v práci nezaspali. Jednoducho odchádzali od konkurencie (teraz v porovnaní s deťmi), aby zápasili s beta verziami, sotva fungujúcimi API a problémami so škálovaním, zatiaľ čo ticho budovali nástroje, ktoré sú potrebné na efektívne využitie GenAI vo výrobe.
Ešte pred týždňom som nemal ani živý kľúč Google API.
Tento týždeň som v procese migrácie každej jednej z mojich služieb.
Môže sa to zdať unáhlené, ale dovoľte mi to vysvetliť.
Vo svete AI sú momentálne dve rôzne frakcie; vedcov a staviteľov.
Priekopníci a vedci hľadajú AGI a nové prípady použitia; je to dôležitá práca, ako sú nové prístupy k liečbe rakoviny alebo hľadanie akademických objavov v kvantovej fyzike. Môžu to byť teoretické alebo dokonca v niektorých prípadoch zelené výhonky praktických prípadov použitia, najmä napríklad v oblasti robotiky.
Títo ľudia sa zaujímajú o AGI a adaptáciu GenAI na hybridnejšiu formu inteligencie, ktorá exponenciálne zvýši užitočnosť oproti súčasným LLM. Môže to trvať roky, môže to trvať generácie (pravdepodobne!).
Som pevne a bez hanby v druhej frakcii; sme stavbári.
GenAI už dokáže neuveriteľné veci. Veci, ktoré by pred rokom alebo dvoma boli nemožné. Chcem stavať veci, ktoré fungujú hneď teraz.
Remeslo a práca je práca s dostupnými LLM a API a zisťovanie, aké prípady použitia môžeme implementovať.
Staviteľ potrebuje nástroje a môj zásobník bol odvodený z nespočetných hodín strávených testovaním užitočnosti všetkých dostupných rozhraní API a modelov.
1/ Claude 3.5 Sonet pre kódovanie (kód)
2/ OpenAI API pre uvažovanie štruktúrovaných dát (agenti)
3/ Groq / Fireworks AI API pre lacné a okamžité odvodenie (individuálne hovory)
4/ Lama pre lokálne/na zariadení (Edge computing)
Myslel som si, že väčšina mojich základov bude pokrytá na najbližších 3-5 rokov.
Potenciálne by som v určitom okamihu mohol vymeniť modely OpenAI za lacnejšiu alternatívu, ale odvodené náklady pre mňa v mojom meradle aj tak nie sú problémom. Aby som bol úprimný, v skutočnosti ma nezaujímal žiadny model GenAI, ktorý nebol uvedený vyššie, dokonca som nevenoval pozornosť ani Gemini Flash v2.0.
Teraz dávam pozor.
Všetci vieme, že rok 2025 je rokom agentov, sociálne médiá nám neprestanú hovoriť.
Neznášam hype vlaky, ale základná pravda je, že systémy AI sú teraz v podstate schopné „polospoľahlivo“ podnikať kroky v našom mene. Je teda spravodlivé povedať, že v roku 2025 bude vydaných veľa populárneho softvéru, ktorý bude používať túto paradigmu.
Typický tok agentov prebieha asi takto.
Dostávame inštrukciu (rezervujte si let, zavolajte mame, urobte mi raňajky), ktorá je interpretovaná výzvou. Výzva sa zvyčajne vykonáva cez API, teda vaše OpenAI alebo Groq alebo Fireworks AI API). Táto výzva zavolá nástroj (Skyscanner, vyhľadávanie na webe), ktorý získa výsledok a zavolá nejaké nastavenie kódu vývojárom a urobí „veci“. Výsledok tejto „veci“ sa potom vráti do inej výzvy a cyklus pokračuje (nJumps), kým nevykonáme akciu. Hurá.
Nevyzerá to ako najčistejšia architektúra?
Ak niektoré z týchto volaní API zlyhá alebo vráti neočakávaný výsledok, celý reťazec sa preruší. Objavili sa desiatky rámcov Python, ktoré tento problém abstrahujú, no nedokážu ho vyriešiť. Nástroje sa zlepšujú, teraz môžeme vidieť chyby pri vykonávaní, overovať štruktúrované údaje a vytvárať reťazce s niečím, čo sa blíži spoľahlivosti, preto ten humbuk pre Agenta 2025.
Ale vyššie uvedená architektúra zostáva spletitá, zložitá a nespoľahlivá. Napriek tomu je to tiež jediný spôsob, ako sme museli odomknúť potenciál GenAI v Agentických tokoch.
V decembri 2024 spoločnosť Google práve urobila vyššie uvedený model agenta zastaraným ešte predtým, ako sa stal všadeprítomným.
Hlavné dôvody sú nasledovné:
1/ Natívne vyhľadávanie
2/ Integrovaná orchestrácia
3/ Multimodálne (čo funguje!)
https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool
Prečítajte si dokumenty Gemini API a majte na pamäti, že toto nie je návrh alebo fantázia, ale API, ktoré funguje a môže poskytnúť výsledky v milisekundách.
Integrované vyhľadávanie Google je spoľahlivé a funguje rýchlo. Súperi ako Perplexity majú textový vyhľadávací nástroj AI, ktorý má svoje miesto v širšom prostredí, ale majte na pamäti, že návrh základnej hodnoty bol teraz integrovaný ako „funkcia“ Gemini Flash v2.0.
Zmätok Účel a dôvod existencie AI sa predpokladá v rámci skutočného modelu AI, ktorý je schopný dosiahnuť rovnakú kvalitu a rýchlosť výsledku s masívnym využitím aj v iných oblastiach.
Skutočnosť, že Google vlastní proprietárne rozhranie Search API, je tu rozhodujúca. Majú „Native Tool“, združený do rovnakého API slúžiaceho modelu odvodzovania, ktorý dokáže vyhľadávať dostupný internet jednoduchým pridaním nejakého textu do volania API. Ach, ale OpenAI to dokáže tiež, čo hovoríš?
OpenAI nemôže konkurovať. Ich hľadanie nie je natívne (alebo nie je zrelé) a to je dôležité. Naozaj to ukazuje. Majú „Realtime API“, ale nefunguje to tak dobre a je výrazne pomalšie a chybnejšie ako implementácia Gemini Flash v2.0 od Googlu. V reálnom čase viac ako v ktorejkoľvek inej doméne je latencia všetkým. Výsledky nie sú ani zďaleka.
Google doslova spustí požiadavku na vyhľadávanie, KEĎ model odpovedá a má infraštruktúru na poskytnutie odpovede skôr, ako si odpoveď prečítate. Tento malý detail pokrýva kritické milisekúndy, ktoré menia zážitok z interakcie z „rúžu na prasati“ na „skutočnú kurevskú dohodu“.
Integrované vyhľadávanie Google funguje a funguje naozaj veľmi rýchlo.
Vo svete AI sa veľa hovorí o tom, že nikto nemá vodnú priekopu.
Google práve naplnil obrovskú priekopu vianočnou radosťou a stiahol padací most.
Cena, rýchlosť, kvalita... Vybrať dva? Hmmmm…
Google vyhráva v troch bodoch.
Veselé Vianoce OpenAI.
Ale tam to nekončí. Google zmenil hru, pokiaľ ide o toky agentov. Vyhľadajte na internete „Nástroje AI“ a nájdete hory rámcov, úložísk kódu a projektov, ktoré v podstate robia to isté.
vyhľadávanie na internete; Skontrolujte.
Webová stránka Scape; skontrolovať
Previesť na markdown; skontrolovať.
Spustiť kód; skontrolovať.
Získajte nejaké súkromné údaje; skontrolovať.
Všetky tieto nástroje automatizujú vyhľadávanie, získavanie a spúšťanie kódu. https://python.langchain.com/docs/integrations/tools/
Ide o to, že Google to práve integroval do svojho API, jediného koncového bodu, ktorý zvládne všetko vyššie uvedené. Teraz je to v podstate vyriešený problém.
Pre mnohé prípady použitia už nepotrebujeme zložité toky agentov.
Nižšie uvedený diagram z OpenAI ukazuje, ako funguje volanie funkcií pre agentov.
Doteraz sme mali spustiteľné prostredie mimo GenAI API.
Google práve zabudoval väčšinu týchto funkcií do základného API, ktoré môžu používať vývojári.
Napríklad, ak chcem použiť Llama 3.3 na vyhľadávanie na internete, môžem vykonať volanie nástroja nasledovne.
Rovnaký postup s Gemini Flash v2.0:
Späť na predchádzajúci bod, rýchlosť, kvalita, cena...
Google práve vybral všetky 3.
Takmer všetky nástroje sú variáciami vyhľadávania, získavania (previesť na markdown a vložiť do promptu) a ľubovoľného spúšťania kódu s prímesou súkromných údajov. Okrem údajov (takmer určite čoskoro...) sú to teraz hlavné obavy, ktoré spôsobili, že mnohé systémy Agentic boli zastarané ešte pred ich spustením.
Nebude to dlho trvať, kým budeme mať aj natívne doplnky pre vaše zdroje údajov Google (logický ďalší krok), v tomto bode, s výnimkou niekoľkých málo škálovaných a veľmi zložitých systémov AI, sú v podstate všetky súčasné rámce a procesy len spletité implementácie. toho, čo sa dá dosiahnuť lepšie, rýchlejšie a lacnejšie v jedinom volaní API.
Z architektonického hľadiska je to dôležité v tom, že namiesto budovania reťazených a zložitých tokov môžem vylepšiť jediný jednoduchý model. Všetko sa stalo oveľa jednoduchšie.
Zbohom rámcom Pythonu. (neostávajte v kontakte).
Aj keď teraz nemôžeme urobiť všetko, čo potrebujeme, čiara v piesku bola nakreslená a „nástroje“ sa stanú kľúčovými záležitosťami, ktoré poskytovatelia integrujú do API. Už si nemusíme robiť vlastných agentov, máme spoľahlivé, škálované a rýchle API na prácu.
Rovnako ako ja, aj vy ste pravdepodobne trochu spálený celou tou multimodálnou „demo“ integráciou používania zvuku a videa. Pamätám si, že som bol taký nadšený, že som vyskúšal streamovanie zvuku (roky som vyvíjal na WebRTC a v minulom živote som založil nástroj na streamovanie videa z elektronického obchodu).
Potenciál je zrejmý, ale celá vec jednoducho nepôsobí dobre. Choďte napríklad na ihrisko OpenAI a vyskúšajte si ich API v reálnom čase. Ukazuje potenciál, ale je na míle ďaleko od príjemného používateľského zážitku. Väčšina používateľov (a ja som hovoril so stovkou používateľov) chce iba zážitok, ktorý „funguje“. Tie milisekúndy a prirodzené intonácie nie sú detaily, sú samotnou podstatou produktu.
Gemini Flash v2.0 je prvý model, ktorý mi dal „wow“ moment, ktorý som mal, keď som prvýkrát začal používať Claude na kódovanie. Je to rovnaký pocit, ako keď ste prvýkrát skepticky položili ChatGPT otázku a „stroj“ vám dal ľudskú odpoveď.
Latencia, pauzy, intonácia hlasu. Google to zvládol. Stále je to zjavne systém AI, ale to nikdy nebol problém. Problémom boli vždy pauzy, prerušenia, spôsob, akým model interagoval s ľuďmi.
Nevadí mi hovoriť so strojom, za predpokladu, že stroj je informovaný, schopný interakcie a schopný robiť veci, ktoré potrebujem. Toto je 100% prvýkrát, čo som skutočne videl model schopný poskytnúť túto skúsenosť, a dôsledky sú obrovské.
Ak ste boli nadšení z audio či video interakcií a trochu skeptickí voči modelom. Vyskúšajte Gemini Flash v2.0. Google zjavne investoval čas, úsilie a zdroje do riešenia problémov s latenciou a nákladmi. Žiadny iný model AI, ktorý som skúšal, sa ani nepribližuje.
A je to lacné…
A je škálovateľný…
Som rovnako nadšený ako prvýkrát, keď som pred všetkými tými rokmi požiadal ChatGPT, aby napísal príspevok na linkedin. V tejto fáze môjho života a zapojenia sa do GenAI to nie je príliš jednoduché.
Nečakal som, že táto chvíľa príde tak skoro.
Teraz máme realitu s lacným, rýchlym a vysoko výkonným modelom, s ktorým môžeme interagovať v reálnom čase.
Toto je doslova prvýkrát v mojom živote, čo môžem hovoriť s počítačom a mám pocit, že mi rozumie, môže mi odpovedať a konať v mojom mene. Nie je to zložitý agent, je to jediné volanie API.
Toto je technický úspech, ktorý bude ohlasovať svetom AI, aj keď si to mnohí ešte neuvedomili.
Okrem prirodzeného rozhrania a interakcií je model schopný natívne prehľadávať internet, spúšťať kód a dať mi odpoveď v čase, ktorý potrebuje na vytvorenie vety.
Bol tu sen, ktorý bol UX generatívnej AI.
V decembri 2024 sa to stalo realitou.
Ak ma teraz ospravedlňujete, idem niečo stavať.