Plastmasas ietekmētājs. AI Fanboy. Kartona eksperts. Visi termini, kas iekļauti mūsdienu leksikā, lai aprakstītu “ažiotāžas” vilni, kas ieskauj AI. Es jau sen esmu skeptiķis pret dažām dīvainākām un grandiozākām prasībām GenAI ainā.
1/ Programmētāji pazudīs
2/ AGI ieradīsies 2024. gadā
3/ Visi darbi tiks automatizēti
4/ Roboti kļūs pie samaņas (Skynet)
Visa šī nepamatotā hiperbola, pat neiedziļinoties ekstrēmiskākajos uzskatos (ir Reddit foruma singularitāte, kurā ir 3,4 miljoni dalībnieku)
Mani īpaši satrauc emociju un fantāzijas projicēšana datora algoritmos, kas spēj paveikt foršas lietas. Jūs neatradīsit mani pavadošajā lietotnē, un es uzskatu, ka daudzi izcili cilvēki, kuri abonē šo Skynet uztveri par AI, riskē zaudēt veselo saprātu.
Mani nesenie emuāri ir bijuši pretrunā ar vispārpieņemto un nedaudz fantastisko AI pasaules uzskatu 👇
Viss, ko dara šīs API, ir audio konvertēšana tekstā, tā apstrāde, izmantojot valodas modeli, un pēc tam atpakaļ audio pārvēršana. No virsmas tas varētu šķist sarežģīts, bet zem tā ir tikai pamata teksta ģenerēšana robota balsī. Katra atsevišķa sistēma ir visaptveroša un pietiekami nobriedusi, taču salīmējiet tās visas kopā ar mūsu sakāmvārdu cūku, un nav īstas izpratnes par audio mijiedarbības niansēm.
Ja izskatās pēc cūkas, čīkst kā cūka un staigā kā cūka. Tā ir cūka. Pat ja tas valkā lūpu krāsu.
Izcilības barjera nekad nav bijusi tik zema, jo konkurence arvien vairāk notiek ar algoritmu un tā neiesaistīto un nepieredzējušo meistaru.
Robots nekad nesasniegs patiesas zināšanas, jo nekad nebūs pietiekami daudz īstu ekspertu datu kopas, no kuras apkopot avotus. Un, izmantojot pūļa pakalpojumus, tiek ņemts vidējais rezultāts, nevis labākais. Robots nedomā. Tas atkārtojas.
Problēma ar tāda rīka vai sistēmas nodrošināšanu, kas ļauj abstrakti funkcionalitāti, ir tā, ka tam ir pievienots pieņēmumu kopums. Kad es pērku āmuru, es pieņemu, ka tas darbosies. Kad es pērku spiediena tīrītāju, es pieņemu, ka tas darbosies.
Problēma ir tāda, ka, izmantojot sistēmu, es pieņemu, ka tā darbosies. Bet tas ir burtiski neiespējami, ņemot vērā pamatā esošās tehnoloģijas briedumu. Agentic Frameworks ir tālu no tā, ka arvien vairāk tiek izmantota, un tā pārdod ilūziju papildus ļoti kontrolētām demonstrācijām un ierobežotiem lietošanas gadījumiem, kas nekad nedarbosies parasta lietotāja rokās (un tādu ir miljoniem...).
Šis priekšvārds ir domāts.
Ticiet man, kad es saku, ka es to nesaku vieglprātīgi.
Tas, ko Google tikko paveica ar Gemini 2.0 zibspuldzi, ir mainījis pilnīgi visu. Viss.
Un neviens neredzēja to nākam.
Viens no manu vecāku iecienītākajiem stāstiem ir tas, kā, kad man bija 5 gadi, es piedalījos vietējā Kristus dzimšanas lugā. Mana loma bija klusi izrotāt komplektu, kamēr vecākie un spējīgākie bērni interpretēja Jēzus Kristus dzimšanu.
Es nebiju īpaši apmierināts ar šo mazo lomu.
Nākamo 10-15 minūšu laikā, pirms mani novilka no skatuves, es sekoju aktieru dalībniekiem, zagdams viņu rindas un izrunājot savu lugas interpretāciju.
Iesaistīšanās perfektos brīžos, uzstāšanās citos. Tā bija traucēšanas meistarklase, un katra skatītāju pūļa ķiķināšana un asarošana mani mudināja uzzināt vairāk. Tā bija nežēlīga iznīcināšana.
Izrāde nonāca farsā, publikai raudot no smiekliem; aktieri apmulsuši un apmulsuši.
Smiekli mani iedrošināja, tas kļuva par crescendo.
Luga tika pārveidota par pantomīmu, darbs pabeigts. Līdz mūsdienām tā joprojām ir pasaka, kas tiek stāstīta vakariņās jauniem un jaunākiem ģimenes locekļiem.
Protams, šī konkrētā luga ir Open AI 12 dienas Ziemassvētkos un tas, kā Google ir ne tikai nozadzis viņu pērkonu, bet arī pavēlējis stāstījumam, nozagt uzmanības centrā un pārvērtis Ziemassvētku svinības no OpenAI par ziemas murgu.
Es (tāpat kā vairums racionālu cilvēku) ar veselu skepsi noskaņojos uz OpenAI Ziemassvētku 12 dienām un skatījos, kā viņi demonstrē telefona zvanus un astronomiski dārgus un lēnus API zvanus uz nedaudz uzlabotu LLM modeli, un jutos pārliecināts, ka mans ciniskais pasaules uzskats tika apstiprināts.
Tad kaut kas notika.
Tas notika fonā, ar perfektu teātra laiku; kā zemestrīcei sekas nāk, un tās jutīs visi un redzēs katrā produktā.
Man šķita, ka Google ir iznīcinājis AI, mēs visi to darījām. Tiem vienkārši nebija nozīmes visos praktiskajos lietojumos. Kvalitāte bija slikta, funkcionalitāte bija ierobežota.
Izrādās, ka viņi nav nometuši bumbu un nebija aizmiguši darbu. Viņi vienkārši atstāja konkurenci (salīdzinājumam tagad ir bērni), lai cīnītos ar beta versijām, tikko funkcionējošām API un mēroga problēmām, vienlaikus klusi veidojot rīkus, kas nepieciešami, lai efektīvi izmantotu GenAI ražošanā.
Vēl pirms nedēļas man pat nebija reāllaika Google API atslēgas.
Šonedēļ es migrēju katru savu pakalpojumu.
Tas var šķist pārsteidzīgi, bet ļaujiet man paskaidrot.
Pašlaik AI pasaulē ir divas dažādas frakcijas; zinātnieki un celtnieki.
Pionieri un zinātnieki meklē AGI un jaunus lietošanas gadījumus; tas ir svarīgs darbs, piemēram, jaunas pieejas vēža ārstēšanai vai akadēmisku atklājumu meklēšana kvantu fizikā. Tas var būt teorētisks vai pat dažos gadījumos daži zaļi praktisku lietojumu gadījumi, īpaši, piemēram, robotikas jomā.
Šie cilvēki ir ieinteresēti īstenot AGI un pielāgot GenAI hibrīdākam izlūkošanas veidam, kas eksponenciāli palielinās lietderību salīdzinājumā ar pašreizējiem LLM. Tas var aizņemt gadus, var paiet paaudzes (iespējams!).
Es stingri un nekaunīgi esmu otrajā frakcijā; mēs esam celtnieki.
GenAI jau spēj paveikt neticamas lietas. Lietas, kas pirms gada vai diviem būtu bijušas neiespējamas. Es vēlos izveidot lietas, kas darbojas tieši tagad.
Pašreizējais darbs ir darbs ar pieejamajiem LLM un API un skatīšanās, kādus lietošanas gadījumus mēs varam ieviest.
Būvniekam ir nepieciešami rīki, un mana kaudze tika iegūta no neskaitāmām stundām, kas pavadītas, pārbaudot visu pieejamo API un modeļu lietderību.
1/ Claude 3.5 Sonets kodēšanai (kods)
2/ OpenAI API strukturētu datu argumentācijai (aģenti)
3/ Groq / Fireworks AI API lētiem un tūlītējiem secinājumiem (individuāli zvani)
4/ Lama vietējai/ieslēgtai ierīcei (Edge skaitļošana)
Es domāju, ka lielākā daļa no manām bāzēm tiks segtas nākamos 3-5 gadus.
Potenciāli kādā brīdī es varētu nomainīt OpenAI modeļus pret lētāku alternatīvu, taču secinājumu izmaksas manā mērogā tik un tā nav problēma. Godīgi sakot, mani īsti neinteresēja neviens GenAI modelis, kas nebija minēts iepriekš, es pat nepievērsu uzmanību Gemini Flash v2.0.
Es tagad pievēršu uzmanību.
Mēs visi zinām, ka 2025. gads ir aģentu gads, un sociālie mediji mums nepārstās stāstīt.
Es ienīstu ažiotāžu, taču pamatā esošā patiesība ir tāda, ka AI sistēmas tagad pamatā spēj “daļēji uzticami” rīkoties mūsu vārdā. Tādējādi ir godīgi teikt, ka 2025. gadā tiks izlaista daudzas populāras programmatūras, kas izmantos šo paradigmu.
Tipiska aģentu plūsma notiek apmēram šādi.
Mēs saņemam instrukciju (Rezervējiet lidojumu, piezvaniet manai mammai, pagatavojam brokastis), ko interpretē uzvedne. Uzvedne parasti tiek izpildīta, izmantojot API, tātad jūsu OpenAI vai Groq vai Fireworks AI API). Šī uzvedne izsauc rīku (Skyscanner, tīmekļa meklēšana), kas iegūst rezultātu un izsauc izstrādātāja koda iestatīšanu un veic "sīkumus". Pēc tam šo “sīču” rezultāts tiek atgriezts citā uzvednē, un cikls turpinās (nJumps), līdz esam veikuši darbību. Urā.
Tas neizskatās pēc tīrākās arhitektūras, vai ne?
Ja kāds no šiem API izsaukumiem neizdodas vai atgriež negaidītu rezultātu, visa ķēde tiek pārtraukta. Ir parādījušies desmitiem Python ietvaru, lai abstrahētu šo problēmu, taču tie nevar to atrisināt. Rīki tiek uzlaboti, tagad mēs varam redzēt kļūdas izpildē, apstiprināt strukturētus datus un veidot ķēdes, kas tuvojas uzticamībai, tāpēc tiek radīta ažiotāža par Agent 2025.
Taču iepriekš minētā arhitektūra joprojām ir sarežģīta, sarežģīta un neuzticama. Neskatoties uz to, tas ir arī vienīgais veids, kā mums vajadzēja atraisīt GenAI potenciālu aģentu plūsmās.
2024. gada decembrī Google tikko padarīja iepriekš minēto aģenta modeli novecojušu, pirms tas ir kļuvis visuresošs.
Galvenie iemesli ir šādi:
1/ Vietējā meklēšana
2/ Integrēta orķestrēšana
3/ Multimodāls (kas darbojas!)
https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool
Izlasiet Gemini API dokumentus un ņemiet vērā, ka tas nav priekšlikums vai fantāzija, bet gan API, kas darbojas un var sniegt rezultātus milisekundēs.
Google integrētā meklēšana ir uzticama un darbojas ātri. Sāncenšiem, piemēram, Perplexity, ir uz tekstu balstīta AI meklētājprogramma, tai ir sava vieta plašākā vidē, taču ņemiet vērā, ka galvenās vērtības piedāvājums tagad ir integrēts kā Gemini Flash v2.0 “funkcija”.
Apjukums AI mērķis un pastāvēšanas iemesls ir pieņemts faktiskā AI modelī, kas spēj iegūt tādu pašu kvalitāti un ātrumu, ar milzīgu lietderību arī citās jomās.
Fakts, ka Google pieder patentēta meklēšanas API, šeit ir ļoti svarīgs. Viņiem ir “Vietējais rīks”, kas ir iekļauts tajā pašā API, kas apkalpo secinājumu modeli, kas var meklēt pieejamo internetu, vienkārši pievienojot tekstu API izsaukumam. Ak, bet OpenAI arī to var izdarīt, es dzirdu jūs sakāt?
OpenAI nevar konkurēt. Viņu meklējumi nav vietējie (vai nav nobrieduši), un tas ir svarīgi. Tas tiešām parāda. Viņiem ir “Realtime API”, taču tas nedarbojas tik labi un ir ievērojami lēnāks un buggierāks nekā Google Gemini Flash v2.0 ieviešana. Reāllaikā vairāk nekā jebkurā citā domēnā latentums ir viss. Rezultāti nav pat tuvu.
Google burtiski izpilda meklēšanas pieprasījumu, KAMĒR modelis reaģē, un tam ir infrastruktūra, lai sniegtu atbildi, pirms esat izlasījis atbildi. Šī mazā detaļa aptver kritiskās milisekundes, kas maina mijiedarbības pieredzi no “Lūpu krāsa uz cūkas” uz “īstu f**king darījumu”.
Google integrētā meklēšana darbojas, un tā darbojas ļoti ātri.
AI pasaulē tiek runāts par to, ka nevienam nav grāvja.
Nu Google tikko piepildīja milzu grāvi ar Ziemassvētku prieku un izvilka paceļamo tiltu.
Cena, ātrums, kvalitāte… Izvēlēties divus? Hmmmm…
Google uzvar trīs gadījumos.
Priecīgus Ziemassvētkus OpenAI.
Bet ar to tas neapstājas. Google ir mainījis spēli aģentu plūsmu ziņā. Meklējiet internetā “AI Tools”, un jūs atradīsit ietvaru kalnus, kodu repo un projektus, kas būtībā dara to pašu.
Meklēt internetā; Pārbaudiet.
Scape vietne; pārbaudīt
Konvertēt uz atzīmes; pārbaudīt.
Palaist kodu; pārbaudīt.
Iegūstiet dažus privātus datus; pārbaudīt.
Visi šie rīki automatizē meklēšanu, izguvi un koda izpildi. https://python.langchain.com/docs/integrations/tools/
Lieta ir tāda, ka Google tikko integrēja to savā API — vienā galapunktā, lai apstrādātu visu iepriekš minēto. Tagad tā būtībā ir atrisināta problēma.
Mums vairs nav vajadzīgas sarežģītas aģentu plūsmas daudziem lietošanas gadījumiem.
Zemāk redzamā OpenAI diagramma parāda, kā aģentu funkciju izsaukšana darbojas.
Līdz šim mums ir bijusi izpildes vide ārpus GenAI API.
Google tikko ir izveidojis lielāko daļu šīs funkcionalitātes pamata API, ko var izmantot izstrādātāji.
Piemēram, ja es vēlos izmantot Llama 3.3, lai meklētu internetā, es varu veikt rīku izsaukšanu šādi.
Šī pati plūsma ar Gemini Flash v2.0:
Atgriezties uz iepriekšējo punktu, ātrums, kvalitāte, izmaksas…
Google tikko izvēlējās visus 3.
Gandrīz visi rīki ir meklēšanas, izguves (konvertēšana uz atzīmju samazināšanu un ievadīšanu uzvednē) un patvaļīgas koda izpildes varianti ar privāto datu izsmidzināšanu. Izņemot datus (gandrīz noteikti drīzumā...), tās tagad ir galvenās problēmas, kuru dēļ daudzas Agentic sistēmas ir novecojušas pirms to palaišanas.
Nepaies ilgs laiks, kad mums būs arī vietējie spraudņi jūsu Google datu avotiem (loģisks nākamais solis), un tad, izņemot dažas retas mērogotas un ļoti sarežģītas AI sistēmas, būtībā visi pašreizējie ietvari un procesi ir tikai sarežģīti implementācijas. par to, ko var sasniegt labāk, ātrāk un lētāk vienā API izsaukumā.
No arhitektūras viedokļa tā nozīme ir tāda, ka tā vietā, lai veidotu ķēdes un sarežģītas plūsmas, es varu uzlabot vienu vienkāršu modeli. Viss kļuva daudz vienkāršāks.
Čau, Python ietvari. (neturi kontaktus).
Pat ja mēs šobrīd nevaram izdarīt visu, kas mums vajadzīgs, svītra smiltīs ir novilkta, un “rīki” kļūs par galveno problēmu, ko pakalpojumu sniedzēji integrēs API. Mums vairs nav jāveido savi aģenti, mums ir uzticamas, mērogotas un ātras API, ar kurām strādāt.
Tāpat kā mani, jūs, iespējams, mazliet apgrūtina visa audio/video izmantošanas multimodālā demonstrācijas integrācija. Es atceros, ka biju ļoti sajūsmā izmēģināt audio straumēšanu (es gadiem ilgi izstrādāju WebRTC un iepriekšējā dzīvē izveidoju e-komercijas video straumēšanas rīku).
Potenciāls ir acīmredzams, bet viss vienkārši nešķiet pareizi. Piemēram, dodieties uz OpenAI rotaļu laukumu un izmēģiniet to reāllaika API. Tas parāda potenciālu, taču ir jūdžu attālumā no patīkamas lietotāja pieredzes. Lielākā daļa lietotāju (un es esmu runājis ar 100s) vienkārši vēlas pieredzi, kas "darbojas". Tās milisekundes un dabiskās intonācijas nav detaļas, tā ir produkta būtība.
Gemini Flash v2.0 ir pirmais modelis, kas man radīja “wow” brīdi, kad es pirmo reizi sāku izmantot Claude kodēšanai. Tā ir tāda pati sajūta kā pirmo reizi, kad jūs skeptiski uzdevāt ChatGPT jautājumu, un “mašīna” sniedza cilvēcisku atbildi.
Latentums, pauzes, balss intonācija. Google to ir trāpījis. Acīmredzot tā joprojām ir AI sistēma, taču tā nekad nav bijusi problēma. Problēma vienmēr bija pauzes, pārtraukumi, veids, kā modelis mijiedarbojās ar cilvēkiem.
Man nav iebildumu runāt ar mašīnu, pieņemot, ka iekārta ir zinoša, spējīga sadarboties un spēj darīt to, kas man ir nepieciešams. Šī ir 100% pirmā reize, kad es patiešām redzu modeli, kas spēj nodrošināt šo pieredzi, un sekas ir milzīgas.
Ja jūs sajūsmināja audio vai video mijiedarbība un jūs esat mazliet skeptiski noskaņots pret modeļiem. Izmēģiniet Gemini Flash v2.0. Acīmredzot Google ir ieguldījis laiku, pūles un resursus, lai atrisinātu problēmas saistībā ar latentumu un izmaksām. Neviens cits AI modelis, ko esmu izmēģinājis, pat netuvojas.
Un tas ir lēts…
Un tas ir mērogojams…
Esmu tikpat sajūsmā kā pirmo reizi, kad pirms visiem šiem gadiem palūdzu ChatGPT uzrakstīt linkedin ziņu. Šajā manas dzīves posmā un saistībā ar GenAI tas nav īpaši viegli.
Es negaidīju, ka šis brīdis pienāks tik ātri.
Tagad mums ir realitāte ar lētu, ātru un ļoti spējīgu modeli, ar kuru varam mijiedarboties reāllaikā.
Šī ir burtiski pirmā reize manā dzīvē, kad varu runāt ar datoru un justies, ka tas mani saprot, var man atbildēt un rīkoties manā vārdā. Tas nav sarežģīts aģents, tas ir viens API izsaukums.
Šis ir tehnisks sasniegums, kas atbalsosies AI pasaulē, pat ja daudzi to vēl nav sapratuši.
Papildus dabiskajam interfeisam un mijiedarbībai modelis spēj meklēt internetā, izpildīt kodu un sniegt man atbildi laikā, kas nepieciešams teikuma izveidošanai.
Bija sapnis, kas bija ģeneratīvā AI UX.
2024. gada decembrī tas kļuva par realitāti.
Tagad, ja jūs mani atvainojat, es gatavojos būvēt lietas.