Ushawishi wa plastiki. AI Fanboy. Mtaalam wa kadibodi. Istilahi zote zinazoingia katika kamusi ya kisasa kuelezea wimbi la 'hype' linalozunguka AI. Kwa muda mrefu nimekuwa mtu wa kutilia shaka baadhi ya madai ya ajabu zaidi na makubwa katika tukio la GenAI.
1/ Watayarishaji programu watatoweka
2/ AGI itafika 2024
3/ Kazi zote zitakuwa otomatiki
4/ Roboti zitafahamu (Skynet)
Hyperbole hii yote isiyo na msingi bila hata kuzama katika maoni ya itikadi kali zaidi (kuna umoja wa jukwaa la Reddit ambalo lina wanachama milioni 3.4)
Ninashangazwa sana na makadirio ya hisia na ndoto kwenye algoriti za kompyuta zenye uwezo wa kufanya mambo mazuri. Hutanipata kwenye programu shirikishi, na ninaamini kuwa watu wengi mahiri wanaojiandikisha kwenye mtazamo huu wa Skynet wa ufahamu wa AI wako katika hatari ya kupoteza akili zao.
Blogu zangu za hivi majuzi zimekuwa zikikinzana na mtazamo mkuu na wa ajabu wa ulimwengu wa AI 👇
API hizi zote zinafanya ni kubadilisha sauti kuwa maandishi, kuichakata kupitia muundo wa lugha, na kisha kuibadilisha kuwa sauti. Inaweza kuonekana kuwa ya kisasa juu ya uso lakini chini yake ni uundaji wa maandishi wa kimsingi katika sauti ya roboti. Kila mfumo ni wa kina na umekomaa ipasavyo, lakini ziunganishe zote pamoja kwenye nguruwe wetu wa methali na hakuna ufahamu wa kweli wa miingiliano ya sauti.
Ikiwa inaonekana kama nguruwe, hupiga kelele kama nguruwe na hutembea kama nguruwe. Ni nguruwe. Hata kama amevaa lipstick.
Kizuizi cha ubora hakijawahi kuwa chini sana, kwa sababu ushindani unazidi kuwa na algorithm na bwana wake asiyehusika na asiye na ujuzi.
Roboti haitawahi kufikia utaalamu wa kweli, kwa sababu hakutakuwa na hifadhidata ya kutosha ya wataalam wa kweli kutoka kwa watu wengi. Na kutafuta watu wengi huchukua matokeo ya wastani, sio bora zaidi. Roboti hafikirii. Inarudia.
Shida ya kutoa zana au mfumo unaokuruhusu utendakazi dhahania ni kwamba inakuja na seti ya mawazo. Ninaponunua nyundo, nadhani itafanya kazi. Ninaponunua kisafishaji shinikizo, nadhani kitafanya kazi.
Shida ni kwamba ninapotumia mfumo, nadhani itafanya kazi. Lakini hii haiwezekani kabisa kutokana na ukomavu wa teknolojia ya msingi. Mbali na kuongeza upitishwaji, Mifumo ya Kiajenti inauza udanganyifu juu ya demo zinazodhibitiwa sana na kesi za utumiaji zenye kikomo ambazo hazitafanya kazi mikononi mwa mtumiaji wa kawaida (na kuna mamilioni…).
Dibaji hii ni kutoa hoja.
Niamini ninaposema kwamba sisemi hivi kirahisi.
Kile ambacho Google imefanya na Gemini 2.0 flash kimebadilisha kila kitu kabisa. Kila kitu.
Na hakuna mtu aliyeiona inakuja.
Moja ya hadithi nilizozipenda sana wazazi wangu ni jinsi nilipokuwa na umri wa miaka 5, nilipewa sehemu katika mchezo wa kuigiza wa asili. Nikiwa kama mti, jukumu langu lilikuwa kupamba seti kimyakimya huku watoto wakubwa na wenye uwezo zaidi wakifanya tafsiri ya kuzaliwa kwa Yesu Kristo.
Sikufurahishwa sana na jukumu hili dogo.
Katika dakika 10-15 zilizofuata kabla ya kuburuzwa kutoka jukwaani, niliwafuata waigizaji kwenye jukwaa, nikiiba mistari yao na kutoa tafsiri yangu ya mchezo huo.
Kuingilia kati kwa wakati mzuri, kuigiza kwa wengine. Lilikuwa ni kundi kubwa la usumbufu, na kila tabasamu na machozi kutoka kwa umati wa watu waliokuwa wakitazama lilinivutia zaidi. Ilikuwa uharibifu usio na huruma.
Onyesho hilo lilishuka kwa kicheko, watazamaji wakilia kwa kicheko; waigizaji walishangaa na kuchanganyikiwa.
Kicheko hicho kilinitia moyo, ikawa crescendo.
Mchezo uligeuzwa kuwa pantomime, kazi imekamilika. Hadi leo, bado ni hadithi inayosimuliwa kwenye karamu za chakula cha jioni kwa wanafamilia wapya na wachanga.
Bila shaka, mchezo huu mahususi ni Open AIs siku 12 za Krismasi na jinsi Google haijaiba tu ngurumo zao, lakini iliamuru simulizi, ikaiba mwangaza na kugeuza sherehe ya Krismasi kutoka OpenAI kuwa ndoto mbaya ya majira ya baridi.
Mimi, (kama watu wengi wenye akili timamu), nilitazama siku 12 za Krismasi na OpenAI nikiwa na mashaka mengi, na nikatazama walipokuwa wakipunguza simu na simu za gharama kubwa za unajimu na polepole za API kwa muundo wa LLM ulioboreshwa kidogo, na nikahisi kuhakikishiwa kwamba. mtazamo wangu wa kijinga wa ulimwengu ulithibitishwa.
Kisha jambo fulani likatokea.
Ilifanyika nyuma, na muda kamili wa maonyesho; kama tetemeko la ardhi madhara yanakuja na yatahisiwa na kila mtu na kuonekana katika kila bidhaa.
Nilidhani Google ilikuwa imedondosha mpira kwenye AI, sote tulifanya hivyo. Hazikuwa na maana katika matumizi yote ya vitendo. Ubora ulikuwa duni, utendakazi ulikuwa mdogo.
Inatokea kwamba hawakuangusha mpira na hawakuwa wamelala kazini. Walikuwa wakiacha tu shindano (sasa watoto kwa kulinganisha) ili kushindana na matoleo ya Beta, API zisizofanya kazi kwa urahisi na masuala ya kiwango huku wakijenga zana ambazo ni muhimu ili kutumia kwa ufanisi GenAI katika uzalishaji.
Hadi wiki moja iliyopita hata sikuwa na Ufunguo wa API wa moja kwa moja wa Google.
Wiki hii, niko katika harakati za kuhama kila mojawapo ya huduma zangu.
Hii inaweza kuonekana kama upele, lakini wacha nielezee.
Kuna makundi mawili tofauti ndani ya ulimwengu wa AI hivi sasa; wanasayansi na wajenzi.
Waanzilishi na wanasayansi wanatafuta AGI na visa vya matumizi ya riwaya; hii ni kazi muhimu kama vile mbinu mpya za matibabu ya saratani au kutafuta mafanikio ya kitaaluma katika fizikia ya Quantum. Hii inaweza kuwa ya kinadharia au hata katika baadhi ya matukio baadhi ya shina za kijani za matukio ya matumizi ya vitendo, hasa katika uwanja wa robotiki kwa mfano.
Watu hawa wana nia ya kutafuta AGI na kurekebisha GenAI kwa aina ya mseto zaidi ya akili ambayo itaongeza matumizi zaidi ya LLM za sasa. Hii inaweza kuchukua miaka, inaweza kuchukua vizazi (pengine!).
Mimi niko imara na bila aibu katika kundi la pili; sisi ni wajenzi.
GenAI tayari ina uwezo wa mambo ya ajabu. Mambo ambayo mwaka mmoja au miwili iliyopita yasingewezekana. Ninataka kuunda vitu vinavyofanya kazi, hivi sasa.
Ufundi na kazi iliyopo inafanya kazi na LLM na API zinazopatikana na kuona ni matumizi gani tunaweza kutekeleza.
Mjenzi anahitaji zana na rafu yangu ilitokana na saa nyingi zilizotumiwa kujaribu matumizi ya API na miundo yote inayopatikana.
1/ Soneti ya Claude 3.5 ya Usimbaji (Msimbo)
2/ API za OpenAI za hoja za data zilizoundwa (Mawakala)
3/ Groq / Fireworks AI APIs kwa uelekezaji wa bei nafuu na wa papo hapo (Simu za kibinafsi)
4/ Llama kwa kifaa cha ndani/kwenye (Kompyuta ya makali)
Nilidhani kwamba besi zangu nyingi zitafunikwa kwa miaka 3-5 ijayo.
Labda wakati fulani ningeweza kubadilisha mifano ya OpenAI kwa njia mbadala ya bei nafuu, lakini gharama ya uelekezaji sio shida kwangu kwa kiwango changu hata hivyo. Kuwa waaminifu, sikupendezwa sana na mfano wowote wa GenAI ambao haujaorodheshwa hapo juu, sikuwa hata nikizingatia Gemini Flash v2.0.
Niko makini sasa.
Sote tunajua kuwa 2025 ni mwaka wa Mawakala, mitandao ya kijamii haitaacha kutuambia.
Ninachukia treni za hali ya juu lakini ukweli wa msingi ni kwamba mifumo ya AI sasa kimsingi ina uwezo wa 'kutegemewa nusu' kuchukua hatua kwa niaba yetu. Kwa hivyo, ni sawa kusema kwamba kutakuwa na mizigo ya programu maarufu iliyotolewa mwaka wa 2025 ambayo itatumia dhana hii.
Mtiririko wa kawaida wa wakala huenda kama hii.
Tunapokea maagizo (Hifadhi safari ya ndege, mpigie mama yangu, niandae kiamsha kinywa) ambayo inatafsiriwa na Prompt. Kidokezo kawaida hutekelezwa kupitia API, kwa hivyo API yako ya OpenAI au Groq au Fireworks AI). Kidokezo hicho huita kifaa (Skyscanner, Utafutaji wa Wavuti) ambacho hupata matokeo na kuita usanidi fulani wa msimbo na msanidi programu na hufanya "vitu". Matokeo ya "vitu" hivi hurejeshwa kwa Prompt nyingine na mzunguko unaendelea (nJumps) hadi tuwe tumetekeleza kitendo. Hurrah.
Haionekani kama usanifu safi zaidi?
Iwapo mojawapo ya simu hizi za API itashindwa au kurudisha matokeo yasiyotarajiwa, mlolongo wote umekatika. Mifumo mingi ya Python imeibuka ili kuondoa shida hii, lakini haiwezi kuitatua. Uwekaji zana unaboreka, sasa tunaweza kuona hitilafu katika utekelezaji, kuthibitisha data iliyopangwa na kujenga minyororo yenye kitu kinachokaribia kutegemewa, kwa hivyo shauku ya Wakala 2025.
Lakini usanifu hapo juu unabaki kuwa wa utata, ngumu na usioaminika. Licha ya hili, pia ni njia pekee tuliyopaswa kufungua uwezo wa GenAI katika mtiririko wa Agenti.
Mnamo Desemba 2024 Google imefanya mtindo wa wakala hapo juu kuwa wa kizamani kabla hata haujapatikana kila mahali.
Sababu za msingi ni kama zifuatazo:
1/ Utafutaji wa asili
2/ Okestra iliyojumuishwa
3/ Multi-modal (ambayo inafanya kazi!)
https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool
Soma hati za API ya Gemini, na ukumbuke kuwa hili si pendekezo au dhana, bali ni API inayofanya kazi na inaweza kutoa matokeo kwa milisekunde.
Utafutaji jumuishi wa Google ni wa kuaminika na pia hufanya kazi haraka. Wapinzani kama vile Kushangaa wana maandishi kulingana na injini ya utafutaji ya AI, ina nafasi yake katika mandhari pana lakini kumbuka pendekezo la msingi la thamani sasa limeunganishwa kama 'kipengele' cha Gemini Flash v2.0.
Madhumuni ya AI ya Kushangaa na sababu ya kuwepo imechukuliwa ndani ya muundo halisi wa AI ambao unaweza kuwa na ubora sawa na kasi ya matokeo na matumizi makubwa katika maeneo mengine pia.
Ukweli kwamba Google inamiliki API ya Utafutaji inayomilikiwa ni muhimu hapa. Wana "Zana ya Asili", iliyounganishwa katika API sawa inayohudumia modeli ya uelekezaji ambayo inaweza kutafuta mtandao unaopatikana kwa kuongeza maandishi fulani kwenye simu ya API. Ah, lakini OpenAI inaweza kufanya hivyo pia nasikia unasema?
OpenAI haiwezi kushindana. Utafutaji wao sio asili (au sio kukomaa) na hiyo ni muhimu. Inaonyesha kweli. Wana "API ya Wakati Halisi", lakini haifanyi kazi vizuri na ni ya polepole na yenye shida zaidi kuliko utekelezaji wa Gemini Flash v2.0 wa Google. Kwa wakati halisi zaidi ya kikoa kingine chochote, latency ndio kila kitu. Matokeo sio hata karibu.
Google huendesha ombi la utafutaji HUKU mtindo unajibu na ina muundo msingi wa kutoa jibu kabla hujasoma jibu. Maelezo haya madogo yanajumuisha milisekunde muhimu ambayo hubadilisha hali ya mwingiliano kutoka "Lipstick kwenye Nguruwe" hadi "mpango halisi wa f**king".
Utafutaji jumuishi wa Google hufanya kazi, na hufanya kazi haraka sana.
Mazungumzo mengi katika ulimwengu wa AI kuhusu jinsi hakuna mtu aliye na moat.
Kweli, Google imejaza shimo kubwa na Furaha ya Krismasi na kuvuta daraja.
Bei, Kasi, Ubora... Chagua mbili? Mmmmm...
Google inashinda kwa makosa matatu.
Krismasi Njema OpenAI.
Lakini haishii hapo. Google imebadilisha mchezo kulingana na mtiririko wa Wakala. Tafuta mtandaoni kwa "Zana za AI" na utapata milima mingi ya mifumo, repos za msimbo na miradi ambayo kimsingi inafanya kitu kimoja.
Tafuta mtandao; Angalia.
tovuti ya Scape; angalia
Badilisha kuwa alama; angalia.
Nambari ya kukimbia; angalia.
Chukua data ya kibinafsi; angalia.
Zana hizi zote ni utafutaji otomatiki, urejeshaji na utekelezaji wa msimbo. https://python.langchain.com/docs/integrations/tools/
Jambo ni kwamba, Google imeunganisha hii kwenye API yao, mwisho mmoja wa kushughulikia yote hapo juu. Sasa kimsingi ni tatizo lililotatuliwa.
Hatuhitaji tena mtiririko changamano wa mawakala kwa visa vingi vya utumiaji.
Mchoro ulio hapa chini kutoka kwa OpenAI unaonyesha jinsi simu za kukokotoa zinavyofanya kazi kwa Mawakala.
Hadi sasa, tunayo mazingira ya utekelezaji nje ya GenAI API.
Google imeunda sehemu kubwa ya utendakazi huo kuwa API ya msingi inayoweza kutumiwa na wasanidi programu.
Kwa mfano, ikiwa ninataka kutumia Llama 3.3 kutafuta mtandao, naweza kupiga simu za zana kama ifuatavyo.
Mtiririko huu sawa na Gemini Flash v2.0:
Rudi kwenye hatua ya awali, Kasi, Ubora, Gharama...
Google imechagua zote 3.
Takriban zana zote ni tofauti za utafutaji, urejeshaji (badilisha hadi alama chini na uingize kwa haraka) na utekelezaji wa msimbo kiholela kwa kunyunyiza data ya faragha. Isipokuwa kwa data (kwa hakika inakuja hivi karibuni…), haya sasa ni masuala ya msingi, ambayo yamefanya mifumo mingi ya Kiajenti kuwa ya kizamani kabla ya kuzinduliwa.
Haitachukua muda mrefu kabla ya sisi pia kuwa na programu-jalizi asili kwa vyanzo vyako vya data vya Google (hatua inayofuata yenye mantiki), wakati huo isipokuwa kwa mifumo michache ya AI iliyo na kiwango changamano na changamano, kimsingi mifumo na michakato yote ya sasa ni utekelezaji uliochanganyikiwa tu. ya kile kinachoweza kupatikana bora, haraka na kwa bei nafuu katika simu moja ya API.
Umuhimu wa hii kutoka kwa mtazamo wa usanifu, ni kwamba badala ya kujenga minyororo na mtiririko tata, ninaweza kuboresha mfano mmoja rahisi. Kila kitu kimekuwa rahisi zaidi.
Kwaheri mifumo ya Python. (usiendelee kuwasiliana).
Hata kama hatuwezi kufanya kila kitu tunachohitaji kwa sasa, mstari kwenye mchanga umechorwa na "zana" zitakuwa hoja kuu, zikiunganishwa katika API na watoa huduma. Hatuhitaji kuwafanyia Mawakala wetu wenyewe DIY tena, tuna API za kuaminika, zilizokuzwa na za haraka za kufanya kazi nazo.
Kama mimi, labda umechomwa kidogo na ujumuishaji wa 'demo' wa modi nyingi za matumizi ya Sauti/Video. Nakumbuka nilifurahi sana kujaribu utiririshaji sauti (nimekuwa nikitengeneza kwenye WebRTC kwa miaka mingi na katika maisha ya nyuma nilianzisha zana ya utiririshaji wa video ya eCommerce).
Uwezo ni dhahiri, lakini jambo zima halijisikii sawa. Kwa mfano nenda kwenye uwanja wa michezo wa OpenAI na ujaribu API yao ya wakati halisi. Inaonyesha uwezo, lakini iko umbali wa maili kutoka kuwa uzoefu wa kufurahisha wa mtumiaji. Watumiaji wengi (na nimezungumza na miaka 100), wanataka tu uzoefu "unaofanya kazi". Milisekunde hizo na sauti za asili sio maelezo, ndio asili ya bidhaa.
Gemini Flash v2.0 ni kielelezo cha kwanza ambacho kilinipa wakati wa "wow" niliokuwa nao nilipoanza kutumia Claude kwa usimbaji. Ni hisia sawa na mara ya kwanza ulipouliza swali kwa ChatGPT kwa mashaka na "mashine" ilikupa jibu la kibinadamu.
Kuchelewa, kusitisha, kiimbo cha sauti. Google ime-NAILED. Bado ni mfumo wa AI, lakini hiyo haikuwa shida kamwe. Shida ilikuwa kila wakati pause, usumbufu, njia ambayo kielelezo kiliingiliana na wanadamu.
Sijali kuzungumza na mashine, kwa kudhani mashine hiyo ina ujuzi, inaweza kuingiliana na uwezo wa kufanya mambo ambayo ninahitaji kufanya. Hii ni 100% mara ya kwanza kwa kweli kuona mfano unaoweza kutoa uzoefu huu, na uboreshaji ni mkubwa.
Iwapo ulifurahishwa na mwingiliano wa sauti au video na una mashaka kidogo juu ya miundo. Nenda ukajaribu Gemini Flash v2.0. Google imewekeza muda, juhudi na rasilimali katika kutatua masuala kuhusu muda na gharama. Hakuna mfano mwingine wa AI ambao nimejaribu hata unakaribia.
Na ni nafuu...
Na ni scalable ...
Nimefurahiya kama mara ya kwanza nilipouliza ChatGPT kuandika chapisho lililounganishwa miaka hiyo yote iliyopita. Katika hatua hii ya maisha yangu na kujihusisha na GenAI, hiyo sio rahisi sana.
Sikutarajia wakati huu kuja hivi karibuni.
Sasa tuna hali halisi yenye muundo wa bei nafuu, wa haraka na wenye uwezo mkubwa ambao tunaweza kuingiliana nao kwa wakati halisi.
Hii ni mara ya kwanza maishani mwangu ambapo ninaweza kuzungumza na kompyuta, na kuhisi kama inanielewa, inaweza kunijibu, na kuchukua hatua kwa niaba yangu. Sio wakala changamano, ni simu moja ya API.
Haya ni mafanikio ya kiufundi ambayo yatajitokeza kupitia ulimwengu wa AI, hata kama wengi bado hawajatambua.
Kando na kiolesura asilia na mwingiliano, modeli hiyo ina uwezo wa kutafuta mtandao kwa asili, kutekeleza msimbo na kunipa jibu kwa wakati inachukua kuunda sentensi.
Kulikuwa na ndoto ambayo ilikuwa UX ya Generative AI.
Mnamo Desemba 2024 ikawa ukweli.
Sasa kama utaniwia radhi, naenda kujenga vitu.