Es atceros, sēžot kādu nedēļas nogali, pārliecināts, ka es beidzot gatavojos izveidot pienācīgu pētniecības palīgs aģenta prototipu. Nekas fantastisks - tikai kaut kas, kas varētu izlasīt PDF, izvilkt atslēgvārdu informāciju, varbūt atbildēt uz dažiem sekojošiem jautājumiem.
Tā vietā es pavadīju labāko daļu no divām dienām, lēkājot starp daļēji dokumentētiem repos, mirušām GitHub problēmām un neskaidriem emuāriem. Viens rīks izskatījās daudzsološs, līdz es sapratu, ka tas nav bijis atjaunināts astoņus mēnešus.
Bet tas, kas mani noturēja, nebija vilšanās – tā bija ziņkārība.Kādi ir rīki, kurus faktiski izmanto celtnieki?Ne tie, kas parādās spīdīgās VC kartēs, bet tie, kurus jūs klusi instalējat, turiet savā kaudze un zvērējiet.
Šis meklējums mani noveda pie pārsteidzoši stingras atvērtā koda bibliotēku kopas - rīkiem, kas ir viegli, uzticami un izveidoti ar izstrādātājiem prātā.
Tātad, ja jūs esat treniņos, cenšoties iegūt aģentus, lai faktiski strādātu, šis ir jums.
So, you’re ready to build AI agents?
Tātad, vai esat gatavs veidot AI aģentus?Pārsteidzošs
Jūs varētu jautāt:
- Tātad
- Ko cilvēki izmanto, lai izveidotu balss aģenti? Tātad
- Kāds ir labākais atvērtā koda rīks dokumentu analizēšanai? Tātad
- Kā es varu piešķirt savu aģentu atmiņu, neieslēdzot vektoru DB uz visu? Tātad
Šis ceļvedis nemēģina aptvert visu tur - un tas ir tīši. Tas ir kurēts saraksts ar rīkiem, kurus es faktiski izmantoju, saglabāju savā kaudzē un atgriezos, veidojot reālus aģentu prototipus.Ne tie, kas izskatījās forši demo vai parādījās katrā hype virzienā, bet tie, kas palīdzēja man pāriet no "idejas" uz "darbīgo lietu", nezaudējot.
Šeit ir kaudze, sadalīta kategorijās:
- Tātad
- Rāmji būvniecības un orķestra aģentiem Tātad
Šie rīki palīdz jums strukturēt jūsu aģenta loģiku - ko darīt, kad to darīt, un kā rīkoties ar instrumentiem.
2. Computer and Browser Use
Šī kategorija ietver rīkus, kas ļauj jūsu aģentam noklikšķināt uz pogām, ievadīt laukus, nokasīt datus un parasti kontrolēt lietotnes vai tīmekļa vietnes kā cilvēks.
3. Voice
Ja jūsu aģentam ir nepieciešams runāt vai klausīties, šie rīki apstrādā audio pusi — pārvēršot runu tekstā un atpakaļ.Noderīgi lietojumprogrammām bez rokām vai balss pirmie aģenti.Daži pat ir pietiekami labi reāllaika sarunām.
4. Document Understanding
Daudzi reālie dati dzīvo PDF, skenējumos vai citos neskaidros formātos.Šie rīki palīdz jūsu aģentam faktiski izlasīt un saprast šo saturu - vai tas ir rēķini, līgumi vai attēlu balstīti faili.
5. Memory
Lai izvairītos no vienreizējiem uzdevumiem, jūsu aģentam ir nepieciešama atmiņa.Šīs bibliotēkas palīdz atcerēties to, kas tikko notika, ko jūs to iepriekš teicāt, vai pat veidot ilgtermiņa profilu laika gaitā.
6. Testing and Evaluation
Šie rīki palīdz jums noķert kļūdas, pirms tās nonāk ražošanā - darbinot scenārijus, simulējot mijiedarbību un pārbaudot, vai aģenta uzvedībai ir jēga.
7. Monitoring and Observability
Kad jūsu aģents ir dzīvs, jums ir jāzina, ko tas dara un cik labi tas darbojas.Šie rīki palīdz jums izsekot lietošanai, labot problēmas un saprast izmaksu vai aizkavēšanās ietekmi.
8. Simulation
Pirms izmetat savu aģentu savvaļā, pārbaudiet to drošā, smilšu kastē.Simulētās vides ļauj jums eksperimentēt, uzlabot lēmumu loģiku un atrast priekšrocības kontrolētā vidē.
9. Vertical Agents
Tie ir gatavi aģenti, kas izveidoti konkrētiem uzdevumiem, piemēram, kodēšanai, pētniecībai vai klientu apkalpošanai.
Celtniecības un orchestrating aģentu sistēma
Lai izveidotu aģentus, kas faktiski dara lietas, jums ir nepieciešams stingrs pamats - kaut kas, kas var tikt galā ar darba plūsmām, atmiņu un rīku integrāciju, nevis kļūstot par skriptu neskaidrību.
- Tātad
- CrewAI – orķestris ar vairākiem aģentiem, kas strādā kopā, ideāli piemērots uzdevumiem, kuriem nepieciešama koordinācija un uz lomu balstīta uzvedība. Tātad
- Phidata — koncentrējas uz atmiņu, rīku izmantošanu un ilgtermiņa mijiedarbību. lieliski piemērots palīgiem, kuriem ir nepieciešams atcerēties un pielāgoties. Tātad
- Camel — Izstrādāts sadarbībai ar vairākiem aģentiem, simulācijai un uzdevumu specializācijai. Tātad
- AutoGPT – automatizē sarežģītas darba plūsmas ar plānojuma un izpildes slāni. Tātad
- AutoGen — ļauj aģentiem sazināties savā starpā, lai atrisinātu sarežģītas problēmas. Tātad
- SuperAGI - straumēta uzstādīšana autonomu aģentu izveidei un piegādei ātri. Tātad
- Superagent — elastīgs atvērtā koda rīku komplekts, lai izveidotu pielāgotus AI palīgus. Tātad
- LangChain & LlamaIndex — Go-to rīki atmiņas, atgūšanas un rīku ķēdes pārvaldībai. Tātad
Datoru un pārlūkprogrammu izmantošana
Kad jūsu aģents var domāt, nākamais solis ir to palīdzētDāTas nozīmē mijiedarboties ar datoriem un tīmekli tā, kā cilvēks to darītu – noklikšķinot uz pogām, aizpildot veidlapas, navigējot lapās un izpildot komandas.
- Tātad
- Atvērt tulkotājs — tulko dabisko valodu izpildāmu kodu jūsu datorā.Vēlaties pārvietot failus vai palaist skriptu?Tikai aprakstiet to. Tātad
- Pašoperējošs dators - dod aģentiem pilnīgu kontroli pār jūsu darbvirsmas vidi, ļaujot viņiem mijiedarboties ar jūsu operētājsistēmu, tāpat kā cilvēks. Tātad
- Agent-S – elastīga sistēma, kas ļauj AI aģentiem izmantot lietotnes, rīkus un saskarnes kā reālu lietotāju. Tātad
- LaVague - ļauj tīmekļa aģentiem pārvietoties vietnēs, aizpildīt veidlapas un pieņemt lēmumus reāllaikā - ideāls pārlūkprogrammas uzdevumu automatizēšanai. Tātad
- Playwright — Automatizē tīmekļa darbības visās pārlūkprogrammās. Handy testēt vai simulēt lietotāju plūsmas. Tātad
- Puppeteer — Uzticams rīks Chrome vai Firefox vadīšanai. Lieliski piemērots front-end uzvedības skrāpēšanai un automatizēšanai. Tātad
3 Balss
Balss ir viens no intuitīvākajiem veidiem, kā cilvēki mijiedarbojas ar AI aģentiem.Šie rīki apstrādā runas atpazīšanu, balss sintēzi un reāllaika mijiedarbību - padarot jūsu aģentu justies nedaudz cilvēcīgāku.
Speech2speech
- Tātad
- Ultravox — augstākā līmeņa runas uz runu modelis, kas viegli apstrādā reāllaika balss sarunas. Tātad
- Moshi — Vēl viena spēcīga iespēja runas uzdevumiem.Uzticama tiešraides balss mijiedarbībai, lai gan Ultravox ir priekšrocība attiecībā uz veiktspēju. Tātad
- Pipecat — pilna rāmja, lai izveidotu balss aģentiem. ietver atbalstu runas uz tekstu, teksta uz runu, un pat video balstītas mijiedarbības. Tātad
Speech2text
- Tātad
- Whisper - OpenAI runas-teksta modelis - lieliski piemērots transkripcijai un runas atpazīšanai vairākās valodās. Tātad
- Stable-ts — vairāk izstrādātāja draudzīgs iesaiņotājs ap Whisper. Pievieno laika zīmogus un reāllaika atbalstu, kas padara to lielisku sarunu aģentiem. Tātad
- Skaļruņa diarizācija 3.1 — Pyannote modelis, lai noteiktu, kurš runā, kad. Tātad
Text2speech
- Tātad
- ChatTTS — labākais modelis, ko līdz šim esmu atradis. tas ir ātrs, stabils un gatavs ražošanai lielākajai daļai lietošanas gadījumu. Tātad
- ElevenLabs (Komerciāls) — Kad kvalitāte ir svarīgāka par atvērtā koda, tas ir izeja. Tātad
- Cartesia (Komerciāls) - Vēl viena spēcīga komerciāla iespēja, ja jūs meklējat izteiksmīgu, augstas ticamības balss sintēzi, kas pārsniedz to, ko var piedāvāt atvērti modeļi. Tātad
Miscellaneous Tools
Tie netraucēti neietilpst vienā kategorijā, bet ir ļoti noderīgi, veidojot vai rafinējot balss spējīgus aģentus.
- Tātad
- Vokode — rīku komplekts balss darbināmu LLM aģentu veidošanai, kas ļauj viegli savienot runas ievadi/iznākumu ar valodas modeļiem. Tātad
- Balss laboratorija — sistēma balss aģentu testēšanai un izvērtēšanai, kas ir noderīga balss zvanīšanai pareizajā ielūgumā, balss persona vai modeļa iestatījumos. Tātad
Dokumentu izpratne
Lielākā daļa noderīgo uzņēmējdarbības datu joprojām dzīvo nestrukturētos formātos – PDF, skenējumi, attēlu balstīti ziņojumi.Šie rīki palīdz jūsu aģentam izlasīt, iegūt un saprast šo netīrumu, neprasot trauslus OCR cauruļvados.
- Tātad
- Qwen2-VL — spēcīgs redzes valodas modelis no Alibaba. Pārspēj GPT-4 un Claude 3.5 Sonnet dokumentu uzdevumos, kas sajauc attēlus un tekstu — lieliski piemērots sarežģītiem reālās pasaules formātiem. Tātad
- DocOwl2 - viegls multimodāls modelis, kas izveidots, lai izprastu dokumentus bez OCR. Ātrs, efektīvs un pārsteidzoši precīzs, lai iegūtu struktūru un nozīmi no neskaidriem ievadiem. Tātad
5. atmiņas
Bez atmiņas aģenti ir iestrēguši lokā – izturas pret katru mijiedarbību kā pret pirmo.Šie rīki dod viņiem iespēju atcerēties pagātnes sarunas, izsekot preferencēm un veidot nepārtrauktību.
- Tātad
- Mem0 – pašuzlabojošs atmiņas slānis, kas ļauj jūsu aģentam pielāgoties iepriekšējām mijiedarbībām. Tātad
- Letta (agrāk MemGPT) — LLM aģentiem pievieno ilgtermiņa atmiņu un rīku izmantošanu. Tātad
- LangChain - ietver plug-and-play atmiņas komponentus sarunu vēstures un lietotāja konteksta izsekošanai - noderīgi, veidojot aģentus, kuriem jāpaliek uz zemes vairākās pagriezienos. Tātad
6. testēšana un novērtēšana
Tā kā jūsu aģenti sāk darīt vairāk nekā tikai tērzēšanu - pārlūkot tīmekļa lapas, pieņemt lēmumus, runāt skaļi - jums ir jāzina, kā viņi risinās priekšrocību gadījumus.
- Tātad
- eeVoice Lab – visaptveroša sistēma balss aģentu testēšanai, nodrošinot, ka jūsu aģenta runas atpazīšana un atbildes ir precīzas un dabiskas. Tātad
- AgentOps – rīku kopums AI aģentu izsekošanai un salīdzināšanai, kas palīdz identificēt jebkādas problēmas un optimizēt veiktspēju, pirms tās ietekmē lietotājus. Tātad
- AgentBench - atsauces rīks, lai novērtētu LLM aģentus dažādos uzdevumos un vidēs, no tīmekļa pārlūkošanas līdz spēlēm, nodrošinot daudzpusību un efektivitāti. Tātad
7. uzraudzība un novērojamība
Lai nodrošinātu, ka jūsu AI aģenti darbojas vienmērīgi un efektīvi mērogā, jums ir nepieciešama redzamība to veiktspējai un resursu izmantošanai.Šie rīki nodrošina nepieciešamo ieskatu, ļaujot jums uzraudzīt aģentu uzvedību, optimizēt resursus un noķert problēmas, pirms tās ietekmē lietotājus.
- Tātad
- openllmetry - nodrošina end-to-end novērojamību LLM pieteikumiem, izmantojot OpenTelemetry, sniedzot jums skaidru priekšstatu par aģentu veiktspēju un palīdzot jums ātri novērst un optimizēt. Tātad
- AgentOps – visaptverošs uzraudzības rīks, kas izseko aģentu sniegumu, izmaksas un benchmarking, palīdzot jums nodrošināt, ka jūsu aģenti ir efektīvi un budžetā. Tātad
8 Simulācija
Šie rīki ļauj jums izveidot kontrolētas, virtuālās telpas, kur jūsu aģenti var mijiedarboties, mācīties un pieņemt lēmumus bez neparedzētu seku riska dzīvajā vidē.
- Tātad
- AgentVerse - atbalsta vairāku LLM balstītu aģentu izvietošanu dažādās lietojumprogrammās un simulācijās, nodrošinot efektīvu darbību dažādās vidēs. Tātad
- Tau-Bench – benchmarking rīks, kas novērtē aģentu un lietotāju mijiedarbību konkrētās nozarēs, piemēram, mazumtirdzniecībā vai aviosabiedrībās, nodrošinot vienmērīgu domēna specifisko uzdevumu izpildi. Tātad
- ChatArena – daudzas aģentu valodas spēļu vide, kurā aģenti mijiedarbojas, ideāli piemērota aģentu uzvedības izpētei un komunikācijas modeļu uzlabošanai drošā, kontrolētā telpā. Tātad
- AI Town – virtuālā vide, kurā AI rakstzīmes mijiedarbojas sociāli, pārbauda lēmumu pieņemšanu un simulē reālos scenārijus, palīdzot uzlabot aģentu uzvedību. Tātad
- Stanforda projekts, kas vērsts uz cilvēku līdzīgu aģentu radīšanu, kas simulē sarežģītu uzvedību, kas ir ideāli piemērota atmiņas testēšanai un lēmumu pieņemšanai sociālajos kontekstos. Tātad
Vertikālie aģenti
Vertikālie aģenti ir specializēti rīki, kas paredzēti, lai atrisinātu konkrētas problēmas vai optimizētu uzdevumus noteiktās nozarēs.
Coding:
- Tātad
- OpenHands – platforma programmatūras izstrādes aģentiem, kas darbojas ar AI, kas paredzēti, lai automatizētu kodēšanas uzdevumus un paātrinātu izstrādes procesu. Tātad
- aider— Pāris programmēšanas rīks, kas tieši integrējas ar jūsu terminālu, piedāvājot AI koppilotu, lai palīdzētu pareizi jūsu kodēšanas vidē. Tātad
- GPT inženieris — Izveidojiet lietojumprogrammas, izmantojot dabisko valodu; vienkārši aprakstiet to, ko vēlaties, un AI precizēs un ģenerēs nepieciešamo kodu. Tātad
- Screenshot-to-code — Pārvērš ekrānšāviņus pilnībā funkcionālos tīmekļa vietnēs ar HTML, Tailwind, React vai Vue, lieliski, lai ātri pārvērstu dizaina idejas dzīvajā kodā. Tātad
Research:
- Tātad
- GPT pētnieks — autonoms aģents, kas veic visaptverošus pētījumus, analizē datus un raksta ziņojumus, racionalizējot pētniecības procesu. Tātad
SQL:
- Tātad
- Vanna — mijiedarbojas ar jūsu SQL datu bāzi, izmantojot dabiskās valodas vaicājumus; nav sarežģītu SQL komandas, vienkārši uzdot jautājumus, un Vanna atgūst datus. Tātad
Secinājums
Reflektējot uz maniem agrīnajiem mēģinājumiem izveidot pētniecības asistentu, es varu redzēt, ka es pārāk sarežģīju lietas. Projekts izrādījās netīrs - novecojis kods, daļēji cepti rīki un sistēma, kas cīnījās ar kaut ko tik vienkāršu kā PDF.
Bet, paradoksāli, tas ir, kur es iemācījos visvairāk.
Tas nebija par to, lai atrastu perfektu rīku; tas bija par to, lai paliktu pie tā, kas darbojas un saglabātu to vienkāršu.
Veiksmīga aģentu izstrāde neprasa atkārtoti izgudrot riteņu.
Tas ir par pareizo rīku izvēli darbam, to pārdomātu integrēšanu un prototipu rafinēšanu.Neatkarīgi no tā, vai jūs automatizējat darba plūsmas, izveidojat balss aģentus vai analizējat dokumentus, labi izvēlēta kaudze var padarīt procesu gludāku un efektīvāku.
Tātad, sāciet, eksperimentējiet un ļaujiet ziņkārībai vadīt jūs.
Vēlaties dzirdēt no manis biežāk?
Sazinieties ar mani LinkedIn!
Sazinieties ar mani LinkedInTātad!Sazinieties ar mani LinkedIn
Mēs dalāmiesikdienasrīcībspējīgas iezīmes, padomi un atjauninājumi, kas palīdzēs jums izvairīties no dārgām kļūdām un palikt priekšā AI pasaulē.
Vai esat tehnoloģiju profesionālis, kurš vēlas palielināt savu auditoriju, rakstot?
Nepalaidiet garām mūsu biļetenu!
MūsuTehniskā auditorija Acceleratorir pilns ar rīcībspējīgu copywriting un auditorijas veidošanas stratēģijām, kas ir palīdzējušas simtiem profesionāļu izcelties un paātrināt savu izaugsmi.
Tehniskā auditorija Accelerator