Es atceros, sēžot kādu nedēļas nogali, pārliecināts, ka es beidzot gatavojos izveidot pienācīgu pētniecības palīgs aģenta prototipu. Nekas fantastisks - tikai kaut kas, kas varētu izlasīt PDF, izvilkt atslēgvārdu informāciju, varbūt atbildēt uz dažiem sekojošiem jautājumiem.

Tā vietā es pavadīju labāko daļu no divām dienām, lēkājot starp daļēji dokumentētiem repos, mirušām GitHub problēmām un neskaidriem emuāriem. Viens rīks izskatījās daudzsološs, līdz es sapratu, ka tas nav bijis atjaunināts astoņus mēnešus.

Bet tas, kas mani noturēja, nebija vilšanās – tā bija ziņkārība.Kādi ir rīki, kurus faktiski izmanto celtnieki?Ne tie, kas parādās spīdīgās VC kartēs, bet tie, kurus jūs klusi instalējat, turiet savā kaudze un zvērējiet.

Šis meklējums mani noveda pie pārsteidzoši stingras atvērtā koda bibliotēku kopas - rīkiem, kas ir viegli, uzticami un izveidoti ar izstrādātājiem prātā.

Tātad, ja jūs esat treniņos, cenšoties iegūt aģentus, lai faktiski strādātu, šis ir jums.

So, you’re ready to build AI agents?

Tātad, vai esat gatavs veidot AI aģentus?

Pārsteidzošs

Jūs varētu jautāt:

Ko cilvēki izmanto, lai izveidotu balss aģenti?
Kāds ir labākais atvērtā koda rīks dokumentu analizēšanai?
Kā es varu piešķirt savu aģentu atmiņu, neieslēdzot vektoru DB uz visu?

Šis ceļvedis nemēģina aptvert visu tur - un tas ir tīši. Tas ir kurēts saraksts ar rīkiem, kurus es faktiski izmantoju, saglabāju savā kaudzē un atgriezos, veidojot reālus aģentu prototipus.Ne tie, kas izskatījās forši demo vai parādījās katrā hype virzienā, bet tie, kas palīdzēja man pāriet no "idejas" uz "darbīgo lietu", nezaudējot.

Šeit ir kaudze, sadalīta kategorijās:

Rāmji būvniecības un orķestra aģentiem

Šie rīki palīdz jums strukturēt jūsu aģenta loģiku - ko darīt, kad to darīt, un kā rīkoties ar instrumentiem.

2. Computer and Browser Use

Šī kategorija ietver rīkus, kas ļauj jūsu aģentam noklikšķināt uz pogām, ievadīt laukus, nokasīt datus un parasti kontrolēt lietotnes vai tīmekļa vietnes kā cilvēks.

3. Voice

Ja jūsu aģentam ir nepieciešams runāt vai klausīties, šie rīki apstrādā audio pusi — pārvēršot runu tekstā un atpakaļ.Noderīgi lietojumprogrammām bez rokām vai balss pirmie aģenti.Daži pat ir pietiekami labi reāllaika sarunām.

4. Document Understanding

Daudzi reālie dati dzīvo PDF, skenējumos vai citos neskaidros formātos.Šie rīki palīdz jūsu aģentam faktiski izlasīt un saprast šo saturu - vai tas ir rēķini, līgumi vai attēlu balstīti faili.

5. Memory

Lai izvairītos no vienreizējiem uzdevumiem, jūsu aģentam ir nepieciešama atmiņa.Šīs bibliotēkas palīdz atcerēties to, kas tikko notika, ko jūs to iepriekš teicāt, vai pat veidot ilgtermiņa profilu laika gaitā.

6. Testing and Evaluation

Šie rīki palīdz jums noķert kļūdas, pirms tās nonāk ražošanā - darbinot scenārijus, simulējot mijiedarbību un pārbaudot, vai aģenta uzvedībai ir jēga.

7. Monitoring and Observability

Kad jūsu aģents ir dzīvs, jums ir jāzina, ko tas dara un cik labi tas darbojas.Šie rīki palīdz jums izsekot lietošanai, labot problēmas un saprast izmaksu vai aizkavēšanās ietekmi.

8. Simulation

Pirms izmetat savu aģentu savvaļā, pārbaudiet to drošā, smilšu kastē.Simulētās vides ļauj jums eksperimentēt, uzlabot lēmumu loģiku un atrast priekšrocības kontrolētā vidē.

9. Vertical Agents

Tie ir gatavi aģenti, kas izveidoti konkrētiem uzdevumiem, piemēram, kodēšanai, pētniecībai vai klientu apkalpošanai.

Celtniecības un orchestrating aģentu sistēma

Lai izveidotu aģentus, kas faktiski dara lietas, jums ir nepieciešams stingrs pamats - kaut kas, kas var tikt galā ar darba plūsmām, atmiņu un rīku integrāciju, nevis kļūstot par skriptu neskaidrību.

CrewAI – orķestris ar vairākiem aģentiem, kas strādā kopā, ideāli piemērots uzdevumiem, kuriem nepieciešama koordinācija un uz lomu balstīta uzvedība.
Phidata — koncentrējas uz atmiņu, rīku izmantošanu un ilgtermiņa mijiedarbību. lieliski piemērots palīgiem, kuriem ir nepieciešams atcerēties un pielāgoties.
Camel — Izstrādāts sadarbībai ar vairākiem aģentiem, simulācijai un uzdevumu specializācijai.
AutoGPT – automatizē sarežģītas darba plūsmas ar plānojuma un izpildes slāni.
AutoGen — ļauj aģentiem sazināties savā starpā, lai atrisinātu sarežģītas problēmas.
SuperAGI - straumēta uzstādīšana autonomu aģentu izveidei un piegādei ātri.
Superagent — elastīgs atvērtā koda rīku komplekts, lai izveidotu pielāgotus AI palīgus.
LangChain & LlamaIndex — Go-to rīki atmiņas, atgūšanas un rīku ķēdes pārvaldībai.

Apkalpes Phidamatā Kamīns Automašīna Automašīna Superāži Super aģents Lāčplēša Lāčplēša

Datoru un pārlūkprogrammu izmantošana

Kad jūsu aģents var domāt, nākamais solis ir to palīdzētDāTas nozīmē mijiedarboties ar datoriem un tīmekli tā, kā cilvēks to darītu – noklikšķinot uz pogām, aizpildot veidlapas, navigējot lapās un izpildot komandas.

Atvērt tulkotājs — tulko dabisko valodu izpildāmu kodu jūsu datorā.Vēlaties pārvietot failus vai palaist skriptu?Tikai aprakstiet to.
Pašoperējošs dators - dod aģentiem pilnīgu kontroli pār jūsu darbvirsmas vidi, ļaujot viņiem mijiedarboties ar jūsu operētājsistēmu, tāpat kā cilvēks.
Agent-S – elastīga sistēma, kas ļauj AI aģentiem izmantot lietotnes, rīkus un saskarnes kā reālu lietotāju.
LaVague - ļauj tīmekļa aģentiem pārvietoties vietnēs, aizpildīt veidlapas un pieņemt lēmumus reāllaikā - ideāls pārlūkprogrammas uzdevumu automatizēšanai.
Playwright — Automatizē tīmekļa darbības visās pārlūkprogrammās. Handy testēt vai simulēt lietotāju plūsmas.
Puppeteer — Uzticams rīks Chrome vai Firefox vadīšanai. Lieliski piemērots front-end uzvedības skrāpēšanai un automatizēšanai.

Atvērts tulkotājs Pašnodarbinātie datori aģents Lāči Spēlētāji Pupiņas

3 Balss

Balss ir viens no intuitīvākajiem veidiem, kā cilvēki mijiedarbojas ar AI aģentiem.Šie rīki apstrādā runas atpazīšanu, balss sintēzi un reāllaika mijiedarbību - padarot jūsu aģentu justies nedaudz cilvēcīgāku.

Speech2speech

Ultravox — augstākā līmeņa runas uz runu modelis, kas viegli apstrādā reāllaika balss sarunas.
Moshi — Vēl viena spēcīga iespēja runas uzdevumiem.Uzticama tiešraides balss mijiedarbībai, lai gan Ultravox ir priekšrocība attiecībā uz veiktspēju.
Pipecat — pilna rāmja, lai izveidotu balss aģentiem. ietver atbalstu runas uz tekstu, teksta uz runu, un pat video balstītas mijiedarbības.

Ultraskaņa Mošeja piparkūka

Speech2text

Whisper - OpenAI runas-teksta modelis - lieliski piemērots transkripcijai un runas atpazīšanai vairākās valodās.
Stable-ts — vairāk izstrādātāja draudzīgs iesaiņotājs ap Whisper. Pievieno laika zīmogus un reāllaika atbalstu, kas padara to lielisku sarunu aģentiem.
Skaļruņa diarizācija 3.1 — Pyannote modelis, lai noteiktu, kurš runā, kad.

Šūpošanās stabilizācija Skaņas diarizācija 3.1

Text2speech

ChatTTS — labākais modelis, ko līdz šim esmu atradis. tas ir ātrs, stabils un gatavs ražošanai lielākajai daļai lietošanas gadījumu.
ElevenLabs (Komerciāls) — Kad kvalitāte ir svarīgāka par atvērtā koda, tas ir izeja.
Cartesia (Komerciāls) - Vēl viena spēcīga komerciāla iespēja, ja jūs meklējat izteiksmīgu, augstas ticamības balss sintēzi, kas pārsniedz to, ko var piedāvāt atvērti modeļi.

Čats Elefantīze Kartes

Miscellaneous Tools

Tie netraucēti neietilpst vienā kategorijā, bet ir ļoti noderīgi, veidojot vai rafinējot balss spējīgus aģentus.

Vokode — rīku komplekts balss darbināmu LLM aģentu veidošanai, kas ļauj viegli savienot runas ievadi/iznākumu ar valodas modeļiem.
Balss laboratorija — sistēma balss aģentu testēšanai un izvērtēšanai, kas ir noderīga balss zvanīšanai pareizajā ielūgumā, balss persona vai modeļa iestatījumos.

Vokāls Balss laboratorija

Dokumentu izpratne

Lielākā daļa noderīgo uzņēmējdarbības datu joprojām dzīvo nestrukturētos formātos – PDF, skenējumi, attēlu balstīti ziņojumi.Šie rīki palīdz jūsu aģentam izlasīt, iegūt un saprast šo netīrumu, neprasot trauslus OCR cauruļvados.

Qwen2-VL — spēcīgs redzes valodas modelis no Alibaba. Pārspēj GPT-4 un Claude 3.5 Sonnet dokumentu uzdevumos, kas sajauc attēlus un tekstu — lieliski piemērots sarežģītiem reālās pasaules formātiem.
DocOwl2 - viegls multimodāls modelis, kas izveidots, lai izprastu dokumentus bez OCR. Ātrs, efektīvs un pārsteidzoši precīzs, lai iegūtu struktūru un nozīmi no neskaidriem ievadiem.

QWEN2-VL pārdošana Dāvids2

5. atmiņas

Bez atmiņas aģenti ir iestrēguši lokā – izturas pret katru mijiedarbību kā pret pirmo.Šie rīki dod viņiem iespēju atcerēties pagātnes sarunas, izsekot preferencēm un veidot nepārtrauktību.

Mem0 – pašuzlabojošs atmiņas slānis, kas ļauj jūsu aģentam pielāgoties iepriekšējām mijiedarbībām.
Letta (agrāk MemGPT) — LLM aģentiem pievieno ilgtermiņa atmiņu un rīku izmantošanu.
LangChain - ietver plug-and-play atmiņas komponentus sarunu vēstures un lietotāja konteksta izsekošanai - noderīgi, veidojot aģentus, kuriem jāpaliek uz zemes vairākās pagriezienos.

Mīlestība Letta (agrāk MemGPT)Lāčplēša

6. testēšana un novērtēšana

Tā kā jūsu aģenti sāk darīt vairāk nekā tikai tērzēšanu - pārlūkot tīmekļa lapas, pieņemt lēmumus, runāt skaļi - jums ir jāzina, kā viņi risinās priekšrocību gadījumus.

eeVoice Lab – visaptveroša sistēma balss aģentu testēšanai, nodrošinot, ka jūsu aģenta runas atpazīšana un atbildes ir precīzas un dabiskas.
AgentOps – rīku kopums AI aģentu izsekošanai un salīdzināšanai, kas palīdz identificēt jebkādas problēmas un optimizēt veiktspēju, pirms tās ietekmē lietotājus.
AgentBench - atsauces rīks, lai novērtētu LLM aģentus dažādos uzdevumos un vidēs, no tīmekļa pārlūkošanas līdz spēlēm, nodrošinot daudzpusību un efektivitāti.

Mīlestība Lab aģents Aģentūra Benča

7. uzraudzība un novērojamība

Lai nodrošinātu, ka jūsu AI aģenti darbojas vienmērīgi un efektīvi mērogā, jums ir nepieciešama redzamība to veiktspējai un resursu izmantošanai.Šie rīki nodrošina nepieciešamo ieskatu, ļaujot jums uzraudzīt aģentu uzvedību, optimizēt resursus un noķert problēmas, pirms tās ietekmē lietotājus.

openllmetry - nodrošina end-to-end novērojamību LLM pieteikumiem, izmantojot OpenTelemetry, sniedzot jums skaidru priekšstatu par aģentu veiktspēju un palīdzot jums ātri novērst un optimizēt.
AgentOps – visaptverošs uzraudzības rīks, kas izseko aģentu sniegumu, izmaksas un benchmarking, palīdzot jums nodrošināt, ka jūsu aģenti ir efektīvi un budžetā.

Atklāšana aģents

8 Simulācija

Šie rīki ļauj jums izveidot kontrolētas, virtuālās telpas, kur jūsu aģenti var mijiedarboties, mācīties un pieņemt lēmumus bez neparedzētu seku riska dzīvajā vidē.

AgentVerse - atbalsta vairāku LLM balstītu aģentu izvietošanu dažādās lietojumprogrammās un simulācijās, nodrošinot efektīvu darbību dažādās vidēs.
Tau-Bench – benchmarking rīks, kas novērtē aģentu un lietotāju mijiedarbību konkrētās nozarēs, piemēram, mazumtirdzniecībā vai aviosabiedrībās, nodrošinot vienmērīgu domēna specifisko uzdevumu izpildi.
ChatArena – daudzas aģentu valodas spēļu vide, kurā aģenti mijiedarbojas, ideāli piemērota aģentu uzvedības izpētei un komunikācijas modeļu uzlabošanai drošā, kontrolētā telpā.
AI Town – virtuālā vide, kurā AI rakstzīmes mijiedarbojas sociāli, pārbauda lēmumu pieņemšanu un simulē reālos scenārijus, palīdzot uzlabot aģentu uzvedību.
Stanforda projekts, kas vērsts uz cilvēku līdzīgu aģentu radīšanu, kas simulē sarežģītu uzvedību, kas ir ideāli piemērota atmiņas testēšanai un lēmumu pieņemšanai sociālajos kontekstos.

aģents Tavs bench ChatArena Viņa pilsēta ģeneratīvie aģenti

Vertikālie aģenti

Vertikālie aģenti ir specializēti rīki, kas paredzēti, lai atrisinātu konkrētas problēmas vai optimizētu uzdevumus noteiktās nozarēs.

Coding:

OpenHands – platforma programmatūras izstrādes aģentiem, kas darbojas ar AI, kas paredzēti, lai automatizētu kodēšanas uzdevumus un paātrinātu izstrādes procesu.
aider— Pāris programmēšanas rīks, kas tieši integrējas ar jūsu terminālu, piedāvājot AI koppilotu, lai palīdzētu pareizi jūsu kodēšanas vidē.
GPT inženieris — Izveidojiet lietojumprogrammas, izmantojot dabisko valodu; vienkārši aprakstiet to, ko vēlaties, un AI precizēs un ģenerēs nepieciešamo kodu.
Screenshot-to-code — Pārvērš ekrānšāviņus pilnībā funkcionālos tīmekļa vietnēs ar HTML, Tailwind, React vai Vue, lieliski, lai ātri pārvērstu dizaina idejas dzīvajā kodā.

Atvērtās rokas Palīdzēt GPT inženieris ekrānšāviņi-to-code

Research:

GPT pētnieks — autonoms aģents, kas veic visaptverošus pētījumus, analizē datus un raksta ziņojumus, racionalizējot pētniecības procesu.

GPT pētnieks

SQL:

Vanna — mijiedarbojas ar jūsu SQL datu bāzi, izmantojot dabiskās valodas vaicājumus; nav sarežģītu SQL komandas, vienkārši uzdot jautājumus, un Vanna atgūst datus.

Vannas

Secinājums

Reflektējot uz maniem agrīnajiem mēģinājumiem izveidot pētniecības asistentu, es varu redzēt, ka es pārāk sarežģīju lietas. Projekts izrādījās netīrs - novecojis kods, daļēji cepti rīki un sistēma, kas cīnījās ar kaut ko tik vienkāršu kā PDF.

Bet, paradoksāli, tas ir, kur es iemācījos visvairāk.

Tas nebija par to, lai atrastu perfektu rīku; tas bija par to, lai paliktu pie tā, kas darbojas un saglabātu to vienkāršu.

Veiksmīga aģentu izstrāde neprasa atkārtoti izgudrot riteņu.

Tas ir par pareizo rīku izvēli darbam, to pārdomātu integrēšanu un prototipu rafinēšanu.Neatkarīgi no tā, vai jūs automatizējat darba plūsmas, izveidojat balss aģentus vai analizējat dokumentus, labi izvēlēta kaudze var padarīt procesu gludāku un efektīvāku.

Tātad, sāciet, eksperimentējiet un ļaujiet ziņkārībai vadīt jūs.

Vēlaties dzirdēt no manis biežāk?

Sazinieties ar mani LinkedIn!

Sazinieties ar mani LinkedInTātad!Sazinieties ar mani LinkedIn

Mēs dalāmiesikdienasrīcībspējīgas iezīmes, padomi un atjauninājumi, kas palīdzēs jums izvairīties no dārgām kļūdām un palikt priekšā AI pasaulē.

Vai esat tehnoloģiju profesionālis, kurš vēlas palielināt savu auditoriju, rakstot?

Nepalaidiet garām mūsu biļetenu!

MūsuTehniskā auditorija Acceleratorir pilns ar rīcībspējīgu copywriting un auditorijas veidošanas stratēģijām, kas ir palīdzējušas simtiem profesionāļu izcelties un paātrināt savu izaugsmi.

Tehniskā auditorija Accelerator

Mani 44 iecienītākie atvērtā koda risinājumi AI aģentu izstrādātājiem

Pārāk ilgi; Lasīt

So, you’re ready to build AI agents?

Celtniecības un orchestrating aģentu sistēma

Datoru un pārlūkprogrammu izmantošana

3 Balss

Dokumentu izpratne

5. atmiņas

6. testēšana un novērtēšana

7. uzraudzība un novērojamība

8 Simulācija

Vertikālie aģenti

Secinājums

Vēlaties dzirdēt no manis biežāk?

Vai esat tehnoloģiju profesionālis, kurš vēlas palielināt savu auditoriju, rakstot?

About Author

PAKARINĀT TAGUS

ŠIS RAKSTS TIKS PĀRSTRĀDĀTS...

Categories

Trending Topics

Mani 44 iecienītākie atvērtā koda risinājumi AI aģentu izstrādātājiem

Pārāk ilgi; Lasīt

So, you’re ready to build AI agents?

Celtniecības un orchestrating aģentu sistēma

Datoru un pārlūkprogrammu izmantošana

3 Balss

Dokumentu izpratne

5. atmiņas

6. testēšana un novērtēšana

7. uzraudzība un novērojamība

8 Simulācija

Vertikālie aģenti

Secinājums

Vēlaties dzirdēt no manis biežāk?

Vai esat tehnoloģiju profesionālis, kurš vēlas palielināt savu auditoriju, rakstot?

About Author

PAKARINĀT TAGUS

ŠIS RAKSTS TIKS PĀRSTRĀDĀTS...

SAISTĪTI STĀSTI

Categories

Trending Topics