Sjećam se sjedenja jednog vikenda, uvjeren sam da ću konačno izgraditi pristojan prototip istraživačkog asistenta.Ništa fantastično - samo nešto što bi moglo pročitati PDF, izvlačiti ključne informacije, možda odgovoriti na nekoliko pitanja za praćenje.

Umjesto toga, proveo sam bolji dio dva dana skakanjem između poludokumentiranih repos, mrtvih GitHub problema i nejasnih blog postova. Jedan alat je izgledao obećavajuće dok nisam shvatio da nije ažuriran u osam mjeseci.

Ali ono što me zadržalo nije bila frustracija - to je bila znatiželja.Koji su instrumenti koje stvarni graditelji koriste?Ne one koje se pojavljuju na sjajnim VC kartama, već one koje tiho instalirate, držite u svom kupu i zaklinjete se.

To traženje dovelo me do iznenađujuće čvrste zbirke knjižnica otvorenog koda - alata koji su lagani, pouzdani i izgrađeni s programerima na umu.

Dakle, ako ste u tranšama pokušavajući dobiti agente da stvarno rade, ovo je za vas.

So, you’re ready to build AI agents?

Dakle, jeste li spremni izgraditi AI agente?

Odlično je.

Možda se pitate:

Što ljudi koriste za izgradnju glasovnih agenata?
Koji je najbolji alat otvorenog koda za analiziranje dokumenata?
Kako mogu dati svoj agent pamćenje bez duct-tapping vektor DB na sve?

Ovaj vodič ne pokušava pokriti sve tamo - i to je namjerno. To je kurirani popis alata koje sam zapravo koristio, držao u mom kupu, i vratio se kada je izgradio prave prototipe agenata. Ne oni koji su izgledali cool u demo ili se pojavili u svakoj hype nit, ali oni koji su mi pomogli da se preselim od "ideje" do "radne stvari" bez gubljenja.

Ovdje je stack, podijeljen u kategorije:

Okvir za agente za izgradnju i orkestriranje

Počnite ovdje ako gradite od nule.Ovi alati vam pomažu strukturirati logiku vašeg agenta - što učiniti, kada to učiniti i kako rukovati alatima.Pomislite na to kao na temeljni mozak koji pretvara sirovi model jezika u nešto autonomnije.

2. Computer and Browser Use

Ova kategorija uključuje alate koji omogućuju agentu da klikne gumbe, otkuca polja, skrapa podatke i općenito kontrolira aplikacije ili web-mjesta poput čovjeka.

3. Voice

Ako vaš agent treba govoriti ili slušati, ovi alati upravljaju audio stranom – pretvarajući govor u tekst i nazad. Korisno za slučajeve korištenja bez ruku ili glasovne agente.

4. Document Understanding

Mnogi podaci u stvarnom svijetu žive u PDF-ovima, skeniranjima ili drugim neredovitim formatima.Ovi alati pomažu vašem agentu da zapravo pročita i osmisli taj sadržaj - bilo da je riječ o računima, ugovorima ili datotekama zasnovanim na slikama.

5. Memory

Ove knjižnice pomažu mu da zapamti što se upravo dogodilo, što ste mu ranije rekli ili čak izgraditi dugoročni profil tijekom vremena.

6. Testing and Evaluation

Ti vam alati pomažu da uhvatite pogreške prije nego što dođu u proizvodnju - pokretanjem scenarija, simuliranjem interakcija i provjeravanjem ima li ponašanje agenta smisla.

7. Monitoring and Observability

Nakon što je vaš agent živ, morate znati što radi i kako dobro funkcionira.Ovi alatovi vam pomažu u praćenju upotrebe, problemima debugiranja i razumijevanju učinaka troškova ili zakašnjenja.

8. Simulation

Prije nego što bacite svog agenta u divljinu, testirajte ga u sigurnom, pješčanom svijetu.Simulirana okruženja omogućuju vam da eksperimentišete, rafinirate logiku odluka i pronađete slučajeve granica u kontroliranom okruženju.

9. Vertical Agents

To su gotovi agenti izrađeni za određene poslove - kao što su kodiranje, istraživanje ili korisnička podrška.

Okvir za agente za izgradnju i orkestriranje

Da biste izgradili agente koji stvarno rade stvari, trebate čvrstu osnovu - nešto za rukovanje tokovima rada, pamćenjem i integracijom alata, a da se ne pretvorite u nered skriptova.

CrewAI – Orkestrira više agenata koji rade zajedno, idealan za zadatke koji zahtijevaju koordinaciju i ponašanje utemeljeno na ulogama.
Phidata – fokusira se na pamćenje, korištenje alata i dugoročne interakcije. Odličan za pomoćnike koji se trebaju sjetiti i prilagoditi.
Camel – dizajniran za multi-agent suradnju, simulaciju i specijalizaciju zadataka.
AutoGPT – Automatizira složene tokove rada s ciklusom planiranja i izvršenja. Najbolje za agente koji trebaju samostalno raditi.
AutoGen – dopušta agentima da međusobno komuniciraju kako bi riješili složene probleme.
SuperAGI - Streamlined setup za izgradnju i isporuku autonomnih agenata brzo.
Superagent – fleksibilan alat s otvorenim izvorom za stvaranje prilagođenih AI pomoćnika.
LangChain & LlamaIndex – Go-to alat za upravljanje memorijom, prikupljanjem i alatnim lancima.

Posada Fidžija kamilica AutoGPT Autogeni Supernova Superagent LangChain SljedećiIndex

Korištenje računala i preglednika

Nakon što vaš agent može razmišljati, sljedeći korak je pomoćidoTo znači interakciju s računalima i mrežom na način na koji bi čovjek – klikom na gumbe, popunjavanjem obrazaca, navigacijom na stranicama i pokretanjem zapovijedi.

Prevodi prirodni jezik u izvršivi kod na vašem računalu. želite premjestiti datoteke ili pokrenuti scenarij?
Samooperativni računalo – daje agentima potpunu kontrolu nad vašim radnim okruženjem, omogućujući im da komuniciraju s vašim OS-om kao što bi to učinila osoba.
Agent-S – fleksibilan okvir koji omogućuje AI agentima da koriste aplikacije, alate i sučelje kao pravi korisnik.
LaVague - Omogućuje web agentima da navigiraju web-mjesta, popunjavaju obrasce i donose odluke u realnom vremenu - idealno za automatizaciju zadataka preglednika.
Playwright – Automatizira web akcije preko preglednika. Handy za testiranje ili simuliranje korisničkih tokova.
Puppeteer – pouzdan alat za kontrolu Chrome ili Firefox. Odličan za brisanje i automatiziranje front-end ponašanja.

Otvoreni tumači Samostalno djelujući računalo Agenti LaViga Igrači lutka

3. glasovi

Glas je jedan od najintuitivnijih načina na koji ljudi mogu komunicirati s agentima umjetne inteligencije.Ovi alati rješavaju prepoznavanje govora, sintezu glasa i interakcije u realnom vremenu – čineći da se vaš agent osjeća malo ljudskijim.

Speech2speech

Ultravox – vrhunski model govora do govora koji glatko obrađuje glasovne razgovore u realnom vremenu.
Moshi - Još jedna snažna opcija za zadatke govora-govora. pouzdan za interakciju govora uživo, iako Ultravox ima prednost u učinkovitosti.
Pipecat – Full-stack framework za izgradnju glasovnih agenata, uključujući podršku za govorno-tekstualne, tekstualne i čak video interakcije.

Ultrazvuk Moshi Pipić

Speech2text

Whisper – OpenAI-ov model govora prema tekstu – odličan je za transkripciju i prepoznavanje govora na više jezika.
Stable-ts – programer-prijateljski omotač oko Whisper.Dodaje vremenske oznake i podršku u realnom vremenu, što ga čini odličnim za razgovorne agente.
Speaker Diarization 3.1 – Pyannoteov model za otkrivanje tko govori kada.

Šaputanje stabilno Dijarizacija govornika 3.1

Text2speech

ChatTTS – Najbolji model koji sam do sada pronašao. brz je, stabilan i spreman za proizvodnju za većinu slučajeva uporabe.
ElevenLabs (komercijalno) – Kada je kvaliteta važnija od otvorenog izvora, to je idealan način.
Cartesia (komercijalna) - Još jedna snažna komercijalna opcija ako tražite izrazitu, visoku vjerodostojnost sinteze glasa izvan onoga što otvoreni modeli mogu ponuditi.

Chatovi Elegancija Kartesija

Miscellaneous Tools

Ovi se ne uklapaju uredno u jednu kategoriju, ali su vrlo korisni prilikom izgradnje ili rafiniranja glasovnih sredstava.

Vocode – alat za izgradnju glasovnih LLM agenata. olakšava povezivanje ulaza/izlaza govora s jezikovnim modelima.
Voice Lab – okvir za testiranje i evaluaciju glasovnih agenata. Korisno za pozivanje u pravom pozivu, glasovnoj osobi ili postavljanju modela.

VOCODE Glasovni laboratorij

Razumijevanje dokumenata

Većina korisnih poslovnih podataka još uvijek živi u nestrukturiranim formatima – PDF-ovima, skeniranjima, izvješćima zasnovanima na slikama.Ovi alati pomažu vašem agentu da pročita, izvlači i osjeća taj nered, bez potrebe za krhkim OCR cijevima.

Qwen2-VL - Moćan model jezika vizije od Alibabe. nadmašuje GPT-4 i Claude 3.5 Sonnet na zadatcima dokumenata koji miješaju slike i tekst - odličan za rukovanje složenim, stvarnim formatima.
DocOwl2 – lagani multimodalni model izrađen za razumijevanje dokumenata bez OCR-a, brz, učinkovit i iznenađujuće točan za izvlačenje strukture i značenja iz nerazumnih ulazaka.

Sljedeći članakQwen2-VL Sljedeći: DocOwl2

5. sjećanje

Bez memorije, agenti su zaglavljeni u krugu – tretirajući svaku interakciju kao prvu.Ovi alati im daju sposobnost da se sjećaju prošlih razgovora, prate preferencije i grade kontinuitet.To je ono što pretvara jednokratnog asistenta u nešto korisnije tijekom vremena.

Mem0 – samostalno poboljšavajući se sloj memorije koji omogućuje vašem agentu da se prilagodi prethodnim interakcijama.
Letta (bivši MemGPT) - Dodaje dugoročnu memoriju i upotrebu alata LLM agentima.
LangChain – uključuje plug-and-play memorijske komponente za praćenje povijesti razgovora i korisničkog konteksta – korisno prilikom izgradnje agenata koji trebaju ostati uzeti u obzir tijekom više okretaja.

Mem0 Letta (bivši MemGPT)LangChain

6. ispitivanje i evaluacija

Kako vaši agenti počinju raditi više od samo razgovora - navigacije web stranicama, donošenja odluka, glasno govoreći - morate znati kako će se nositi s slučajevima na rubu.Ovi alati vam pomažu testirati kako se vaši agenti ponašaju u različitim situacijama, uhvatiti bugove rano i pratiti gdje se stvari raspadaju.

eeVoice Lab – sveobuhvatan okvir za testiranje glasovnih agenata, osiguravajući da su prepoznavanje govora i odgovori vašeg agenta točni i prirodni.
AgentOps – skup alata za praćenje i usporedbu AI agenata, koji vam pomažu u otkrivanju problema i optimizaciji performansi prije nego što utječu na korisnike.
AgentBench – referentni alat za evaluaciju LLM agenata u različitim zadaćama i okruženjima, od pregledavanja weba do igranja, osiguravajući svestranost i učinkovitost.

Održan laboratorij Agenti AgencijaBench

7. praćenje i promatranost

Da biste osigurali da vaši agenti za umjetnu inteligenciju djeluju glatko i učinkovito na razini, potrebna vam je vidljivost u njihovom djelovanju i korištenju resursa.Ovi alati pružaju potrebne uvidove, omogućujući vam da pratite ponašanje agenata, optimizirate resurse i uhvatite probleme prije nego što utječu na korisnike.

openllmetry - pruža krajnje posmatranost za LLM aplikacije koristeći OpenTelemetry, dajući vam jasan pogled na performanse agenata i pomažući vam brzo rješavanje problema i optimizaciju.
AgentOps – sveobuhvatan alat za praćenje koji prati performanse agenata, troškove i benchmarking, pomažući vam da osigurate da su vaši agenti učinkoviti i unutar proračuna.

otvaranje Agenti

8. simulacija

Simuliranje stvarnih okruženja prije implementacije je igra koja mijenja igru.Ovi alatovi omogućuju vam stvaranje kontroliranih, virtualnih prostora u kojima vaši agenti mogu komunicirati, učiti i donositi odluke bez rizika od neželjenih posljedica u živim okruženjima.

AgentVerse - Podržava razmještanje višestrukih agenata koji se temelje na LLM-u u različitim aplikacijama i simulacijama, osiguravajući učinkovito funkcioniranje u različitim okruženjima.
Tau-Bench – alat za benchmarking koji ocjenjuje interakcije agenata i korisnika u specifičnim industrijama kao što su maloprodaja ili zračne tvrtke, osiguravajući glatko rukovanje zadaćama specifičnim za domene.
ChatArena – multi-agencijsko jezično gaming okruženje u kojem agenti surađuju, idealno za proučavanje ponašanja agenata i rafiniranje komunikacijskih uzoraka u sigurnom, kontroliranom prostoru.
AI Town – virtualno okruženje u kojem AI likovi komuniciraju društveno, testiraju donošenje odluka i simuliraju scenarije u stvarnom svijetu, pomažući u usklađivanju ponašanja agenata.
Generativni agenti – Stanfordov projekt usmjeren na stvaranje ljudskih agenata koji simuliraju složeno ponašanje, savršeno za testiranje pamćenja i donošenje odluka u društvenim kontekstima.

Agencija Banjalučki bench ChatArena Što grad Generativni agenti

Vertikalni agenti

Vertikalni agenti su specijalizirani alati dizajnirani za rješavanje specifičnih problema ili optimizaciju zadataka u određenim industrijama.

Coding:

OpenHands – platforma za agente za razvoj softvera zasnovana na umjetnoj inteligenciji, dizajnirana za automatizaciju zadataka kodiranja i ubrzanje procesa razvoja.
aider – alat za parno programiranje koji se integrira izravno s vašim terminalom, nudeći AI co-pilot kako bi pomogao u vašem okruženju za kodiranje.
GPT inženjer – Izgradite aplikacije pomoću prirodnog jezika; jednostavno opišite što želite, a AI će razjasniti i generirati potrebni kod.
Screenshot-to-code – pretvara screenshope u potpuno funkcionalne web stranice pomoću HTML-a, Tailwind-a, React-a ili Vue-a, savršeno za brzo pretvaranje dizajnerskih ideja u live kod.

otvorene ruke Pomoći GPT inženjer screenshot-to-kodiranje

Research:

GPT istraživač – autonomni agent koji provodi sveobuhvatna istraživanja, analizira podatke i piše izvješća, racionalizirajući istraživački proces.

GPT istraživač

SQL:

Interakcija s vašom SQL bazom podataka pomoću upita prirodnog jezika; nema složenijih SQL zapovijedi, samo postavljajte pitanja i Vanna preuzima podatke.

Vana

Zaključak

Razmišljajući o mojim ranim pokušajima izgradnje istraživačkog asistenta, mogu vidjeti da sam prekomplicirao stvari. Projekt se ispostavio kao nered - zastarjeli kod, polupakirani alati i sustav koji se borio s nečim tako jednostavnim kao PDF.

No, paradoksalno, to je mjesto gdje sam najviše naučio.

Ne radi se o pronalaženju savršenog alata; radi se o držanju onoga što radi i održavanju jednostavnosti.Taj neuspjeh me naučio da su najpouzdaniji agenti izgrađeni s pragmatičnim, jednostavnim stackom - a ne pronalaskom svakog sjajnog novog alata.

Uspješan razvoj agenta ne zahtijeva ponovno izmišljanje kotača.

Radi se o odabiru pravih alata za posao, njihovu promišljenom integraciji i rafiniranju vaših prototipova.Bilo da automatizirate tokove rada, gradite glasovne agente ili analizirate dokumente, dobro odabrani stack može proces učiniti glatkim i učinkovitijim.

Dakle, započnite, eksperimentirajte i pustite da vas radoznalost vodi.

Želite li čuti od mene češće?

Pridružite nam se na LinkedInu!

Kontaktirajte me na LinkedInuI to!Kontaktirajte me na LinkedInu

DijelimoDnevnipraktične uvidove, savjete i ažuriranja kako biste izbjegli skupe pogreške i ostali ispred svijeta AI-a.

Jeste li tehnološki profesionalac koji želi povećati svoju publiku kroz pisanje?

Ne propustite naš newsletter!

MojTehnički akceleratorPuna je djelotvornih copywritinga i strategija izgradnje publike koje su pomogle stotinama profesionalaca da se ističu i ubrzaju njihov rast.

Tehnički akcelerator

Moje 44 omiljena rješenja otvorenog koda za AI agente

Predugo; Čitati

So, you’re ready to build AI agents?

Okvir za agente za izgradnju i orkestriranje

Korištenje računala i preglednika

3. glasovi

Razumijevanje dokumenata

5. sjećanje

6. ispitivanje i evaluacija

7. praćenje i promatranost

8. simulacija

Vertikalni agenti

Zaključak

Želite li čuti od mene češće?

Jeste li tehnološki profesionalac koji želi povećati svoju publiku kroz pisanje?

About Author

VIJESI OZNAKE

OVAJ ČLANAK JE PREDSTAVLJEN U...

Categories

Trending Topics

Moje 44 omiljena rješenja otvorenog koda za AI agente

Predugo; Čitati

So, you’re ready to build AI agents?

Okvir za agente za izgradnju i orkestriranje

Korištenje računala i preglednika

3. glasovi

Razumijevanje dokumenata

5. sjećanje

6. ispitivanje i evaluacija

7. praćenje i promatranost

8. simulacija

Vertikalni agenti

Zaključak

Želite li čuti od mene češće?

Jeste li tehnološki profesionalac koji želi povećati svoju publiku kroz pisanje?

About Author

VIJESI OZNAKE

OVAJ ČLANAK JE PREDSTAVLJEN U...

POVEZANE PRIČE

Categories

Trending Topics