Prisimenu, sėdėdamas vieną savaitgalį, įsitikinęs, kad pagaliau ketinu sukurti tinkamą mokslinių tyrimų padėjėjo agento prototipą.Nieko nuostabaus - tiesiog kažkas, kas galėtų perskaityti PDF, išgauti pagrindinę informaciją, galbūt atsakyti į keletą tolesnių klausimų.

Vietoj to, aš praleidau geresnę dviejų dienų dalį, šokinėjęs tarp pusiau dokumentuotų repostų, negyvų GitHub problemų ir neaiškių tinklaraščio įrašų. Vienas įrankis atrodė perspektyvus, kol supratau, kad jis nebuvo atnaujintas per aštuonis mėnesius.

Bet tai, kas mane išlaikė, nebuvo nusivylimas – tai buvo smalsumas.Kokius įrankius naudoja tikrieji statybininkai?Ne tie, kurie pasirodo blizgančiuose VC žemėlapiuose, bet tie, kuriuos tyliai įdiegiate, laikykite savo krūvoje ir prisiekite.

Ši paieška atvedė mane į stebėtinai tvirtą atviro kodo bibliotekų rinkinį - įrankius, kurie yra lengvi, patikimi ir sukurti atsižvelgiant į kūrėjus.

Taigi, jei esate tranšėjose, bandydami gauti agentus, kad iš tikrųjų veiktų, šis yra skirtas jums.

So, you’re ready to build AI agents?

Taigi, ar esate pasiruošę kurti AI agentus?

Tai nuostabu.

Galbūt jūs klausiate:

Ką žmonės naudoja balso agentams kurti?
Koks yra geriausias atviro kodo įrankis dokumentų analizei?
Kaip suteikti savo agento atmintį be vektorio DB įtraukimo į viską?

Šis vadovas nesistengia padengti visko, kas ten yra - ir tai yra tyčinis. Tai kuruojamasis įrankių sąrašas, kurį aš iš tikrųjų naudojau, laikiau savo krūvoje ir grįžau į tai, kai kūriau realius agentų prototipus. Ne tie, kurie atrodė kieti demonstravime arba pasirodė kiekviename hype siūlyme, bet tie, kurie padėjo man pereiti nuo „idėjos“ prie „darbo dalyko“, neprarandant.

Čia pateikiamas rinkinys, suskirstytas į kategorijas:

Statybos ir orchestravimo agentų rėmai

Šie įrankiai padeda jums struktūrizuoti savo agento logiką - ką daryti, kada tai padaryti ir kaip tvarkyti įrankius.

2. Computer and Browser Use

Ši kategorija apima įrankius, kurie leidžia jūsų agentui spustelėti mygtukus, įvesti laukus, nuskaityti duomenis ir apskritai valdyti programas ar svetaines kaip žmogus.

3. Voice

Jei jūsų agentas turi kalbėti ar klausytis, šie įrankiai tvarko garso pusę - paverčia kalbą į tekstą ir atgal. Naudinga rankų laisvo naudojimo atvejais arba balso pirmieji agentai.

4. Document Understanding

Daug realaus pasaulio duomenų gyvena PDF formatuose, nuskaitymuose ar kituose nesudėtinguose formatuose.Šie įrankiai padeda jūsų agentui iš tikrųjų perskaityti ir suprasti tą turinį – ar tai būtų sąskaitos faktūros, sutartys, ar vaizdo failai.

5. Memory

Šios bibliotekos padeda jai prisiminti, kas ką tik atsitiko, ką anksčiau pasakėte, ar net sukurti ilgalaikį profilį laikui bėgant.

6. Testing and Evaluation

Šie įrankiai padeda jums sugauti klaidas, kol jos pasiekia gamybą - paleidžiant scenarijus, imituojant sąveiką ir tikrinant, ar agento elgesys yra prasmingas.

7. Monitoring and Observability

Kai jūsų agentas yra gyvas, turite žinoti, ką jis daro ir kaip gerai jis veikia.Šie įrankiai padeda jums sekti naudojimą, ištaisyti problemas ir suprasti sąnaudų ar vėlavimo poveikį.

8. Simulation

Prieš išmesdami savo agentą į laukinę gamtą, išbandykite jį saugiame, smėlio dėžutėje.Simuliuojamos aplinkos leidžia eksperimentuoti, tobulinti sprendimų logiką ir rasti kraštutinių atvejų kontroliuojamoje aplinkoje.

9. Vertical Agents

Tai yra paruošti agentai, sukurti konkrečioms užduotims, pvz., kodavimui, moksliniams tyrimams ar klientų aptarnavimui.

Statybos ir orchestravimo agentų sistemos

Norėdami sukurti agentus, kurie iš tikrųjų daro dalykus, jums reikia tvirtos bazės - kažkas, kad galėtumėte tvarkyti darbo eigą, atmintį ir įrankių integraciją, o ne tapti scenarijų netvarka.

CrewAI – orkestruoja kelis agentus, dirbančius kartu, idealiai tinka užduotims, kurioms reikia koordinavimo ir vaidmenų.
Phidata – sutelkia dėmesį į atmintį, įrankių naudojimą ir ilgalaikę sąveiką. Puikus pagalbininkams, kuriems reikia prisiminti ir prisitaikyti.
„Camel“ – skirtas daugiagento bendradarbiavimui, modeliavimui ir užduočių specializacijai.
AutoGPT – Automatizuoja sudėtingus darbo srautus su planavimo ir vykdymo ciklu.
AutoGen – leidžia agentams bendrauti tarpusavyje, kad išspręstų sudėtingas problemas.
SuperAGI - Greitai sureguliuotas nustatymas autonominių agentų statybai ir pristatymui.
Superagent – lankstus atviro kodo įrankių rinkinys, skirtas sukurti individualius AI padėjėjus.
LangChain & LlamaIndex - įrankiai, skirti valdyti atmintį, paiešką ir įrankių grandines.

įgula Fidžis Kamilė Automobilių Automobilių Superžvaigždės Superagentė Langų grandinė ŽymėsIndex

Kompiuterio ir naršyklės naudojimas

Kai jūsų agentas gali galvoti, kitas žingsnis yra padėti jamDauTai reiškia sąveiką su kompiuteriais ir žiniatinkliu taip, kaip žmogus - spustelėję mygtukus, užpildydamas formas, naršydamas puslapius ir paleisdamas komandas.

Atidaryti vertėjas — Verčia natūralią kalbą į vykdomąjį kodą savo mašinoje. Norite perkelti failus ar paleisti scenarijų?
Savarankiškai veikiantis kompiuteris - suteikia agentams visišką jūsų darbalaukio aplinkos kontrolę, leidžiančią jiems sąveikauti su jūsų OS kaip asmuo.
Agent-S – lanksti sistema, leidžianti AI agentams naudoti programas, įrankius ir sąsajas kaip realiam vartotojui.
LaVague – leidžia žiniatinklio agentams naršyti svetainėse, užpildyti formas ir priimti sprendimus realiu laiku – idealiai tinka naršyklės užduotims automatizuoti.
Playwright — Automatizuoja žiniatinklio veiksmus per naršykles. Patogus bandymams ar vartotojų srautų modeliavimui.
„Puppeteer“ – patikimas įrankis „Chrome“ ar „Firefox“ valdymui. Puikiai tinka nuskaityti ir automatizuoti priekinio galo elgesį.

Atviras vertėjas Savarankiškai veikiantis kompiuteris Agentė Lašai Žaidėjas lėlės

3 balsas

Balso yra vienas iš intuityviausių būdų žmonėms bendrauti su AI agentais.Šie įrankiai tvarko kalbos atpažinimą, balso sintezę ir realaus laiko sąveiką - kad jūsų agentas jaustųsi šiek tiek žmogiškesnis.

Speech2speech

„Ultravox“ – aukščiausio lygio kalbos į kalbą modelis, kuris sklandžiai tvarko realaus laiko balso pokalbius.
Moshi – dar viena stipri galimybė kalbėjimo užduotims.Patikimas tiesioginei balso sąveikai, nors Ultravox turi pranašumą dėl našumo.
Pipecat – pilnavertė programa, skirta balso įgalintiems agentams kurti, įskaitant balso į tekstą, teksto į kalbą ir net vaizdo interakcijų palaikymą.

Ultragarsas Mozė Pipirė

Speech2text

Šnabžda - OpenAI kalbos į tekstą modelis - puikiai tinka transkripcijai ir kalbos atpažinimui keliomis kalbomis.
Stable-ts – labiau besivystančiam kūrėjui palankus apvyniojimas aplink „Whisper“. Prideda laiko žymes ir realaus laiko palaikymą, todėl puikiai tinka pokalbių agentams.
Garsiakalbių dializacija 3.1 – Pyannote modelis, skirtas aptikti, kas kalba, kai.

šnabžda stabilizuojasi Kalbėtojas Diarization 3.1

Text2speech

"ChatTTS" - geriausias modelis, kurį radau iki šiol. Jis yra greitas, stabilus ir paruoštas daugumai naudojimo atvejų.
ElevenLabs (komercinė) - Kai kokybė yra svarbesnė nei atviro kodo, tai yra išeitis.
Cartesia (komercinė) – dar viena stipri komercinė galimybė, jei ieškote išraiškingos, didelio patikimumo balso sintezės, viršijančios tai, ką gali pasiūlyti atviri modeliai.

Čiužiniai Elefantai Cartesija

Miscellaneous Tools

Jie netinka vienai kategorijai, tačiau yra labai naudingi kuriant ar tobulinant balso gebėjimus.

Vokodas – įrankių rinkinys, skirtas balso valdomiems LLM agentams kurti, todėl lengva sujungti kalbos įvestį / išvestį su kalbų modeliais.
Balso laboratorija – sistema, skirta balso agentams išbandyti ir įvertinti, naudinga skambinant teisingame skambučio, balso persona ar modelio nustatymuose.

Vokodą Balso laboratorijos

Dokumento supratimas

Dauguma naudingų verslo duomenų vis dar gyvena nestruktūrizuotuose formatuose – PDF, nuskaitymo, vaizdo pagrindu pagrįstų ataskaitų.Šie įrankiai padeda jūsų agentui skaityti, išgauti ir suprasti tą netvarką, nereikalaujant trapių OCR vamzdynų.

„Qwen2-VL“ – galingas „Alibaba“ vizijos kalbos modelis. „GPT-4“ ir „Claude 3.5 Sonnet“ puikiai tinka dokumentų užduotims, kuriose sumaišomi vaizdai ir tekstas – puikiai tinka tvarkyti sudėtingus realaus pasaulio formatus.
DocOwl2 – lengvas multimodalinis modelis, sukurtas dokumentų supratimui be OCR. Greitas, efektyvus ir stebėtinai tikslus, kad būtų galima išgauti struktūrą ir prasmę iš netvarkingų įvesties.

Kėdainiai2VL Daktaras2

5 Atmintis

Be atminties, agentai yra įstrigę grandinėje - kiekvieną sąveiką traktuoja kaip pirmą. Šie įrankiai suteikia jiems galimybę prisiminti praėjusius pokalbius, sekti nuostatas ir kurti tęstinumą.

Mem0 – savarankiškai tobulinantis atminties sluoksnis, leidžiantis jūsų agentui prisitaikyti prie ankstesnės sąveikos.
Letta (anksčiau MemGPT) - prideda ilgalaikę atmintį ir įrankių naudojimą LLM agentams.
LangChain - Apima „plug-and-play“ atminties komponentus pokalbių istorijai ir naudotojo kontekstui sekti - naudinga kuriant agentus, kuriems reikia likti ant kelių posūkių.

Memų Letta (anksčiau MemGPT)Langų grandinė

6.Testavimas ir vertinimas

Kai jūsų agentai pradeda daryti daugiau nei tik pokalbį - naršyti tinklalapius, priimti sprendimus, garsiai kalbėti - jums reikia žinoti, kaip jie elgsis su krašto atvejais.Šie įrankiai padeda jums išbandyti, kaip jūsų agentai elgiasi skirtingose situacijose, anksti sugauti klaidas ir sekti, kur viskas sugenda.

eeVoice Lab – visapusiška balso agentų testavimo sistema, užtikrinanti, kad jūsų agento kalbos atpažinimas ir atsakymai būtų tikslūs ir natūralūs.
AgentOps – įrankių rinkinys, skirtas stebėti ir lyginti AI agentus, padedant nustatyti bet kokias problemas ir optimizuoti našumą, kol jie paveiks vartotojus.
AgentBench - lyginamosios priemonės, skirtos vertinti LLM agentus įvairiose užduotims ir aplinkoms, nuo žiniatinklio naršymo iki žaidimų, užtikrinant universalumą ir efektyvumą.

Eglės laboratorija Agentų Agentų bench

7. stebėjimas ir stebėjimas

Kad jūsų AI agentai veiktų sklandžiai ir efektyviai mastu, jums reikia matomumo jų našumui ir išteklių naudojimui.Šie įrankiai suteikia reikiamos įžvalgos, leidžiančios stebėti agentų elgesį, optimizuoti išteklius ir užfiksuoti problemas, kol jie paveiks vartotojus.

openllmetry - Teikia galutinę stebėjimo galimybę LLM programoms, naudojant OpenTelemetry, suteikiant jums aiškų vaizdą apie agento našumą ir padedant jums greitai išspręsti problemas ir optimizuoti.
AgentOps – išsamus stebėjimo įrankis, kuris stebi agentų našumą, sąnaudas ir lyginamąjį vertinimą, padedantis užtikrinti, kad jūsų agentai būtų veiksmingi ir biudžeto ribose.

Atidarymas Agentų

8 Simuliacijos

Šios priemonės leidžia jums kurti kontroliuojamas, virtualias erdves, kuriose jūsų agentai gali bendrauti, mokytis ir priimti sprendimus be nenumatytų pasekmių rizikos gyvojoje aplinkoje.

AgentVerse - Palaiko daugelio LLM pagrįstų agentų diegimą įvairiose programose ir modeliavimuose, užtikrinant veiksmingą veikimą įvairiose aplinkose.
Tau-Bench - lyginamosios analizės įrankis, kuris vertina agentų ir vartotojų sąveiką konkrečiose pramonės šakose, pvz., Mažmeninės prekybos ar oro linijų, užtikrinant sklandų domenų specifinių užduočių valdymą.
"ChatArena" - daugiagento kalbos žaidimo aplinka, kurioje agentai sąveikauja, idealiai tinka agentų elgsenai studijuoti ir bendravimo modeliams patikslinti saugioje, kontroliuojamoje erdvėje.
AI miestas - virtuali aplinka, kurioje AI personažai sąveikauja socialiai, išbandyti sprendimų priėmimą ir imituoti realaus pasaulio scenarijus, padedant tobulinti agentų elgesį.
Stanfordo projektas, skirtas sukurti žmogiškus agentus, kurie imituoja sudėtingą elgesį, puikiai tinka atminčiai išbandyti ir sprendimų priėmimui socialiniuose kontekstuose.

Agentūra Kėdainių bench Šaulys Kaip miestas Generaciniai agentai

Vertikalūs agentai

Vertikalūs agentai yra specializuoti įrankiai, skirti spręsti konkrečias problemas arba optimizuoti užduotis tam tikrose pramonės šakose.

Coding:

„OpenHands“ – programinės įrangos kūrimo agentų platforma, pagaminta iš AI, skirta automatizuoti kodavimo užduotis ir pagreitinti kūrimo procesą.
aider - Porų programavimo įrankis, kuris integruojamas tiesiogiai su jūsų terminalu, siūlydamas AI kopilotą, kuris padės teisingai jūsų kodavimo aplinkoje.
GPT inžinierius – kurkite programas naudodami natūralią kalbą; tiesiog apibūdinkite, ko norite, o AI paaiškins ir sukurs reikiamą kodą.
Screenshot-to-code – konvertuoja ekrano kopijas į visiškai funkcines svetaines su HTML, Tailwind, React arba Vue, puikiai tinka greitai paversti dizaino idėjas į gyvą kodą.

Atviros rankos Padėti GPT inžinierius Ekrano kodas

Research:

GPT tyrėjas – autonominis agentas, kuris atlieka išsamius tyrimus, analizuoja duomenis ir rašo ataskaitas, supaprastindamas mokslinių tyrimų procesą.

GPT tyrėjas

SQL:

Vanna – sąveikaukite su savo SQL duomenų baze naudodami natūralios kalbos užklausas; nėra sudėtingesnių SQL komandų, tiesiog užduokite klausimus, o Vanna gauna duomenis.

vonios

Išvada

Atsižvelgdamas į mano ankstyvus bandymus sukurti mokslinių tyrimų padėjėją, matau, kad aš pernelyg apsunkinau dalykus.Projektas pasirodė esąs netvarka - pasenęs kodas, pusiau kepti įrankiai ir sistema, kuri kovojo su kažkuo paprastu kaip PDF.

Tačiau, paradoksaliai, tai kur aš išmokau labiausiai.

Šis nesėkmė mane išmokė, kad patikimiausi agentai yra pastatyti su pragmatišku, paprastu krūvu - o ne persekiojant kiekvieną blizgantį naują įrankį.

Sėkmingas agento kūrimas nereikalauja iš naujo išrasti ratą.

Svarbu pasirinkti tinkamus įrankius darbui, apgalvotai juos integruoti ir patobulinti savo prototipus. Nesvarbu, ar jūs automatizuojate darbo eigą, kuriate balso agentus, ar analizuojate dokumentus, gerai parinkta krūva gali padaryti procesą sklandesnį ir efektyvesnį.

Taigi, pradėkite, eksperimentuokite ir leiskite smalsumui jus vadovauti.

Norite dažniau išgirsti iš manęs?

Susisiekite su mumis „LinkedIn“!

Susisiekite su manimi LinkedInTuriuSusisiekite su manimi LinkedIn

DalinamėsKasdienėveiksmingas įžvalgas, patarimus ir atnaujinimus, kurie padės jums išvengti brangių klaidų ir likti priekyje AI pasaulyje.

Ar esate technologijų specialistas, norintis padidinti savo auditoriją rašydamas?

Nepraleiskite mūsų naujienlaiškio!

ManoTech audiencijos akceleratoriusyra supakuota su veiksmingais copywriting ir auditorijos kūrimo strategijomis, kurios padėjo šimtams specialistų išsiskirti ir pagreitinti jų augimą.

Tech audiencijos akceleratorius

Mano 44 mėgstamiausi atviro kodo sprendimai AI agentų kūrėjams

Per ilgai; Skaityti

So, you’re ready to build AI agents?

Statybos ir orchestravimo agentų sistemos

Kompiuterio ir naršyklės naudojimas

3 balsas

Dokumento supratimas

5 Atmintis

6.Testavimas ir vertinimas

7. stebėjimas ir stebėjimas

8 Simuliacijos

Vertikalūs agentai

Išvada

Norite dažniau išgirsti iš manęs?

Ar esate technologijų specialistas, norintis padidinti savo auditoriją rašydamas?

About Author

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

Categories

Trending Topics

Mano 44 mėgstamiausi atviro kodo sprendimai AI agentų kūrėjams

Per ilgai; Skaityti

So, you’re ready to build AI agents?

Statybos ir orchestravimo agentų sistemos

Kompiuterio ir naršyklės naudojimas

3 balsas

Dokumento supratimas

5 Atmintis

6.Testavimas ir vertinimas

7. stebėjimas ir stebėjimas

8 Simuliacijos

Vertikalūs agentai

Išvada

Norite dažniau išgirsti iš manęs?

Ar esate technologijų specialistas, norintis padidinti savo auditoriją rašydamas?

About Author

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

SUSIJUSIOS ISTORIJOS

Categories

Trending Topics