Nauja istorija

Mano 44 mėgstamiausi atviro kodo sprendimai AI agentų kūrėjams

pateikė Paolo Perrone10m2025/04/24
Read on Terminal Reader

Per ilgai; Skaityti

Šis vadovas yra parengtas įrankių sąrašas, kurį aš iš tikrųjų naudoju, laikiau savo krūve ir grįžau prie, kai sukūriau realius agentų prototipus. „Building and Orchestrating Agents“ pagrindai padeda jums struktūrizuoti savo agento logiką.
featured image - Mano 44 mėgstamiausi atviro kodo sprendimai AI agentų kūrėjams
Paolo Perrone HackerNoon profile picture
0-item

Prisimenu, sėdėdamas vieną savaitgalį, įsitikinęs, kad pagaliau ketinu sukurti tinkamą mokslinių tyrimų padėjėjo agento prototipą.Nieko nuostabaus - tiesiog kažkas, kas galėtų perskaityti PDF, išgauti pagrindinę informaciją, galbūt atsakyti į keletą tolesnių klausimų.


Vietoj to, aš praleidau geresnę dviejų dienų dalį, šokinėjęs tarp pusiau dokumentuotų repostų, negyvų GitHub problemų ir neaiškių tinklaraščio įrašų. Vienas įrankis atrodė perspektyvus, kol supratau, kad jis nebuvo atnaujintas per aštuonis mėnesius.


Bet tai, kas mane išlaikė, nebuvo nusivylimas – tai buvo smalsumas.Kokius įrankius naudoja tikrieji statybininkai?Ne tie, kurie pasirodo blizgančiuose VC žemėlapiuose, bet tie, kuriuos tyliai įdiegiate, laikykite savo krūvoje ir prisiekite.


Ši paieška atvedė mane į stebėtinai tvirtą atviro kodo bibliotekų rinkinį - įrankius, kurie yra lengvi, patikimi ir sukurti atsižvelgiant į kūrėjus.


Taigi, jei esate tranšėjose, bandydami gauti agentus, kad iš tikrųjų veiktų, šis yra skirtas jums.

So, you’re ready to build AI agents?

Taigi, ar esate pasiruošę kurti AI agentus?

Tai nuostabu.


Galbūt jūs klausiate:


    Šaltinis
  • Ką žmonės naudoja balso agentams kurti?
  • Šaltinis
  • Koks yra geriausias atviro kodo įrankis dokumentų analizei?
  • Šaltinis
  • Kaip suteikti savo agento atmintį be vektorio DB įtraukimo į viską?
  • Šaltinis


Šis vadovas nesistengia padengti visko, kas ten yra - ir tai yra tyčinis. Tai kuruojamasis įrankių sąrašas, kurį aš iš tikrųjų naudojau, laikiau savo krūvoje ir grįžau į tai, kai kūriau realius agentų prototipus. Ne tie, kurie atrodė kieti demonstravime arba pasirodė kiekviename hype siūlyme, bet tie, kurie padėjo man pereiti nuo „idėjos“ prie „darbo dalyko“, neprarandant.


Čia pateikiamas rinkinys, suskirstytas į kategorijas:


    Šaltinis
  1. Statybos ir orchestravimo agentų rėmai
  2. Šaltinis

Šie įrankiai padeda jums struktūrizuoti savo agento logiką - ką daryti, kada tai padaryti ir kaip tvarkyti įrankius.


2. Computer and Browser Use

Ši kategorija apima įrankius, kurie leidžia jūsų agentui spustelėti mygtukus, įvesti laukus, nuskaityti duomenis ir apskritai valdyti programas ar svetaines kaip žmogus.


3. Voice

Jei jūsų agentas turi kalbėti ar klausytis, šie įrankiai tvarko garso pusę - paverčia kalbą į tekstą ir atgal. Naudinga rankų laisvo naudojimo atvejais arba balso pirmieji agentai.


4. Document Understanding

Daug realaus pasaulio duomenų gyvena PDF formatuose, nuskaitymuose ar kituose nesudėtinguose formatuose.Šie įrankiai padeda jūsų agentui iš tikrųjų perskaityti ir suprasti tą turinį – ar tai būtų sąskaitos faktūros, sutartys, ar vaizdo failai.


5. Memory

Šios bibliotekos padeda jai prisiminti, kas ką tik atsitiko, ką anksčiau pasakėte, ar net sukurti ilgalaikį profilį laikui bėgant.


6. Testing and Evaluation

Šie įrankiai padeda jums sugauti klaidas, kol jos pasiekia gamybą - paleidžiant scenarijus, imituojant sąveiką ir tikrinant, ar agento elgesys yra prasmingas.


7. Monitoring and Observability

Kai jūsų agentas yra gyvas, turite žinoti, ką jis daro ir kaip gerai jis veikia.Šie įrankiai padeda jums sekti naudojimą, ištaisyti problemas ir suprasti sąnaudų ar vėlavimo poveikį.


8. Simulation

Prieš išmesdami savo agentą į laukinę gamtą, išbandykite jį saugiame, smėlio dėžutėje.Simuliuojamos aplinkos leidžia eksperimentuoti, tobulinti sprendimų logiką ir rasti kraštutinių atvejų kontroliuojamoje aplinkoje.


9. Vertical Agents

Tai yra paruošti agentai, sukurti konkrečioms užduotims, pvz., kodavimui, moksliniams tyrimams ar klientų aptarnavimui.




Statybos ir orchestravimo agentų sistemos

Norėdami sukurti agentus, kurie iš tikrųjų daro dalykus, jums reikia tvirtos bazės - kažkas, kad galėtumėte tvarkyti darbo eigą, atmintį ir įrankių integraciją, o ne tapti scenarijų netvarka.


    Šaltinis
  • CrewAI – orkestruoja kelis agentus, dirbančius kartu, idealiai tinka užduotims, kurioms reikia koordinavimo ir vaidmenų.
  • Šaltinis
  • Phidata – sutelkia dėmesį į atmintį, įrankių naudojimą ir ilgalaikę sąveiką. Puikus pagalbininkams, kuriems reikia prisiminti ir prisitaikyti.
  • Šaltinis
  • „Camel“ – skirtas daugiagento bendradarbiavimui, modeliavimui ir užduočių specializacijai.
  • Šaltinis
  • AutoGPT – Automatizuoja sudėtingus darbo srautus su planavimo ir vykdymo ciklu.
  • Šaltinis
  • AutoGen – leidžia agentams bendrauti tarpusavyje, kad išspręstų sudėtingas problemas.
  • Šaltinis
  • SuperAGI - Greitai sureguliuotas nustatymas autonominių agentų statybai ir pristatymui.
  • Šaltinis
  • Superagent – lankstus atviro kodo įrankių rinkinys, skirtas sukurti individualius AI padėjėjus.
  • Šaltinis
  • LangChain & LlamaIndex - įrankiai, skirti valdyti atmintį, paiešką ir įrankių grandines.
  • Šaltinis
įgulaFidžisKamilėAutomobiliųAutomobiliųSuperžvaigždėsSuperagentėLangų grandinėŽymėsIndex


Kompiuterio ir naršyklės naudojimas

Kai jūsų agentas gali galvoti, kitas žingsnis yra padėti jamDauTai reiškia sąveiką su kompiuteriais ir žiniatinkliu taip, kaip žmogus - spustelėję mygtukus, užpildydamas formas, naršydamas puslapius ir paleisdamas komandas.


    Šaltinis
  • Atidaryti vertėjas — Verčia natūralią kalbą į vykdomąjį kodą savo mašinoje. Norite perkelti failus ar paleisti scenarijų?
  • Šaltinis
  • Savarankiškai veikiantis kompiuteris - suteikia agentams visišką jūsų darbalaukio aplinkos kontrolę, leidžiančią jiems sąveikauti su jūsų OS kaip asmuo.
  • Šaltinis
  • Agent-S – lanksti sistema, leidžianti AI agentams naudoti programas, įrankius ir sąsajas kaip realiam vartotojui.
  • Šaltinis
  • LaVague – leidžia žiniatinklio agentams naršyti svetainėse, užpildyti formas ir priimti sprendimus realiu laiku – idealiai tinka naršyklės užduotims automatizuoti.
  • Šaltinis
  • Playwright — Automatizuoja žiniatinklio veiksmus per naršykles. Patogus bandymams ar vartotojų srautų modeliavimui.
  • Šaltinis
  • „Puppeteer“ – patikimas įrankis „Chrome“ ar „Firefox“ valdymui. Puikiai tinka nuskaityti ir automatizuoti priekinio galo elgesį.
  • Šaltinis
Atviras vertėjasSavarankiškai veikiantis kompiuterisAgentėLašaiŽaidėjaslėlės


3 balsas

Balso yra vienas iš intuityviausių būdų žmonėms bendrauti su AI agentais.Šie įrankiai tvarko kalbos atpažinimą, balso sintezę ir realaus laiko sąveiką - kad jūsų agentas jaustųsi šiek tiek žmogiškesnis.


Speech2speech

    Šaltinis
  • „Ultravox“ – aukščiausio lygio kalbos į kalbą modelis, kuris sklandžiai tvarko realaus laiko balso pokalbius.
  • Šaltinis
  • Moshi – dar viena stipri galimybė kalbėjimo užduotims.Patikimas tiesioginei balso sąveikai, nors Ultravox turi pranašumą dėl našumo.
  • Šaltinis
  • Pipecat – pilnavertė programa, skirta balso įgalintiems agentams kurti, įskaitant balso į tekstą, teksto į kalbą ir net vaizdo interakcijų palaikymą.
  • Šaltinis
UltragarsasMozėPipirė


Speech2text

    Šaltinis
  • Šnabžda - OpenAI kalbos į tekstą modelis - puikiai tinka transkripcijai ir kalbos atpažinimui keliomis kalbomis.
  • Šaltinis
  • Stable-ts – labiau besivystančiam kūrėjui palankus apvyniojimas aplink „Whisper“. Prideda laiko žymes ir realaus laiko palaikymą, todėl puikiai tinka pokalbių agentams.
  • Šaltinis
  • Garsiakalbių dializacija 3.1 – Pyannote modelis, skirtas aptikti, kas kalba, kai.
  • Šaltinis
šnabždastabilizuojasiKalbėtojas Diarization 3.1


Text2speech

    Šaltinis
  • "ChatTTS" - geriausias modelis, kurį radau iki šiol. Jis yra greitas, stabilus ir paruoštas daugumai naudojimo atvejų.
  • Šaltinis
  • ElevenLabs (komercinė) - Kai kokybė yra svarbesnė nei atviro kodo, tai yra išeitis.
  • Šaltinis
  • Cartesia (komercinė) – dar viena stipri komercinė galimybė, jei ieškote išraiškingos, didelio patikimumo balso sintezės, viršijančios tai, ką gali pasiūlyti atviri modeliai.
  • Šaltinis
ČiužiniaiElefantaiCartesija


Miscellaneous Tools

Jie netinka vienai kategorijai, tačiau yra labai naudingi kuriant ar tobulinant balso gebėjimus.

    Šaltinis
  • Vokodas – įrankių rinkinys, skirtas balso valdomiems LLM agentams kurti, todėl lengva sujungti kalbos įvestį / išvestį su kalbų modeliais.
  • Šaltinis
  • Balso laboratorija – sistema, skirta balso agentams išbandyti ir įvertinti, naudinga skambinant teisingame skambučio, balso persona ar modelio nustatymuose.
  • Šaltinis
VokodąBalso laboratorijos

Dokumento supratimas

Dauguma naudingų verslo duomenų vis dar gyvena nestruktūrizuotuose formatuose – PDF, nuskaitymo, vaizdo pagrindu pagrįstų ataskaitų.Šie įrankiai padeda jūsų agentui skaityti, išgauti ir suprasti tą netvarką, nereikalaujant trapių OCR vamzdynų.


    Šaltinis
  • „Qwen2-VL“ – galingas „Alibaba“ vizijos kalbos modelis. „GPT-4“ ir „Claude 3.5 Sonnet“ puikiai tinka dokumentų užduotims, kuriose sumaišomi vaizdai ir tekstas – puikiai tinka tvarkyti sudėtingus realaus pasaulio formatus.
  • Šaltinis
  • DocOwl2 – lengvas multimodalinis modelis, sukurtas dokumentų supratimui be OCR. Greitas, efektyvus ir stebėtinai tikslus, kad būtų galima išgauti struktūrą ir prasmę iš netvarkingų įvesties.
  • Šaltinis
Kėdainiai2VLDaktaras2


5 Atmintis

Be atminties, agentai yra įstrigę grandinėje - kiekvieną sąveiką traktuoja kaip pirmą. Šie įrankiai suteikia jiems galimybę prisiminti praėjusius pokalbius, sekti nuostatas ir kurti tęstinumą.


    Šaltinis
  • Mem0 – savarankiškai tobulinantis atminties sluoksnis, leidžiantis jūsų agentui prisitaikyti prie ankstesnės sąveikos.
  • Šaltinis
  • Letta (anksčiau MemGPT) - prideda ilgalaikę atmintį ir įrankių naudojimą LLM agentams.
  • Šaltinis
  • LangChain - Apima „plug-and-play“ atminties komponentus pokalbių istorijai ir naudotojo kontekstui sekti - naudinga kuriant agentus, kuriems reikia likti ant kelių posūkių.
  • Šaltinis
MemųLetta (anksčiau MemGPT)Langų grandinė


6.Testavimas ir vertinimas

Kai jūsų agentai pradeda daryti daugiau nei tik pokalbį - naršyti tinklalapius, priimti sprendimus, garsiai kalbėti - jums reikia žinoti, kaip jie elgsis su krašto atvejais.Šie įrankiai padeda jums išbandyti, kaip jūsų agentai elgiasi skirtingose situacijose, anksti sugauti klaidas ir sekti, kur viskas sugenda.


    Šaltinis
  • eeVoice Lab – visapusiška balso agentų testavimo sistema, užtikrinanti, kad jūsų agento kalbos atpažinimas ir atsakymai būtų tikslūs ir natūralūs.
  • Šaltinis
  • AgentOps – įrankių rinkinys, skirtas stebėti ir lyginti AI agentus, padedant nustatyti bet kokias problemas ir optimizuoti našumą, kol jie paveiks vartotojus.
  • Šaltinis
  • AgentBench - lyginamosios priemonės, skirtos vertinti LLM agentus įvairiose užduotims ir aplinkoms, nuo žiniatinklio naršymo iki žaidimų, užtikrinant universalumą ir efektyvumą.
  • Šaltinis
Eglės laboratorijaAgentųAgentų bench


7. stebėjimas ir stebėjimas

Kad jūsų AI agentai veiktų sklandžiai ir efektyviai mastu, jums reikia matomumo jų našumui ir išteklių naudojimui.Šie įrankiai suteikia reikiamos įžvalgos, leidžiančios stebėti agentų elgesį, optimizuoti išteklius ir užfiksuoti problemas, kol jie paveiks vartotojus.


    Šaltinis
  • openllmetry - Teikia galutinę stebėjimo galimybę LLM programoms, naudojant OpenTelemetry, suteikiant jums aiškų vaizdą apie agento našumą ir padedant jums greitai išspręsti problemas ir optimizuoti.
  • Šaltinis
  • AgentOps – išsamus stebėjimo įrankis, kuris stebi agentų našumą, sąnaudas ir lyginamąjį vertinimą, padedantis užtikrinti, kad jūsų agentai būtų veiksmingi ir biudžeto ribose.
  • Šaltinis
AtidarymasAgentų


8 Simuliacijos

Šios priemonės leidžia jums kurti kontroliuojamas, virtualias erdves, kuriose jūsų agentai gali bendrauti, mokytis ir priimti sprendimus be nenumatytų pasekmių rizikos gyvojoje aplinkoje.


    Šaltinis
  • AgentVerse - Palaiko daugelio LLM pagrįstų agentų diegimą įvairiose programose ir modeliavimuose, užtikrinant veiksmingą veikimą įvairiose aplinkose.
  • Šaltinis
  • Tau-Bench - lyginamosios analizės įrankis, kuris vertina agentų ir vartotojų sąveiką konkrečiose pramonės šakose, pvz., Mažmeninės prekybos ar oro linijų, užtikrinant sklandų domenų specifinių užduočių valdymą.
  • Šaltinis
  • "ChatArena" - daugiagento kalbos žaidimo aplinka, kurioje agentai sąveikauja, idealiai tinka agentų elgsenai studijuoti ir bendravimo modeliams patikslinti saugioje, kontroliuojamoje erdvėje.
  • Šaltinis
  • AI miestas - virtuali aplinka, kurioje AI personažai sąveikauja socialiai, išbandyti sprendimų priėmimą ir imituoti realaus pasaulio scenarijus, padedant tobulinti agentų elgesį.
  • Šaltinis
  • Stanfordo projektas, skirtas sukurti žmogiškus agentus, kurie imituoja sudėtingą elgesį, puikiai tinka atminčiai išbandyti ir sprendimų priėmimui socialiniuose kontekstuose.
  • Šaltinis
AgentūraKėdainių benchŠaulysKaip miestasGeneraciniai agentai


Vertikalūs agentai

Vertikalūs agentai yra specializuoti įrankiai, skirti spręsti konkrečias problemas arba optimizuoti užduotis tam tikrose pramonės šakose.


Coding:

    Šaltinis
  • „OpenHands“ – programinės įrangos kūrimo agentų platforma, pagaminta iš AI, skirta automatizuoti kodavimo užduotis ir pagreitinti kūrimo procesą.
  • Šaltinis
  • aider - Porų programavimo įrankis, kuris integruojamas tiesiogiai su jūsų terminalu, siūlydamas AI kopilotą, kuris padės teisingai jūsų kodavimo aplinkoje.
  • Šaltinis
  • GPT inžinierius – kurkite programas naudodami natūralią kalbą; tiesiog apibūdinkite, ko norite, o AI paaiškins ir sukurs reikiamą kodą.
  • Šaltinis
  • Screenshot-to-code – konvertuoja ekrano kopijas į visiškai funkcines svetaines su HTML, Tailwind, React arba Vue, puikiai tinka greitai paversti dizaino idėjas į gyvą kodą.
  • Šaltinis
Atviros rankosPadėtiGPT inžinieriusEkrano kodas


Research:

    Šaltinis
  • GPT tyrėjas – autonominis agentas, kuris atlieka išsamius tyrimus, analizuoja duomenis ir rašo ataskaitas, supaprastindamas mokslinių tyrimų procesą.
  • Šaltinis
GPT tyrėjas

SQL:

    Šaltinis
  • Vanna – sąveikaukite su savo SQL duomenų baze naudodami natūralios kalbos užklausas; nėra sudėtingesnių SQL komandų, tiesiog užduokite klausimus, o Vanna gauna duomenis.
  • Šaltinis
vonios

Išvada

Atsižvelgdamas į mano ankstyvus bandymus sukurti mokslinių tyrimų padėjėją, matau, kad aš pernelyg apsunkinau dalykus.Projektas pasirodė esąs netvarka - pasenęs kodas, pusiau kepti įrankiai ir sistema, kuri kovojo su kažkuo paprastu kaip PDF.


Tačiau, paradoksaliai, tai kur aš išmokau labiausiai.


Šis nesėkmė mane išmokė, kad patikimiausi agentai yra pastatyti su pragmatišku, paprastu krūvu - o ne persekiojant kiekvieną blizgantį naują įrankį.


Sėkmingas agento kūrimas nereikalauja iš naujo išrasti ratą.


Svarbu pasirinkti tinkamus įrankius darbui, apgalvotai juos integruoti ir patobulinti savo prototipus. Nesvarbu, ar jūs automatizuojate darbo eigą, kuriate balso agentus, ar analizuojate dokumentus, gerai parinkta krūva gali padaryti procesą sklandesnį ir efektyvesnį.


Taigi, pradėkite, eksperimentuokite ir leiskite smalsumui jus vadovauti.

Norite dažniau išgirsti iš manęs?

Susisiekite su mumis „LinkedIn“!

Susisiekite su manimi LinkedInTuriuSusisiekite su manimi LinkedIn


DalinamėsKasdienėveiksmingas įžvalgas, patarimus ir atnaujinimus, kurie padės jums išvengti brangių klaidų ir likti priekyje AI pasaulyje.

Ar esate technologijų specialistas, norintis padidinti savo auditoriją rašydamas?

Nepraleiskite mūsų naujienlaiškio!


ManoTech audiencijos akceleratoriusyra supakuota su veiksmingais copywriting ir auditorijos kūrimo strategijomis, kurios padėjo šimtams specialistų išsiskirti ir pagreitinti jų augimą.

Tech audiencijos akceleratorius
L O A D I N G
. . . comments & more!

About Author

Paolo Perrone HackerNoon profile picture
Paolo Perrone@paoloap
No BS AI/ML Content | ML Engineer with a Plot Twist 🥷 40k+ Followers on LinkedIn

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks