Îmi amintesc să stau într-un week-end, convins că voi construi în cele din urmă un prototip decent al unui agent de cercetare asistent. Nimic fantastic - doar ceva care ar putea citi un PDF, extrage informații cheie, poate răspunde la câteva întrebări de urmărire.
În schimb, am petrecut cea mai bună parte a celor două zile sărind între reposturi pe jumătate documentate, probleme GitHub moarte și postări de blog vagi. Un instrument părea promițător până când mi-am dat seama că nu a fost actualizat în opt luni.
Dar ceea ce m-a ținut nu a fost frustrarea – a fost curiozitatea.Care sunt instrumentele pe care constructorii le folosesc?Nu cele care apar pe hărțile VC strălucitoare, ci cele pe care le instalați în liniște, păstrați-le în stivă și jurați.
Această căutare m-a condus la un set surprinzător de solid de biblioteci open-source - instrumente care sunt ușoare, fiabile și construite cu dezvoltatorii în minte.
Deci, dacă sunteți în tranșee încercând să obțineți agenți pentru a lucra de fapt, acesta este pentru tine.
So, you’re ready to build AI agents?
Deci, sunteți gata să construiți agenți AI?minunată .
S-ar putea să te întrebi:
- să
- Ce folosesc oamenii pentru a construi agenți vocali? să
- Care este cel mai bun instrument open-source pentru analizarea documentelor? să
- Cum îmi dau memoria agentului fără a conduce un vector DB la tot? să
Acest ghid nu încearcă să acopere totul acolo - și asta este intenționat. Este o listă curată de instrumente pe care le-am folosit de fapt, păstrat în stivă și revenit la atunci când construiesc prototipuri reale de agenți.
Iată lista, împărțită în categorii:
- să
- Cadrele pentru agenții de construcții și orchestrare să
Începeți aici dacă construiți de la zero. Aceste instrumente vă ajută să structurați logica agentului dvs. - ce să faceți, când să o faceți și cum să gestionați instrumentele.
2. Computer and Browser Use
Această categorie include instrumente care permit agentului să facă clic pe butoane, să tipărească câmpuri, să răstoarne date și, în general, să controleze aplicațiile sau site-urile web ca un om.
3. Voice
Dacă agentul dvs. are nevoie să vorbească sau să asculte, aceste instrumente se ocupă de partea audio – transformând vorbirea în text și din nou. Utile pentru cazurile de utilizare fără mâini sau pentru agenții de primă voce.
4. Document Understanding
O mulțime de date din lumea reală trăiesc în PDF-uri, scanări sau alte formate tulburi. Aceste instrumente ajută agentul dvs. să citească și să înțeleagă conținutul - fie că este vorba de facturi, contracte sau fișiere bazate pe imagini.
5. Memory
Pentru a depăși sarcinile cu o singură lovitură, agentul dvs. are nevoie de memorie. Aceste biblioteci îi ajută să-și amintească ce sa întâmplat, ce i-ați spus înainte sau chiar să construiască un profil pe termen lung în timp.
6. Testing and Evaluation
Aceste instrumente vă ajută să prindeți greșelile înainte de a ajunge la producție - prin rularea scenariilor, simularea interacțiunilor și verificarea dacă comportamentul agentului are sens.
7. Monitoring and Observability
Odată ce agentul dvs. este în viață, trebuie să știți ce face și cât de bine funcționează. Aceste instrumente vă ajută să urmăriți utilizarea, problemele de debugare și să înțelegeți impactul costurilor sau al latenței.
8. Simulation
Înainte de a vă arunca agentul în sălbăticie, testați-l într-o lume sigură, cu cutie de nisip. Mediile simulate vă permit să experimentați, să perfecționați logica deciziei și să găsiți cazuri de margine într-o setare controlată.
9. Vertical Agents
Acestea sunt agenți gata construiți pentru sarcini specifice – cum ar fi codificarea, cercetarea sau asistența pentru clienți.
Cadrele pentru agenții de construcție și orchestrare
Pentru a construi agenți care fac efectiv lucrurile, aveți nevoie de o fundație solidă - ceva pentru a gestiona fluxurile de lucru, memoria și integrarea instrumentelor fără a deveni un blocaj de scripturi.
- să
- CrewAI – orchestrează mai mulți agenți care lucrează împreună. Ideal pentru sarcinile care necesită coordonare și comportament bazat pe roluri. să
- Phidata – Se concentrează pe memorie, utilizarea instrumentelor și interacțiunile pe termen lung. Excelent pentru asistenții care au nevoie să-și amintească și să se adapteze. să
- Camel - Proiectat pentru colaborare cu mai mulți agenți, simulare și specializare în sarcini. să
- AutoGPT – Automatizează fluxurile de lucru complexe cu un ciclu de planificare și execuție. Cel mai bine pentru agenții care au nevoie să ruleze independent. să
- AutoGen – permite agenților să comunice între ei pentru a rezolva probleme complexe. să
- SuperAGI – setare fluidizată pentru construirea și expedierea rapidă a agenților autonomi. să
- Superagent – Un set flexibil de instrumente open-source pentru a crea asistenți AI particularizați. să
- LangChain & LlamaIndex – instrumentele de management pentru memorie, recuperare și lanțuri de instrumente. să
Utilizarea calculatorului și a browserului
Odată ce agentul dvs. poate gândi, următorul pas este de a-l ajutaDăAsta înseamnă să interacționezi cu computerele și cu web-ul așa cum ar face un om – făcând clic pe butoane, completând formulare, navigând pe pagini și executând comenzi.
- să
- Open Interpreter – Traducere limbaj natural în cod executabil pe computer. Vrei să muți fișiere sau să rulați un script? să
- Computer auto-operant – oferă agenților control deplin asupra mediului desktop, permițându-le să interacționeze cu sistemul de operare ca o persoană. să
- Agent-S – Un cadru flexibil care permite agenților AI să utilizeze aplicații, instrumente și interfețe ca un utilizator real. să
- LaVague - Permite agenților web să navigheze pe site-uri, să completeze formulare și să ia decizii în timp real - ideal pentru automatizarea sarcinilor de browser. să
- Playwright – Automatizează acțiunile web prin intermediul browserelor. Handy pentru testarea sau simularea fluxurilor de utilizator. să
- Puppeteer — Un instrument de încredere pentru a controla Chrome sau Firefox. Excelent pentru răzuirea și automatizarea comportamentului front-end. să
3 Vocea
Vocea este una dintre cele mai intuitive modalități prin care oamenii interacționează cu agenții AI. Aceste instrumente gestionează recunoașterea vorbirii, sinteza vocii și interacțiunile în timp real – făcând agentul să se simtă un pic mai uman.
Speech2speech
- să
- Ultravox – Un model de vorbire-vorbire de nivel superior care gestionează conversațiile vocale în timp real fără probleme. să
- Moshi – O altă opțiune puternică pentru sarcinile de vorbire. Fiabil pentru interacțiunea vocală live, deși Ultravox are avantajul în ceea ce privește performanța. să
- Pipecat – Un framework full-stack pentru a construi agenți abilitați prin voce. Include suport pentru interacțiuni de voce-la-text, text-la-vorbă și chiar video. să
Speech2text
- să
- Whisper – modelul de vorbire-la-text al OpenAI – este excelent pentru transcrierea și recunoașterea vorbirii în mai multe limbi. să
- Stable-ts – Un înveliș mai prietenos pentru dezvoltatori în jurul Whisper. adaugă timestamp-uri și suport în timp real, făcându-l minunat pentru agenții de conversație. să
- Speaker Diarization 3.1 – modelul Pyannote pentru a detecta cine vorbește când. crucial pentru conversațiile cu mai mulți vorbitori și audio în stil de întâlnire. să
Text2speech
- să
- ChatTTS – Cel mai bun model pe care l-am găsit până acum. este rapid, stabil și gata de producție pentru majoritatea cazurilor de utilizare. să
- ElevenLabs (Comercial) – Atunci când calitatea contează mai mult decât open source-ul, acesta este punctul de plecare. să
- Cartesia (Comercial) – O altă opțiune comercială puternică dacă sunteți în căutarea unei sinteze vocale expresive, de înaltă fidelitate, dincolo de ceea ce pot oferi modelele deschise. să
Miscellaneous Tools
Acestea nu se potrivesc bine într-o singură categorie, dar sunt foarte utile atunci când se construiesc sau se rafină agenții capabili de voce.
- să
- Vocode — Un set de instrumente pentru a construi agenți LLM cu putere de voce. Facilitează conectarea intrărilor/ieșirilor de vorbire cu modelele de limbă. să
- Voice Lab – Un cadru pentru testarea și evaluarea agenților vocali. Util pentru apelarea în setarea promptului drept, a vocii sau a modelului. să
4. înțelegerea documentelor
Cele mai utile date de afaceri încă trăiesc în formate nestructurate – PDF-uri, scanări, rapoarte bazate pe imagini. Aceste instrumente vă ajută agentul să citească, să extragă și să înțeleagă acest dezordine, fără a avea nevoie de conducte OCR fragile.
- să
- Qwen2-VL - Un model puternic de limbaj de viziune de la Alibaba. Suprapune GPT-4 și Claude 3.5 Sonnet pe sarcinile de documente care amestecă imagini și text - excelent pentru gestionarea formatelor complexe, din lumea reală. să
- DocOwl2 - Un model multimodal ușor construit pentru înțelegerea documentelor fără OCR. Rapid, eficient și surprinzător de precis pentru a extrage structura și sensul din intrările tulburi. să
5 Memorie
Fără memorie, agenții sunt blocați într-o buclă – tratează fiecare interacțiune ca și prima. Aceste instrumente le oferă capacitatea de a-și aminti conversațiile din trecut, de a urmări preferințele și de a construi continuitate.
- să
- Mem0 – Un strat de memorie care se auto-îmbunătățește, care permite agentului dvs. să se adapteze la interacțiunile anterioare. să
- Letta (fost MemGPT) - adaugă memorie pe termen lung și utilizarea instrumentelor agenților LLM. Gândiți-vă la ea ca la un scaffolding pentru agenții care au nevoie să-și amintească, să raționeze și să evolueze. să
- LangChain - Include componente de memorie plug-and-play pentru urmărirea istoricului conversațiilor și a contextului utilizatorului - convenabil atunci când construiți agenți care trebuie să rămână pe teren în mai multe rânduri. să
6. testare și evaluare
Pe măsură ce agenții dvs. încep să facă mai mult decât doar să chat – navigând pe pagini web, luând decizii, vorbind cu voce tare – trebuie să știți cum vor gestiona cazurile de margine.
- să
- eeVoice Lab - Un cadru cuprinzător pentru testarea agenților vocali, asigurându-vă că recunoașterea vorbirii agentului dvs. și răspunsurile sunt exacte și naturale. să
- AgentOps – Un set de instrumente pentru urmărirea și compararea agenților AI, care vă ajută să identificați orice probleme și să optimizați performanța înainte de a afecta utilizatorii. să
- AgentBench - Un instrument de referință pentru evaluarea agenților LLM în diferite sarcini și medii, de la navigarea pe web la jocuri, asigurând versatilitatea și eficiența. să
7. monitorizare și observabilitate
Pentru a vă asigura că agenții dvs. AI funcționează fără probleme și eficient la scară, aveți nevoie de vizibilitate în performanța și utilizarea resurselor. Aceste instrumente oferă informațiile necesare, permițându-vă să monitorizați comportamentul agenților, să optimizați resursele și să identificați problemele înainte de a afecta utilizatorii.
- să
- openllmetry - Oferă observabilitate de la capăt la capăt pentru aplicațiile LLM folosind OpenTelemetry, oferindu-vă o imagine clară a performanței agentului și ajutându-vă să rezolvați problemele și să optimizați rapid. să
- AgentOps – Un instrument cuprinzător de monitorizare care urmărește performanța agentului, costul și benchmarkingul, ajutându-vă să vă asigurați că agenții dvs. sunt eficienți și în limitele bugetului. să
8 Simularea
Aceste instrumente vă permit să creați spații virtuale controlate în care agenții dvs. pot interacționa, să învețe și să ia decizii fără riscul de consecințe nedorite în mediile live.
- să
- AgentVerse - Suportă implementarea mai multor agenți pe bază de LLM în diverse aplicații și simulări, asigurând funcționarea eficientă în diferite medii. să
- Tau-Bench – Un instrument de benchmarking care evaluează interacțiunile agent-utilizator în industrii specifice, cum ar fi comerțul cu amănuntul sau companiile aeriene, asigurând gestionarea fără probleme a sarcinilor specifice domeniului. să
- ChatArena este un mediu de joc multi-agenți în care agenții interacționează, ideal pentru studierea comportamentului agenților și rafinarea modelelor de comunicare într-un spațiu sigur și controlat. să
- AI Town – Un mediu virtual în care personajele AI interacționează social, testează luarea deciziilor și simulă scenarii din lumea reală, ajutând la ajustarea comportamentului agentului. să
- Agenți generativi – Un proiect Stanford axat pe crearea de agenți asemănători cu oamenii care simulează comportamente complexe, perfecte pentru testarea memoriei și luarea deciziilor în contexte sociale. să
Agenții verticali
Agenții verticali sunt instrumente specializate concepute pentru a rezolva probleme specifice sau pentru a optimiza sarcini în anumite industrii.În timp ce există un ecosistem în creștere al acestora, iată câteva pe care le-am folosit personal și le-am găsit deosebit de utile:
Coding:
- să
- OpenHands – O platformă pentru agenții de dezvoltare a software-ului alimentată de AI, concepută pentru a automatiza sarcinile de codificare și pentru a accelera procesul de dezvoltare. să
- aider – Un instrument de programare în perechi care se integrează direct cu terminalul dvs., oferind un co-pilot AI pentru a vă ajuta în mediul dvs. de codificare. să
- GPT Engineer – Construiți aplicații folosind limbajul natural; descrieți pur și simplu ceea ce doriți, iar AI va clarifica și va genera codul necesar. să
- Screenshot-to-code - Convertește capturi de ecran în site-uri web complet funcționale cu HTML, Tailwind, React sau Vue, excelent pentru transformarea rapidă a ideilor de design în cod live. să
Research:
- să
- GPT Researcher – Un agent autonom care efectuează cercetări cuprinzătoare, analizează date și scrie rapoarte, simplificând procesul de cercetare. să
SQL:
- să
- Interacționați cu baza de date SQL utilizând interogări de limbă naturală; nu mai multe comenzi SQL complicate, doar puneți întrebări și Vanna recuperează datele. să
Concluzie
Reflectând asupra încercărilor mele timpurii de a construi un asistent de cercetare, pot vedea că am complicat prea mult lucrurile.Proiectul sa dovedit a fi un haos - cod învechit, instrumente pe jumătate coapte și un sistem care sa luptat cu ceva la fel de simplu ca un PDF.
Dar, paradoxal, acolo am învățat cel mai mult.
Acest eșec m-a învățat că cei mai fiabili agenți sunt construiți cu o grămadă pragmatică, simplă - nu prin urmărirea fiecărui nou instrument strălucitor.
Dezvoltarea cu succes a agentului nu necesită reinventarea roții.
Este vorba despre alegerea instrumentelor potrivite pentru sarcină, integrarea lor cu grijă și rafinarea prototipurilor.Fie că automatizați fluxurile de lucru, construiți agenți vocali sau analizați documente, o stivă bine aleasă poate face procesul mai lin și mai eficient.
Deci, începeți, experimentați și lăsați curiozitatea să vă ghideze.
Vrei să auzi de la mine mai des?
Conectează-te cu mine pe LinkedIn!
Conectează-te cu mine pe LinkedIn! →Conectează-te cu mine pe LinkedIn
Împărtășesczilnicăperspective, sfaturi și actualizări care vă vor ajuta să evitați greșelile costisitoare și să rămâneți în fruntea lumii AI.
Ești un profesionist în tehnologie care caută să-ți crească publicul prin scriere?
Nu ratați newsletter-ul nostru!
a meaAcceleratorul audienței tehniceeste plin de strategii de copywriting și de construire a audienței care au ajutat sute de profesioniști să iasă în evidență și să-și accelereze creșterea.
Acceleratorul audienței tehnice