Nowa historia

Moje 44 ulubione rozwiązania open-source dla deweloperów agenta AI

przez Paolo Perrone10m2025/04/24
Read on Terminal Reader

Za długo; Czytać

Niniejszy przewodnik jest kuratorską listą narzędzi, które rzeczywiście używałem, przechowywałem w zestawie i powróciłem do nich podczas budowy prawdziwych prototypów agentów.Ramy dla agentów budowlanych i orkiestrowanych pomagają Ci skonstruować logikę agenta.
featured image - Moje 44 ulubione rozwiązania open-source dla deweloperów agenta AI
Paolo Perrone HackerNoon profile picture
0-item

Pamiętam, że usiadłem w jeden weekend, przekonany, że w końcu zbuduję przyzwoity prototyp agenta asystenta badawczego. nic fantazyjnego - tylko coś, co mogłoby przeczytać PDF, wyodrębnić kluczowe informacje, być może odpowiedzieć na kilka pytań.


Zamiast tego spędziłem lepszą część dwóch dni skacząc między półdokumentowanym repos, martwymi problemami GitHub i niejasnymi postami na blogu. Jedno narzędzie wyglądało obiecująco, dopóki nie zdałem sobie sprawy, że nie zostało ono zaktualizowane w ciągu ośmiu miesięcy.


Ale to, co mnie powstrzymało, nie było frustracją – to była ciekawość.Jakie narzędzia używają prawdziwi budowniczowie?Nie te, które pojawiają się na błyszczących mapach VC, ale te, które zainstalujesz cicho, trzymaj w swoim stosie i przysięgaj.


To poszukiwanie doprowadziło mnie do zaskakująco solidnego zestawu bibliotek open-source – narzędzi, które są lekkie, niezawodne i zbudowane z myślą o programistach.


Więc jeśli jesteś w trenkach, próbując sprawić, by agenci rzeczywiście pracowali, ten jest dla Ciebie.

So, you’re ready to build AI agents?

Czy jesteś gotowy, aby zbudować agentów AI?

To niesamowite.


Możesz zapytać:


  • Co ludzie używają do tworzenia agentów głosowych?
  • Jakie jest najlepsze narzędzie open source do analizowania dokumentów?
  • Jak mogę przekazać pamięć agenta bez przenoszenia wektorowego DB do wszystkiego?


Ten przewodnik nie próbuje obejmować wszystkiego tam - i to jest celowe. Jest to kuratorska lista narzędzi, które rzeczywiście używałem, przechowywałem w moim stosie i wróciłem do budowania prawdziwych prototypów agentów. Nie te, które wyglądały fajnie w demonstracji lub pojawiły się w każdym pasku hype, ale te, które pomogły mi przejść od „idei” do „rzeczy roboczej” bez utraty.


Oto zestaw, podzielony na kategorie:


  1. Ramy dla agentów budowlanych i orkiestracji

Zacznij tutaj, jeśli budujesz od podstaw. Te narzędzia pomagają ci skonstruować logikę swojego agenta – co robić, kiedy to robić i jak obsługiwać narzędzia.


2. Computer and Browser Use

Ta kategoria obejmuje narzędzia, które pozwalają agentowi kliknąć przyciski, wpisywać pola, skrapać dane i ogólnie sterować aplikacjami lub stronami internetowymi jak człowiek.


3. Voice

Jeśli twój agent potrzebuje mówić lub słuchać, narzędzia te obsługują stronę dźwiękową – przekształcając mowę w tekst i z powrotem.


4. Document Understanding

Wiele rzeczywistych danych żyje w plikach PDF, skanerach lub innych bałaganowych formatach. Te narzędzia pomagają agentowi rzeczywiście odczytać i zrozumieć tę zawartość - czy to faktury, kontrakty, czy pliki oparte na obrazach.


5. Memory

Aby przejść poza zadania jednorazowe, agent potrzebuje pamięci.Te biblioteki pomagają mu zapamiętać, co się właśnie wydarzyło, co powiedziałeś mu wcześniej, a nawet zbudować długoterminowy profil w czasie.


6. Testing and Evaluation

Te narzędzia pomagają złapać błędy, zanim trafią do produkcji – uruchamiając scenariusze, symulując interakcje i sprawdzając, czy zachowanie agenta ma sens.


7. Monitoring and Observability

Gdy twój agent jest na żywo, musisz wiedzieć, co robi i jak dobrze działa.Te narzędzia pomagają śledzić użycie, problemy z debugowaniem i zrozumieć wpływ kosztów lub opóźnienia.


8. Simulation

Przed wyrzuceniem swojego agenta do dzikiej przyrody, przetestuj go w bezpiecznym, piaskowniczym świecie.Simulowane środowiska pozwalają na eksperymenty, wyrafinowanie logiki decyzji i znalezienie przypadków krawędzi w kontrolowanym ustawieniu.


9. Vertical Agents

Nie wszystko musi być zbudowane od zera. Są to gotowe agenty zaprojektowane do określonych zadań, takich jak kodowanie, badania lub obsługa klienta.




Ramy dla agentów budowlanych i orkiestrowanych

Aby zbudować agentów, którzy rzeczywiście robią rzeczy, potrzebujesz solidnej podstawy – czegoś, co poradzi sobie z przepływami pracy, pamięcią i integracją narzędzi, nie stając się bałaganem skryptów.


  • CrewAI – orkiestracja wielu agentów współpracujących ze sobą, idealna do zadań wymagających koordynacji i zachowań opartych na rolach.
  • Phidata – koncentruje się na pamięci, użyciu narzędzi i długotrwałych interakcjach. Doskonały dla asystentów, którzy muszą pamiętać i dostosowywać się.
  • Camel — Zaprojektowany do współpracy z wieloma agentami, symulacji i specjalizacji zadań.
  • AutoGPT — Automatyzuje złożone przepływy pracy z obwodu planowania i wykonywania. Najlepsze dla agentów, które muszą działać niezależnie.
  • AutoGen – pozwala agentom komunikować się ze sobą w celu rozwiązania złożonych problemów.
  • SuperAGI — Streamlined setup do szybkiego budowania i wysyłania autonomicznych agentów.
  • Superagent – elastyczny zestaw narzędzi open source do tworzenia niestandardowych asystentów AI.
  • LangChain & LlamaIndex – narzędzia do zarządzania pamięcią, odzyskiwaniem i łańcuchami narzędzi.
załogaPiSKameleonAutoGPTAutoGenSuperczasySuperagentkaŁańcuchŁukaszIndex


Korzystanie z komputera i przeglądarki

Gdy twój agent może myśleć, następnym krokiem jest pomóc mudoOznacza to interakcję z komputerami i siecią tak, jak człowiek – klikając przyciski, wypełniając formularze, nawigując stronami i uruchamiając polecenia.


  • Open Interpreter — Tłumaczy język naturalny na kod wykonywalny na komputerze.Chcesz przenieść pliki lub uruchomić skrypt?
  • Samodzielna obsługa komputera – daje agentom pełną kontrolę nad środowiskiem pulpitu, pozwalając im na interakcję z systemem operacyjnym, jakby to zrobiła osoba.
  • Agent-S – elastyczne ramy, które pozwalają agentom sztucznej inteligencji korzystać z aplikacji, narzędzi i interfejsów jak prawdziwy użytkownik.
  • LaVague — umożliwia agentom sieci Web nawigację po stronach, wypełnianie formularzy i podejmowanie decyzji w czasie rzeczywistym — idealny do automatyzacji zadań przeglądarki.
  • Playwright — Automatyzuje działania internetowe w przeglądarkach. Handy do testowania lub symulacji przepływów użytkowników.
  • Puppeteer — Niezawodne narzędzie do sterowania Chrome lub Firefox. Świetny do skrapienia i automatyzacji zachowania front-end.
Otwarty tłumaczSamodzielnie działający komputerAgentówŁabędźPlaywrightlalki


3 Głos

Głos jest jednym z najbardziej intuicyjnych sposobów interakcji ludzi z agentami AI. Te narzędzia obsługują rozpoznawanie mowy, syntezę głosu i interakcje w czasie rzeczywistym - dzięki czemu agent czuje się trochę bardziej ludzki.


Speech2speech

  • Ultravox – model mowy do mowy najwyższej klasy, który bezproblemowo obsługuje rozmowy głosowe w czasie rzeczywistym.
  • Moshi — Inna mocna opcja dla zadań mowy do mowy. Niezawodne dla interakcji głosowej na żywo, chociaż Ultravox ma przewagę nad wydajnością.
  • Pipecat — pełnowymiarowy framework do tworzenia agentów umożliwiających głos.Obejmuje wsparcie dla interakcji głosowo-tekstowych, tekstowo-głosowych, a nawet wideo.
UltradźwiękiMojżeszPigułka


Speech2text

  • Whisper – model mowy do tekstu OpenAI – świetnie nadaje się do transkrypcji i rozpoznawania mowy w wielu językach.
  • Stable-ts — bardziej przyjazna dla programistów wtyczka wokół Whisper. Dodaje znaczniki czasowe i wsparcie w czasie rzeczywistym, dzięki czemu jest świetna dla agentów konwersacyjnych.
  • Diaryzacja głośników 3.1 — model Pyannote do wykrywania, kto mówi, kiedy.
SzeptystabilizacjaDiaryzacja głośnika 3.1


Text2speech

  • ChatTTS — Najlepszy model, jaki znalazłem do tej pory. Jest szybki, stabilny i gotowy do produkcji dla większości przypadków użycia.
  • ElevenLabs (komercyjne) – Kiedy jakość jest ważniejsza niż open source, jest to rozwiązanie, które zapewnia bardzo naturalne dźwięki i obsługuje wiele stylów.
  • Cartesia (komercyjna) – Inna silna opcja komercyjna, jeśli szukasz ekspresyjnej syntezy głosowej o wysokiej wierności, która wykracza poza to, co mogą zaoferować otwarte modele.
czatyElefantówKartonówka


Miscellaneous Tools

Nie pasują one idealnie do jednej kategorii, ale są bardzo przydatne przy budowie lub wyrafinowaniu agentów zdolnych do głosowania.

  • Vocode — zestaw narzędzi do budowania głosowych agentów LLM. Ułatwia łączenie wejścia/wyjścia mowy z modelami językowymi.
  • Voice Lab — ramy do testowania i oceny agentów głosowych, przydatne do dzwonienia w ustawieniach odpowiedniego prompt, voice persona lub model.
WokółLaboratorium głosowe

Rozumienie dokumentów

Większość przydatnych danych biznesowych nadal żyje w niestrukturyzowanych formatach – plikach PDF, skanerach, raportach opartych na obrazach. Te narzędzia pomagają agentowi odczytywać, wyodrębniać i rozumieć ten bałagan, bez potrzeby kruchych rurociągów OCR.


  • Qwen2-VL — potężny model języka wizji od Alibaba. Przewyższa GPT-4 i Claude 3.5 Sonnet na zadaniach dokumentów, które łączą obrazy i tekst — świetnie nadaje się do obsługi złożonych, rzeczywistych formatów.
  • DocOwl2 – lekki model multimodalny zaprojektowany z myślą o zrozumieniu dokumentów bez OCR. Szybki, wydajny i zaskakująco precyzyjny do wyodrębniania struktury i znaczenia z bałaganowych wejść.
Włocławek2Włocławek2


5 Pamięć

Bez pamięci agenci są uwięzieni w pętli – traktują każdą interakcję jak pierwszą. Te narzędzia dają im możliwość zapamiętywania minionych konwersacji, śledzenia preferencji i budowania ciągłości.


  • Mem0 – samodzielnie ulepszająca się warstwa pamięci, która pozwala agentowi dostosować się do wcześniejszych interakcji.
  • Letta (dawniej MemGPT) – dodaje długoterminową pamięć i narzędzia do zastosowań agentów LLM. Myśl o tym jako o schowku dla agentów, którzy muszą pamiętać, rozumieć i ewoluować.
  • LangChain — Zawiera komponenty pamięci plug-and-play do śledzenia historii konwersacji i kontekstu użytkownika — przydatne przy budowaniu agentów, które muszą pozostać uziemione w wielu zakrętach.
Mem0Letta (dawniej MemGPT)Łańcuch


6. testowanie i ocena

Ponieważ Twoi agenci zaczynają robić więcej niż tylko rozmawiać - poruszając się po stronach internetowych, podejmując decyzje, mówiąc głośno - musisz wiedzieć, jak będą radzić sobie z przypadkami marginesu.


  • eeVoice Lab — kompleksowe narzędzie do testowania agentów głosowych, zapewniające dokładne i naturalne rozpoznawanie mowy i odpowiedzi agentów.
  • AgentOps – zestaw narzędzi do śledzenia i porównywania agentów sztucznej inteligencji, pomagając w identyfikacji wszelkich problemów i optymalizacji wydajności, zanim wpłyną one na użytkowników.
  • AgentBench – narzędzie referencyjne do oceny agentów LLM w różnych zadaniach i środowiskach, od przeglądania stron internetowych po gry, zapewniające wszechstronność i skuteczność.
Zespół EVOICE LABAgenciAgenci bench


7 Monitoring i obserwacja

Aby zapewnić, że agenci AI działają płynnie i wydajnie na skalę, potrzebujesz widoczności w zakresie ich wydajności i wykorzystania zasobów. Te narzędzia zapewniają niezbędne informacje, umożliwiające monitorowanie zachowania agentów, optymalizację zasobów i złapanie problemów, zanim wpłyną na użytkowników.


  • openllmetry — zapewnia obserwację od końca do końca dla aplikacji LLM za pomocą OpenTelemetry, dając Ci jasny obraz wydajności agenta i pomagając szybko rozwiązywać problemy i optymalizować.
  • AgentOps – kompleksowe narzędzie monitorujące, które śledzi wydajność agentów, koszty i benchmarking, pomagając upewnić się, że agenci są efektywni i w ramach budżetu.
OtwartośćAgenci


8. symulacja

Te narzędzia pozwalają na tworzenie kontrolowanych, wirtualnych przestrzeni, w których Twoi agenci mogą wchodzić w interakcje, uczyć się i podejmować decyzje bez ryzyka niezamierzonych konsekwencji w środowiskach na żywo.


  • AgentVerse - Wspiera wdrażanie wielu agentów opartych na LLM w różnych aplikacjach i symulacjach, zapewniając skuteczne działanie w różnych środowiskach.
  • Tau-Bench – narzędzie porównawcze, które ocenia interakcje agent-użytkownik w określonych branżach, takich jak sprzedaż detaliczna lub linie lotnicze, zapewniając płynne zarządzanie zadaniami specyficznymi dla danej domeny.
  • ChatArena – wielojęzyczne środowisko gry, w którym agenci współpracują, idealne do studiowania zachowań agentów i doskonalenia wzorców komunikacji w bezpiecznej, kontrolowanej przestrzeni.
  • AI Town – wirtualne środowisko, w którym postacie AI współdziałają społecznie, testują podejmowanie decyzji i symulują scenariusze w świecie rzeczywistym, pomagając dopasować zachowanie agentów.
  • Projekt Stanforda skupił się na tworzeniu ludzkich agentów, które symulują złożone zachowania, idealne do testowania pamięci i podejmowania decyzji w kontekście społecznym.
agentówTytuł BenchChatArenaA miastoAgenci generatorzy


9. agenci pionowi

Agenci pionowi to wyspecjalizowane narzędzia przeznaczone do rozwiązywania określonych problemów lub optymalizacji zadań w określonych branżach. Podczas gdy istnieje rosnący ekosystem tych, oto kilka, które osobiście użyłem i znalazłem szczególnie przydatne:


Coding:

  • OpenHands – platforma dla agentów rozwoju oprogramowania zasilanych przez sztuczną inteligencję, zaprojektowana w celu zautomatyzowania zadań kodowania i przyspieszenia procesu rozwoju.
  • aider – narzędzie do programowania pary, które integruje się bezpośrednio z twoim terminalem, oferując współpilota sztucznej inteligencji, aby pomóc w Twoim środowisku kodowania.
  • GPT Engineer — buduj aplikacje za pomocą naturalnego języka; po prostu opisz, co chcesz, a AI wyjaśni i wygenerować niezbędny kod.
  • zrzut ekranu na kod — Konwertuje zrzuty ekranu na w pełni funkcjonalne strony internetowe za pomocą HTML, Tailwind, React lub Vue, świetnie nadaje się do szybkiego przekształcania pomysłów projektowych w kody na żywo.
Otwarte ręcePomócInżynier GPTZrzut ekranu do kodu


Research:

  • GPT Researcher – autonomiczny agent, który prowadzi kompleksowe badania, analizuje dane i pisze raporty, usprawniając proces badawczy.
Badacz GPT

SQL:

  • Vanna — interakcja z bazą danych SQL za pomocą zapytań w języku naturalnym; nie więcej skomplikowanych poleceń SQL, po prostu zadawaj pytania, a Vanna pobiera dane.
Wanna

konkluzji

Odzwierciedlając moje wczesne próby zbudowania asystenta badawczego, mogę zauważyć, że skomplikowałem rzeczy. Projekt okazał się bałaganem - przestarzały kod, półgotowane narzędzia i system, który zmagał się z czymś tak prostym jak PDF.


Ale paradoksalnie to właśnie tam nauczyłem się najbardziej.


Nie chodziło o znalezienie idealnego narzędzia, chodziło o przytrzymanie się do tego, co działa i utrzymanie go w prostocie.Ta porażka nauczyła mnie, że najbardziej niezawodni agenci są zbudowani z pragmatycznym, prostym stosem - nie przez ściganie każdego błyszczącego nowego narzędzia.


Pomyślny rozwój agenta nie wymaga ponownego wynalezienia koła.


Chodzi o wybór odpowiednich narzędzi do pracy, przemyślaną integrację i udoskonalanie prototypów. Niezależnie od tego, czy automatyzujesz przepływy pracy, budujesz agenty głosowe, czy analizujesz dokumenty, dobrze dobrany stos może sprawić, że proces będzie płynniejszy i bardziej wydajny.


Więc zacznij, eksperymentuj i pozwól, aby ciekawość Cię poprowadziła.

Chcesz od nas częściej słyszeć?

Skontaktuj się ze mną na LinkedIn!

Skontaktuj się z nami na LinkedInŻe !Skontaktuj się z nami na LinkedIn


Podzielę sięCodzienniewgląd, wskazówki i aktualizacje, które pomogą Ci uniknąć kosztownych błędów i wyprzedzić świat sztucznej inteligencji.

Jesteś profesjonalistą technologicznym, który chce rozwijać swoją publiczność poprzez pisanie?

Nie przegap naszego newslettera!


MójAkcelerator audycji technicznejjest pełen praktycznych strategii copywritingu i budowania odbiorców, które pomogły setkom profesjonalistów wyróżniać się i przyspieszyć ich rozwój.

Akcelerator audycji technicznej

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks