Pamiętam, że usiadłem w jeden weekend, przekonany, że w końcu zbuduję przyzwoity prototyp agenta asystenta badawczego. nic fantazyjnego - tylko coś, co mogłoby przeczytać PDF, wyodrębnić kluczowe informacje, być może odpowiedzieć na kilka pytań.
Zamiast tego spędziłem lepszą część dwóch dni skacząc między półdokumentowanym repos, martwymi problemami GitHub i niejasnymi postami na blogu. Jedno narzędzie wyglądało obiecująco, dopóki nie zdałem sobie sprawy, że nie zostało ono zaktualizowane w ciągu ośmiu miesięcy.
Ale to, co mnie powstrzymało, nie było frustracją – to była ciekawość.Jakie narzędzia używają prawdziwi budowniczowie?Nie te, które pojawiają się na błyszczących mapach VC, ale te, które zainstalujesz cicho, trzymaj w swoim stosie i przysięgaj.
To poszukiwanie doprowadziło mnie do zaskakująco solidnego zestawu bibliotek open-source – narzędzi, które są lekkie, niezawodne i zbudowane z myślą o programistach.
Więc jeśli jesteś w trenkach, próbując sprawić, by agenci rzeczywiście pracowali, ten jest dla Ciebie.
So, you’re ready to build AI agents?
Czy jesteś gotowy, aby zbudować agentów AI?To niesamowite.
Możesz zapytać:
- Co ludzie używają do tworzenia agentów głosowych?
- Jakie jest najlepsze narzędzie open source do analizowania dokumentów?
- Jak mogę przekazać pamięć agenta bez przenoszenia wektorowego DB do wszystkiego?
Ten przewodnik nie próbuje obejmować wszystkiego tam - i to jest celowe. Jest to kuratorska lista narzędzi, które rzeczywiście używałem, przechowywałem w moim stosie i wróciłem do budowania prawdziwych prototypów agentów. Nie te, które wyglądały fajnie w demonstracji lub pojawiły się w każdym pasku hype, ale te, które pomogły mi przejść od „idei” do „rzeczy roboczej” bez utraty.
Oto zestaw, podzielony na kategorie:
- Ramy dla agentów budowlanych i orkiestracji
Zacznij tutaj, jeśli budujesz od podstaw. Te narzędzia pomagają ci skonstruować logikę swojego agenta – co robić, kiedy to robić i jak obsługiwać narzędzia.
2. Computer and Browser Use
Ta kategoria obejmuje narzędzia, które pozwalają agentowi kliknąć przyciski, wpisywać pola, skrapać dane i ogólnie sterować aplikacjami lub stronami internetowymi jak człowiek.
3. Voice
Jeśli twój agent potrzebuje mówić lub słuchać, narzędzia te obsługują stronę dźwiękową – przekształcając mowę w tekst i z powrotem.
4. Document Understanding
Wiele rzeczywistych danych żyje w plikach PDF, skanerach lub innych bałaganowych formatach. Te narzędzia pomagają agentowi rzeczywiście odczytać i zrozumieć tę zawartość - czy to faktury, kontrakty, czy pliki oparte na obrazach.
5. Memory
Aby przejść poza zadania jednorazowe, agent potrzebuje pamięci.Te biblioteki pomagają mu zapamiętać, co się właśnie wydarzyło, co powiedziałeś mu wcześniej, a nawet zbudować długoterminowy profil w czasie.
6. Testing and Evaluation
Te narzędzia pomagają złapać błędy, zanim trafią do produkcji – uruchamiając scenariusze, symulując interakcje i sprawdzając, czy zachowanie agenta ma sens.
7. Monitoring and Observability
Gdy twój agent jest na żywo, musisz wiedzieć, co robi i jak dobrze działa.Te narzędzia pomagają śledzić użycie, problemy z debugowaniem i zrozumieć wpływ kosztów lub opóźnienia.
8. Simulation
Przed wyrzuceniem swojego agenta do dzikiej przyrody, przetestuj go w bezpiecznym, piaskowniczym świecie.Simulowane środowiska pozwalają na eksperymenty, wyrafinowanie logiki decyzji i znalezienie przypadków krawędzi w kontrolowanym ustawieniu.
9. Vertical Agents
Nie wszystko musi być zbudowane od zera. Są to gotowe agenty zaprojektowane do określonych zadań, takich jak kodowanie, badania lub obsługa klienta.
Ramy dla agentów budowlanych i orkiestrowanych
Aby zbudować agentów, którzy rzeczywiście robią rzeczy, potrzebujesz solidnej podstawy – czegoś, co poradzi sobie z przepływami pracy, pamięcią i integracją narzędzi, nie stając się bałaganem skryptów.
- CrewAI – orkiestracja wielu agentów współpracujących ze sobą, idealna do zadań wymagających koordynacji i zachowań opartych na rolach.
- Phidata – koncentruje się na pamięci, użyciu narzędzi i długotrwałych interakcjach. Doskonały dla asystentów, którzy muszą pamiętać i dostosowywać się.
- Camel — Zaprojektowany do współpracy z wieloma agentami, symulacji i specjalizacji zadań.
- AutoGPT — Automatyzuje złożone przepływy pracy z obwodu planowania i wykonywania. Najlepsze dla agentów, które muszą działać niezależnie.
- AutoGen – pozwala agentom komunikować się ze sobą w celu rozwiązania złożonych problemów.
- SuperAGI — Streamlined setup do szybkiego budowania i wysyłania autonomicznych agentów.
- Superagent – elastyczny zestaw narzędzi open source do tworzenia niestandardowych asystentów AI.
- LangChain & LlamaIndex – narzędzia do zarządzania pamięcią, odzyskiwaniem i łańcuchami narzędzi.
Korzystanie z komputera i przeglądarki
Gdy twój agent może myśleć, następnym krokiem jest pomóc mudoOznacza to interakcję z komputerami i siecią tak, jak człowiek – klikając przyciski, wypełniając formularze, nawigując stronami i uruchamiając polecenia.
- Open Interpreter — Tłumaczy język naturalny na kod wykonywalny na komputerze.Chcesz przenieść pliki lub uruchomić skrypt?
- Samodzielna obsługa komputera – daje agentom pełną kontrolę nad środowiskiem pulpitu, pozwalając im na interakcję z systemem operacyjnym, jakby to zrobiła osoba.
- Agent-S – elastyczne ramy, które pozwalają agentom sztucznej inteligencji korzystać z aplikacji, narzędzi i interfejsów jak prawdziwy użytkownik.
- LaVague — umożliwia agentom sieci Web nawigację po stronach, wypełnianie formularzy i podejmowanie decyzji w czasie rzeczywistym — idealny do automatyzacji zadań przeglądarki.
- Playwright — Automatyzuje działania internetowe w przeglądarkach. Handy do testowania lub symulacji przepływów użytkowników.
- Puppeteer — Niezawodne narzędzie do sterowania Chrome lub Firefox. Świetny do skrapienia i automatyzacji zachowania front-end.
3 Głos
Głos jest jednym z najbardziej intuicyjnych sposobów interakcji ludzi z agentami AI. Te narzędzia obsługują rozpoznawanie mowy, syntezę głosu i interakcje w czasie rzeczywistym - dzięki czemu agent czuje się trochę bardziej ludzki.
Speech2speech
- Ultravox – model mowy do mowy najwyższej klasy, który bezproblemowo obsługuje rozmowy głosowe w czasie rzeczywistym.
- Moshi — Inna mocna opcja dla zadań mowy do mowy. Niezawodne dla interakcji głosowej na żywo, chociaż Ultravox ma przewagę nad wydajnością.
- Pipecat — pełnowymiarowy framework do tworzenia agentów umożliwiających głos.Obejmuje wsparcie dla interakcji głosowo-tekstowych, tekstowo-głosowych, a nawet wideo.
Speech2text
- Whisper – model mowy do tekstu OpenAI – świetnie nadaje się do transkrypcji i rozpoznawania mowy w wielu językach.
- Stable-ts — bardziej przyjazna dla programistów wtyczka wokół Whisper. Dodaje znaczniki czasowe i wsparcie w czasie rzeczywistym, dzięki czemu jest świetna dla agentów konwersacyjnych.
- Diaryzacja głośników 3.1 — model Pyannote do wykrywania, kto mówi, kiedy.
Text2speech
- ChatTTS — Najlepszy model, jaki znalazłem do tej pory. Jest szybki, stabilny i gotowy do produkcji dla większości przypadków użycia.
- ElevenLabs (komercyjne) – Kiedy jakość jest ważniejsza niż open source, jest to rozwiązanie, które zapewnia bardzo naturalne dźwięki i obsługuje wiele stylów.
- Cartesia (komercyjna) – Inna silna opcja komercyjna, jeśli szukasz ekspresyjnej syntezy głosowej o wysokiej wierności, która wykracza poza to, co mogą zaoferować otwarte modele.
Miscellaneous Tools
Nie pasują one idealnie do jednej kategorii, ale są bardzo przydatne przy budowie lub wyrafinowaniu agentów zdolnych do głosowania.
- Vocode — zestaw narzędzi do budowania głosowych agentów LLM. Ułatwia łączenie wejścia/wyjścia mowy z modelami językowymi.
- Voice Lab — ramy do testowania i oceny agentów głosowych, przydatne do dzwonienia w ustawieniach odpowiedniego prompt, voice persona lub model.
Rozumienie dokumentów
Większość przydatnych danych biznesowych nadal żyje w niestrukturyzowanych formatach – plikach PDF, skanerach, raportach opartych na obrazach. Te narzędzia pomagają agentowi odczytywać, wyodrębniać i rozumieć ten bałagan, bez potrzeby kruchych rurociągów OCR.
- Qwen2-VL — potężny model języka wizji od Alibaba. Przewyższa GPT-4 i Claude 3.5 Sonnet na zadaniach dokumentów, które łączą obrazy i tekst — świetnie nadaje się do obsługi złożonych, rzeczywistych formatów.
- DocOwl2 – lekki model multimodalny zaprojektowany z myślą o zrozumieniu dokumentów bez OCR. Szybki, wydajny i zaskakująco precyzyjny do wyodrębniania struktury i znaczenia z bałaganowych wejść.
5 Pamięć
Bez pamięci agenci są uwięzieni w pętli – traktują każdą interakcję jak pierwszą. Te narzędzia dają im możliwość zapamiętywania minionych konwersacji, śledzenia preferencji i budowania ciągłości.
- Mem0 – samodzielnie ulepszająca się warstwa pamięci, która pozwala agentowi dostosować się do wcześniejszych interakcji.
- Letta (dawniej MemGPT) – dodaje długoterminową pamięć i narzędzia do zastosowań agentów LLM. Myśl o tym jako o schowku dla agentów, którzy muszą pamiętać, rozumieć i ewoluować.
- LangChain — Zawiera komponenty pamięci plug-and-play do śledzenia historii konwersacji i kontekstu użytkownika — przydatne przy budowaniu agentów, które muszą pozostać uziemione w wielu zakrętach.
6. testowanie i ocena
Ponieważ Twoi agenci zaczynają robić więcej niż tylko rozmawiać - poruszając się po stronach internetowych, podejmując decyzje, mówiąc głośno - musisz wiedzieć, jak będą radzić sobie z przypadkami marginesu.
- eeVoice Lab — kompleksowe narzędzie do testowania agentów głosowych, zapewniające dokładne i naturalne rozpoznawanie mowy i odpowiedzi agentów.
- AgentOps – zestaw narzędzi do śledzenia i porównywania agentów sztucznej inteligencji, pomagając w identyfikacji wszelkich problemów i optymalizacji wydajności, zanim wpłyną one na użytkowników.
- AgentBench – narzędzie referencyjne do oceny agentów LLM w różnych zadaniach i środowiskach, od przeglądania stron internetowych po gry, zapewniające wszechstronność i skuteczność.
7 Monitoring i obserwacja
Aby zapewnić, że agenci AI działają płynnie i wydajnie na skalę, potrzebujesz widoczności w zakresie ich wydajności i wykorzystania zasobów. Te narzędzia zapewniają niezbędne informacje, umożliwiające monitorowanie zachowania agentów, optymalizację zasobów i złapanie problemów, zanim wpłyną na użytkowników.
- openllmetry — zapewnia obserwację od końca do końca dla aplikacji LLM za pomocą OpenTelemetry, dając Ci jasny obraz wydajności agenta i pomagając szybko rozwiązywać problemy i optymalizować.
- AgentOps – kompleksowe narzędzie monitorujące, które śledzi wydajność agentów, koszty i benchmarking, pomagając upewnić się, że agenci są efektywni i w ramach budżetu.
8. symulacja
Te narzędzia pozwalają na tworzenie kontrolowanych, wirtualnych przestrzeni, w których Twoi agenci mogą wchodzić w interakcje, uczyć się i podejmować decyzje bez ryzyka niezamierzonych konsekwencji w środowiskach na żywo.
- AgentVerse - Wspiera wdrażanie wielu agentów opartych na LLM w różnych aplikacjach i symulacjach, zapewniając skuteczne działanie w różnych środowiskach.
- Tau-Bench – narzędzie porównawcze, które ocenia interakcje agent-użytkownik w określonych branżach, takich jak sprzedaż detaliczna lub linie lotnicze, zapewniając płynne zarządzanie zadaniami specyficznymi dla danej domeny.
- ChatArena – wielojęzyczne środowisko gry, w którym agenci współpracują, idealne do studiowania zachowań agentów i doskonalenia wzorców komunikacji w bezpiecznej, kontrolowanej przestrzeni.
- AI Town – wirtualne środowisko, w którym postacie AI współdziałają społecznie, testują podejmowanie decyzji i symulują scenariusze w świecie rzeczywistym, pomagając dopasować zachowanie agentów.
- Projekt Stanforda skupił się na tworzeniu ludzkich agentów, które symulują złożone zachowania, idealne do testowania pamięci i podejmowania decyzji w kontekście społecznym.
9. agenci pionowi
Agenci pionowi to wyspecjalizowane narzędzia przeznaczone do rozwiązywania określonych problemów lub optymalizacji zadań w określonych branżach. Podczas gdy istnieje rosnący ekosystem tych, oto kilka, które osobiście użyłem i znalazłem szczególnie przydatne:
Coding:
- OpenHands – platforma dla agentów rozwoju oprogramowania zasilanych przez sztuczną inteligencję, zaprojektowana w celu zautomatyzowania zadań kodowania i przyspieszenia procesu rozwoju.
- aider – narzędzie do programowania pary, które integruje się bezpośrednio z twoim terminalem, oferując współpilota sztucznej inteligencji, aby pomóc w Twoim środowisku kodowania.
- GPT Engineer — buduj aplikacje za pomocą naturalnego języka; po prostu opisz, co chcesz, a AI wyjaśni i wygenerować niezbędny kod.
- zrzut ekranu na kod — Konwertuje zrzuty ekranu na w pełni funkcjonalne strony internetowe za pomocą HTML, Tailwind, React lub Vue, świetnie nadaje się do szybkiego przekształcania pomysłów projektowych w kody na żywo.
Research:
- GPT Researcher – autonomiczny agent, który prowadzi kompleksowe badania, analizuje dane i pisze raporty, usprawniając proces badawczy.
SQL:
- Vanna — interakcja z bazą danych SQL za pomocą zapytań w języku naturalnym; nie więcej skomplikowanych poleceń SQL, po prostu zadawaj pytania, a Vanna pobiera dane.
konkluzji
Odzwierciedlając moje wczesne próby zbudowania asystenta badawczego, mogę zauważyć, że skomplikowałem rzeczy. Projekt okazał się bałaganem - przestarzały kod, półgotowane narzędzia i system, który zmagał się z czymś tak prostym jak PDF.
Ale paradoksalnie to właśnie tam nauczyłem się najbardziej.
Nie chodziło o znalezienie idealnego narzędzia, chodziło o przytrzymanie się do tego, co działa i utrzymanie go w prostocie.Ta porażka nauczyła mnie, że najbardziej niezawodni agenci są zbudowani z pragmatycznym, prostym stosem - nie przez ściganie każdego błyszczącego nowego narzędzia.
Pomyślny rozwój agenta nie wymaga ponownego wynalezienia koła.
Chodzi o wybór odpowiednich narzędzi do pracy, przemyślaną integrację i udoskonalanie prototypów. Niezależnie od tego, czy automatyzujesz przepływy pracy, budujesz agenty głosowe, czy analizujesz dokumenty, dobrze dobrany stos może sprawić, że proces będzie płynniejszy i bardziej wydajny.
Więc zacznij, eksperymentuj i pozwól, aby ciekawość Cię poprowadziła.
Chcesz od nas częściej słyszeć?
Skontaktuj się ze mną na LinkedIn!
Skontaktuj się z nami na LinkedInŻe !Skontaktuj się z nami na LinkedIn
Podzielę sięCodzienniewgląd, wskazówki i aktualizacje, które pomogą Ci uniknąć kosztownych błędów i wyprzedzić świat sztucznej inteligencji.
Jesteś profesjonalistą technologicznym, który chce rozwijać swoją publiczność poprzez pisanie?
Nie przegap naszego newslettera!
MójAkcelerator audycji technicznejjest pełen praktycznych strategii copywritingu i budowania odbiorców, które pomogły setkom profesjonalistów wyróżniać się i przyspieszyć ich rozwój.
Akcelerator audycji technicznej