Спомням си, че седя един уикенд, убеден, че най-накрая ще изградя приличен прототип на помощник-изследователски агент. Нищо фантастично - просто нещо, което може да прочете PDF, да извлече ключова информация, може би да отговори на няколко последващи въпроси.
Вместо това прекарах по-добрата част от два дни скачайки между полудокументирани repos, мъртви проблеми на GitHub и неясни публикации в блога. Един инструмент изглеждаше обещаващ, докато не осъзнах, че не е бил актуализиран за осем месеца.
Но това, което ме задържа, не беше разочарование – това беше любопитство.Какви са инструментите, които реалните строители използват?Не тези, които се появяват на блестящи VC карти, но тези, които инсталирате тихо, задръжте в стека си и се кълнете.
Това търсене ме доведе до изненадващо солиден набор от библиотеки с отворен код - инструменти, които са леки, надеждни и изградени с разработчиците в ума.
Така че, ако се опитвате да накарате агентите да работят, това е за вас.
So, you’re ready to build AI agents?
Готови ли сте да изградите AI агенти?Страхотно е
Може да питате:
- на
- Какво използват хората за изграждане на гласови агенти? на
- Кой е най-добрият инструмент с отворен код за анализ на документи? на
- Как да дам паметта на агента си, без да свързвам вектор DB с всичко? на
Това ръководство не се опитва да покрие всичко там - и това е умишлено.Това е куриран списък с инструменти, които съм използвал, пазех в купчината си и се върнах при изграждането на истински прототипи на агенти.Не тези, които изглеждаха готини в демонстрация или се появиха във всяка хип нишка, но тези, които ми помогнаха да се преместя от "идея" на "работещо нещо" без да се загубя.
Ето и списъка, разделен на категории:
- на
- Рамки за строителни и оркестриращи агенти на
Тези инструменти ви помагат да структурирате логиката на вашия агент – какво да правите, кога да го правите и как да се справяте с инструментите.
2. Computer and Browser Use
Тази категория включва инструменти, които позволяват на вашия агент да кликнете върху бутони, да въвеждате полета, да изтривате данни и като цяло да контролирате приложения или уебсайтове като човек.
3. Voice
Ако вашият агент трябва да говори или да слуша, тези инструменти се справят с аудиостраницата – превръщайки речта в текст и обратно.Полезни за случаи на безръчно използване или гласови агенти.Някои дори са достатъчно добри за разговори в реално време.
4. Document Understanding
Много данни от реалния свят живеят в PDF файлове, сканирания или други объркващи формати.Тези инструменти помагат на вашия агент да чете и разбира това съдържание – независимо дали става дума за фактури, договори или файлове, базирани на изображения.
5. Memory
Тези библиотеки му помагат да си спомни какво точно се е случило, какво сте му казали преди, или дори да изгради дългосрочен профил с течение на времето.
6. Testing and Evaluation
Тези инструменти ви помагат да уловите грешките, преди да ударят производството – като изпълнявате сценарии, симулирате взаимодействия и проверявате дали поведението на агента има смисъл.
7. Monitoring and Observability
След като вашият агент е жив, трябва да знаете какво прави и колко добре работи.Тези инструменти ви помагат да проследявате използването, проблемите с дебюта и да разбирате въздействието на разходите или закъснението.
8. Simulation
Преди да хвърлите агента си в дивата природа, тествайте го в безопасен, пясъчен свят.Симулирани среди ви позволяват да експериментирате, да усъвършенствате логиката на вземането на решения и да намерите крайни случаи в контролирана среда.
9. Vertical Agents
Това са готови агенти, създадени за конкретни задачи – като кодиране, научни изследвания или поддръжка на клиенти.
1. рамки за строителни и оркестриращи агенти
За да изградите агенти, които действително правят нещата, имате нужда от солидна основа – нещо, което да се справя с работните потоци, паметта и интегрирането на инструменти, без да се превръща в бъркотия на скриптове.
- на
- CrewAI – оркестрира множество агенти, работещи заедно, идеални за задачи, които изискват координация и поведение, основано на роли. на
- Phidata – Фокусира се върху паметта, използването на инструменти и дългосрочните взаимодействия. на
- Camel - предназначен за мулти-агентно сътрудничество, симулация и специализация на задачите. на
- AutoGPT - Автоматизира сложни работни потоци с цикъл на планиране и изпълнение. Най-добре за агенти, които трябва да работят самостоятелно. на
- AutoGen – позволява на агентите да общуват помежду си, за да решат сложни проблеми. на
- SuperAGI - Настройка за бързо изграждане и изпращане на автономни агенти. на
- Superagent – гъвкав инструмент с отворен код за създаване на персонализирани AI асистенти. на
- LangChain & LlamaIndex — инструментите за управление на паметта, извличането и веригите инструменти. на
Използване на компютър и браузър
След като вашият агент може да мисли, следващата стъпка е да му помогнетедаТова означава да взаимодействате с компютрите и мрежата по начина, по който човек би направил – да кликвате върху бутони, да попълвате формуляри, да навигирате на страници и да изпълнявате команди.Тези инструменти преодоляват пропастта между разсъжденията и действията, като позволяват на вашия агент да работи в реалния свят.
- на
- Open Interpreter — Превежда естествен език в изпълним код на вашата машина.Искате да преместите файлове или да изпълните скрипт?Просто го опишете. на
- Самоуправляващ се компютър – дава на агентите пълен контрол над вашата работна среда, което им позволява да взаимодействат с вашата операционна система, както би направил човек. на
- Agent-S – гъвкава рамка, която позволява на AI агентите да използват приложения, инструменти и интерфейси като истински потребител. на
- LaVague - Позволява на уеб агентите да навигират в сайтове, да попълват формуляри и да вземат решения в реално време - идеален за автоматизиране на задачи в браузъра. на
- Playwright — Автоматизира уеб действия в браузърите. удобен за тестване или симулиране на потребителски потоци. на
- Puppeteer — надежден инструмент за контрол на Chrome или Firefox. Отлично за изстъргване и автоматизиране на поведението на предния край. на
3 Гласът
Гласът е един от най-интуитивните начини хората да си взаимодействат с агенти на ИИ. Тези инструменти се справят с разпознаването на речта, синтеза на глас и взаимодействията в реално време - което прави вашия агент да се чувства малко по-човечен.
Speech2speech
- на
- Ultravox – Модел от най-високо ниво, който обработва гласови разговори в реално време безпроблемно. на
- Moshi – Друг мощен вариант за задачи от реч до реч.Надеждна за гласово взаимодействие на живо, въпреки че Ultravox има предимство по отношение на производителността. на
- Pipecat — Пълен набор от рамки за изграждане на гласови агенти.Включва поддръжка за говорно-текстови, текстово-говорни и дори видео-базирани взаимодействия. на
Speech2text
- на
- Whisper – моделът от реч към текст на OpenAI – е чудесен за транскрипция и разпознаване на речта в множество езици. на
- Stable-ts — По-приятелски за разработчиците опаковка около Whisper. Добавя времеви отпечатъци и поддръжка в реално време, което го прави чудесен за разговори агенти. на
- Диаризация на високоговорителите 3.1 — модел на Pyannote за откриване на кой говори, когато. на
Text2speech
- на
- ChatTTS – Най-добрият модел, който съм намерил досега.Той е бърз, стабилен и готов за производство за повечето случаи на употреба. на
- ElevenLabs (Commercial) – Когато качеството е по-важно от отворения код, това е идеалният вариант. на
- Cartesia (Commercial) – Друг силен търговски вариант, ако търсите изразителен, високоточен гласов синтез, който надхвърля това, което могат да предложат отворените модели. на
Miscellaneous Tools
Те не се вписват перфектно в една категория, но са много полезни при изграждането или усъвършенстването на агенти, способни на глас.
- на
- Vocode – инструмент за изграждане на гласови LLM агенти. Позволява лесно свързване на гласов вход/изход с езикови модели. на
- Voice Lab – рамка за тестване и оценка на гласовите агенти.Полезен за обаждане в правилната поща, гласова личност или настройка на модел. на
Разбиране на документа
Повечето полезни бизнес данни все още живеят в неструктурирани формати – PDF файлове, сканиране, отчети, базирани на изображения. Тези инструменти помагат на вашия агент да чете, извлича и прави смисъл на тази бъркотия, без да се нуждае от чупливи OCR тръбопроводи.
- на
- Qwen2-VL — Мощен модел за визуален език от Alibaba. Превъзхожда GPT-4 и Claude 3.5 Sonnet за документи, които смесват изображения и текст — чудесно за справяне със сложни, реални формати. на
- DocOwl2 — Лесен мултимодален модел, създаден за разбиране на документи без OCR. Бърз, ефективен и изненадващо точен за извличане на структура и смисъл от объркани входове. на
5 Паметта
Без памет, агентите се забиват в една верига – третират всяко взаимодействие като първото. Тези инструменти им дават възможност да си спомнят минали разговори, да проследяват предпочитанията и да изграждат непрекъснатост.
- на
- Mem0 – Самоусъвършенстващ се слой памет, който позволява на вашия агент да се адаптира към предишни взаимодействия. на
- Letta (по-рано MemGPT) - Добавя дългосрочна памет и използване на инструменти към агентите на LLM. Мислете за това като поддръжка за агенти, които трябва да помнят, да разсъждават и да се развиват. на
- LangChain – Включва plug-and-play компоненти за памет за проследяване на историята на разговорите и потребителския контекст – полезни при изграждането на агенти, които трябва да останат заземявани през няколко завъртания. на
6. тестване и оценка
Тъй като вашите агенти започват да правят повече от просто чат - навигация в уеб страници, вземане на решения, говорене на глас - трябва да знаете как те ще се справят с крайни случаи.Тези инструменти ви помагат да тествате как вашите агенти се държат в различни ситуации, улавят грешки рано и проследяват къде нещата се разпадат.
- на
- eeVoice Lab – цялостна рамка за тестване на гласовите агенти, за да се гарантира, че разпознаването на речта и отговорите на вашия агент са точни и естествени. на
- AgentOps – Набор от инструменти за проследяване и сравняване на AI агенти, които ви помагат да откривате проблеми и да оптимизирате производителността, преди да повлияят на потребителите. на
- AgentBench - референтен инструмент за оценка на агентите на LLM в различни задачи и среди, от сърфиране в мрежата до игри, осигуряване на гъвкавост и ефективност. на
7.Проследяване и наблюдение
За да сте сигурни, че вашите агенти на ИИ работят гладко и ефективно в мащаб, имате нужда от видимост в тяхната производителност и използване на ресурсите.Тези инструменти предоставят необходимите прозрения, което ви позволява да наблюдавате поведението на агентите, да оптимизирате ресурсите и да улавяте проблемите, преди да повлияят на потребителите.
- на
- openllmetry — Осигурява крайно наблюдение за приложения за LLM, използващи OpenTelemetry, като ви дава ясна представа за ефективността на агента и ви помага бързо да отстранявате проблеми и да оптимизирате. на
- AgentOps – цялостен инструмент за мониторинг, който проследява ефективността на агентите, разходите и сравнителните оценки, като ви помага да сте сигурни, че вашите агенти са ефективни и в рамките на бюджета. на
8. симулация
Тези инструменти ви позволяват да създавате контролирани, виртуални пространства, където вашите агенти могат да взаимодействат, да учат и да вземат решения без риск от непредвидени последици в живите среди.
- на
- AgentVerse - Поддържа разгръщането на множество агенти на базата на LLM в различни приложения и симулации, осигурявайки ефективно функциониране в различни среди. на
- Tau-Bench – инструмент за сравняване, който оценява взаимодействията агент-потребител в специфични индустрии като търговия на дребно или авиокомпании, като осигурява гладко управление на специфични за домейна задачи. на
- ChatArena – мулти-агентна езикова игрална среда, в която агентите си взаимодействат, идеална за изучаване на поведението на агентите и усъвършенстване на комуникационните модели в безопасно, контролирано пространство. на
- AI Town – виртуална среда, в която героите на AI взаимодействат социално, тестват вземането на решения и симулират реални сценарии, помагайки за финиширане на поведението на агентите. на
- Генеративни агенти – проект на Станфорд, фокусиран върху създаването на човешки агенти, които симулират сложни поведения, идеални за тестване на паметта и вземането на решения в социални контексти. на
Вертикални агенти
Вертикалните агенти са специализирани инструменти, предназначени за решаване на конкретни проблеми или оптимизиране на задачи в определени отрасли.Въпреки че има нарастваща екосистема от тези, тук са няколко, които аз лично използвах и намерих особено полезни:
Coding:
- на
- OpenHands - Платформа за агенти за разработка на софтуер, задвижвана от AI, предназначена за автоматизиране на задачите за кодиране и ускоряване на процеса на разработка. на
- aider - инструмент за двойно програмиране, който се интегрира директно с вашия терминал, предлагайки AI копилот, за да ви помогне правилно в вашата среда за кодиране. на
- GPT Engineer – Изградете приложения с помощта на естествен език; просто опишете какво искате и AI ще изясни и генерира необходимия код. на
- Screenshot-to-code - Преобразува екранни снимки в напълно функционални уеб сайтове с HTML, Tailwind, React или Vue, чудесно за бързо превръщане на дизайнерски идеи в жива кода. на
Research:
- на
- GPT Researcher – автономен агент, който провежда изчерпателни изследвания, анализира данни и пише доклади, рационализирайки изследователския процес. на
SQL:
- на
- Vanna — взаимодействайте с вашата SQL база данни, като използвате естествени езикови заявки; няма повече сложни SQL команди, просто задавайте въпроси и Vanna извлича данните. на
Заключението
Размишлявайки върху моите ранни опити за изграждане на изследователски асистент, мога да видя, че усложнявах нещата.Проектът се оказа хаос - остарял код, полу-печени инструменти и система, която се бореше с нещо толкова просто като PDF.
Но, парадоксално, това е мястото, където научих най-много.
Това не беше за намирането на перфектния инструмент; това беше за придържане към това, което работи и го поддържа просто.Този провал ме научи, че най-надеждните агенти се изграждат с прагматичен, прост стак - не чрез преследване на всеки блестящ нов инструмент.
Успешното разработване на агенти не изисква преоткриване на колелото.
Става въпрос за избора на правилните инструменти за работата, интегрирането им внимателно и усъвършенстването на вашите прототипи.Независимо дали автоматизирате работните потоци, изграждате гласови агенти или анализирате документи, добре подбраният куп може да направи процеса по-гладък и по-ефективен.
Така че, започнете, експериментирайте и оставете любопитството да ви води.
Искате ли да чувате от мен по-често?
Свържете се с мен в LinkedIn!
Свържете се с мен в LinkedIn! наСвържете се с мен в LinkedIn
Споделямежедневиетодействащи прозрения, съвети и актуализации, за да ви помогнат да избегнете скъпи грешки и да останете на преден план в света на AI.
Вие сте технологичен професионалист, който иска да увеличи аудиторията си чрез писане?
Не пропускайте нашия бюлетин!
МоятаТехнически ускорител за аудиторияе изпълнен с действащи стратегии за авторско писане и изграждане на аудитория, които са помогнали на стотици професионалисти да се откроят и да ускорят растежа си.
Технически ускорител за аудитория