Agenti AI preberajú svet a znamenajú ďalší veľký krok vo vývoji AI 🦖. Takže, čo majú všetci títo agenti spoločné? Pri spracovaní obsahu na webových stránkach používajú Markdown namiesto surového HTML ⛓️. Zaujíma vás prečo?
Tento blogový príspevok vám ukáže, ako vám tento jednoduchý trik môže ušetriť až 99 % tokenov a peňazí!
Agenti AI a spracovanie údajov: Úvod
Agenti AI sú softvérové systémy, ktoré využívajú silu umelej inteligencie na plnenie úloh a dosahovanie cieľov v mene používateľov. Títo agenti, vybavení uvažovaním, plánovaním a pamäťou, môžu robiť rozhodnutia, učiť sa a prispôsobovať sa – a to všetko samostatne. 🤯
V posledných mesiacoch sa agenti AI rozbehli najmä vo svete automatizácie prehliadačov. Tieto prehliadače agentov AI vám umožňujú používať LLM na programové ovládanie prehliadačov, automatizáciu úloh, ako je pridávanie produktov do vášho košíka Amazon 🛒.
Zaujímalo vás niekedy, ktoré knižnice a rámce poháňajú agentov AI ako Crawl4AI , ScrapeGraphAI a LangChain ?
Pri spracovaní údajov z webových stránok tieto riešenia často konvertujú HTML na Markdown automaticky – alebo ponúkajú spôsoby, ako to urobiť – pred odoslaním údajov do LLM. Prečo však títo agenti AI uprednostňujú Markdown pred HTML? 🧐
Krátka odpoveď je: uložiť tokeny a urýchliť spracovanie! ⏩
Čas kopať hlbšie! Najprv sa však pozrime na ďalší populárny prístup, ktorý agenti AI používajú na zníženie zaťaženia dát. 👀
Od preťaženia dát k jasnosti: Prvý krok agentov AI
Predstavte si, že chcete, aby váš agent AI:
Pripojte sa k stránke elektronického obchodu (napr. Amazon)
Vyhľadajte produkt (napr. PlayStation 5)
Extrahujte údaje zo stránky konkrétneho produktu
To je bežný scenár pre agenta AI, keďže zoškrabovanie elektronického obchodu je divoká jazda 🎢. Koniec koncov, produktové stránky sú chaotickým zmätkom neustále sa meniacich rozložení, vďaka ktorým je programová analýza údajov nočnou morou. To je miesto, kde agenti AI otvárajú svoje superschopnosti 💪 a využívajú LLM na bezproblémovú extrakciu údajov – bez ohľadu na to, aká chaotická je štruktúra stránky!
Teraz povedzme, že ste na misii získať všetky šťavnaté detaily z produktovej stránky PlayStation 5 na Amazone 🎮:
Tu je návod, ako by ste svojmu prehliadaču AI agenta prikázali, aby sa to stalo:
Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format.
Toto by mal (dúfajme 🤞) urobiť agent AI:
Otvorte Amazon v prehliadači 🌍
Vyhľadajte „PlayStation 5“ 🔍
Identifikujte správny produkt 🎯
Extrahujte podrobnosti o produkte zo stránky a vráťte ich v JSON 📄
Ale tu je skutočná výzva - Krok 4 . Produktová stránka Amazon PlayStation 5 je zviera! HTML je nabité množstvom informácií, z ktorých väčšinu ani nepotrebujete.
Chcete dôkaz? Skopírujte úplný kód HTML stránky z DOM vášho prehliadača a vložte ho do nástroja, akým je napríklad nástroj LLM Token Calculator :
🚨 Pripravte sa...
896 871 tokenov?! 😱 Áno, čítate správne – osemstodeväťdesiatšesťtisíc, osemstosedemdesiatjeden strašných žetónov!
To je MASÍVNA hromada údajov – alias kopa peňazí! 💸 (Vyše 2 doláre na žiadosť na GPT-4o! 😬)
Ako si viete predstaviť, odovzdanie všetkých týchto údajov agentovi AI má veľké obmedzenia:
- Môže vyžadovať prémiové/profesionálne plány, ktoré podporujú vysoké využitie tokenov 💰
- Stojí to veľa peňazí – najmä ak máte časté otázky 🤑
- Spomaľuje reakcie, pretože AI musí spracovať smiešne množstvo informácií ⏳
Oprava: Znížte tuk
Väčšina agentov AI vám umožňuje zadať selektor CSS na extrahovanie iba relevantných častí webovej stránky. Iní používajú heuristické algoritmy na automatické filtrovanie obsahu – napríklad odstraňovanie hlavičiek a pätiek (ktoré zvyčajne nepridávajú žiadnu hodnotu). ✂️
Ak si napríklad prezriete produktovú stránku Amazonu PlayStation 5, všimnete si, že väčšina užitočného obsahu sa nachádza v prvku HTML, ktorý identifikuje #ppd
selektor CSS :
Čo keby ste teraz povedali svojmu agentovi AI, aby sa namiesto celej stránky zameral iba na prvok #ppd
? Bol by to rozdiel? 🤔
Poďme si to otestovať v priamom súboji nižšie! 🔥
Markdown vs HTML v spracovaní údajov AI: priame porovnanie
Porovnajte využitie tokenu pri priamom spracovaní časti webovej stránky s jej konverziou na Markdown.
HTML
Vo svojom prehliadači skopírujte HTML prvku #ppd
a vložte ho do nástroja LLM Token Calculator:
Z 896 871 tokenov na iba 309 951 – takmer 65 % úspora!
To je určite obrovský pokles, ale buďme skutoční – stále je to príliš veľa tokenov! 😵💸
Markdown
Teraz zopakujme trik, ktorý používajú agenti AI, pomocou online nástroja na konverziu HTML-to-Markdown. Najprv si však pamätajte, že agenti AI vykonávajú určité predbežné spracovanie na odstránenie obsahovo nepodstatných značiek, ako sú značky <style>
a <script>
.
Kód HTML cieľového prvku môžete filtrovať pomocou tohto jednoduchého skriptu v konzole prehliadača:
function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement);
Potom skopírujte vyčistený kód HTML a konvertujte ho na Markdown pomocou online nástroja na konverziu HTML-to-Markdown :
Výsledný Markdown je podstatne menší, no stále obsahuje všetky dôležité textové údaje!
Teraz prilepte tento Markdown do nástroja LLM Token Calculator:
Bum! 💣 Z 896 871 tokenov na iba 7 943 tokenov. To je neuveriteľná úspora ~ 99 % !
Len s jednoduchým odstránením obsahu a konverziou HTML-to-Markdown máte štíhlejšie užitočné zaťaženie, nižšie náklady a oveľa rýchlejšie spracovanie. Veľká výhra! 💰
Markdown vs HTML: Bitka o tokeny a úspory nákladov
Posledným krokom je overenie, či text Markdown stále obsahuje všetky kľúčové údaje. Ak to chcete urobiť, odovzdajte ho LLM s poslednou časťou pôvodnej výzvy a tu je výsledok JSON, ktorý získate:
{ "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } }
To je presne to, čo by váš agent AI vrátil – na mieste!
Pre rýchly prehľad si pozrite záverečnú súhrnnú tabuľku nižšie:
Metóda | Tokeny | o1-mini Cena | Cena gpt-4o-mini | Cena gpt-4o |
---|---|---|---|---|
Celé HTML | 896,871 | 13,4531 USD | 0,1345 USD | 2,2422 USD |
| 309 951 | 4,6493 dolárov | 0,0465 USD | 0,7749 USD |
| 7,943 | 0,0596 USD | 0,0012 USD | 0,0199 USD |
Kde agenti AI zlyhávajú
Všetky tieto triky na šetrenie tokenov sú zbytočné, ak váš AI agent zablokuje cieľová stránka 😅 (Videl si už niekedy , aké zábavné môže byť zlyhanie AI CAPTCHA? 🤣 ).
Prečo sa to deje? Jednoduché! Väčšina stránok používa opatrenia proti scrapingu , ktoré môžu ľahko zablokovať automatické prehliadače. Chcete úplný rozpis? Pozrite si náš pripravovaný webinár nižšie:
Ak ste postupovali podľa nášho rozšíreného sprievodcu webovým zoškrabávaním , viete, že problém nie je v nástrojoch na automatizáciu prehliadača (knižnice, ktoré poháňajú vašich agentov AI). Nie, skutočným vinníkom je samotný prehliadač . 🤖
Aby ste sa vyhli zablokovaniu, potrebujete prehliadač vytvorený špeciálne pre cloudovú automatizáciu. Vstúpte do Scraping Browser , prehliadača, ktorý:
- Beží v režime s hlavičkou rovnako ako bežný prehliadač, vďaka čomu je pre systémy proti botom oveľa ťažšie vás odhaliť. 🔍
- Bez námahy sa škáluje v cloude, čím šetrí váš čas a peniaze na infraštruktúru. 💰
- Automaticky rieši CAPTCHA, spracováva odtlačky prstov prehliadača, prispôsobuje súbory cookie/hlavičky a skúša, aby veci fungovali hladko. ⚡
- Rotuje IP z jednej z najväčších a najspoľahlivejších proxy sietí. 🌍
- Bezproblémovo sa integruje s populárnymi automatizačnými knižnicami ako Playwright, Selenium a Puppeteer. 🔧
Získajte viac informácií o Scraping Browser Bright Data, perfektnom nástroji na integráciu do vašich agentov AI :
Záverečné myšlienky
Teraz ste v obraze, prečo agenti AI používajú Markdown na spracovanie údajov. Je to jednoduchý trik, ako ušetriť tokeny (a peniaze) a zároveň urýchliť spracovanie LLM.
Chcete, aby váš agent AI bežal bez toho, aby narazil do blokov? Pozrite sa na súpravu nástrojov Bright Data pre AI ! Pridajte sa k nám a sprístupnite internet každému – dokonca aj prostredníctvom automatizovaných prehliadačov AI agentov. 🌐
Až nabudúce pokračujte v slobodnom surfovaní po webe! 🏄♂️