Агенты ИИ захватывают мир, знаменуя собой следующий большой шаг в эволюции ИИ 🦖. Итак, что общего у всех этих агентов? Они используют Markdown вместо чистого HTML при обработке контента на веб-страницах ⛓️. Интересно узнать, почему?
В этой записи блога вы узнаете, как этот простой трюк может сэкономить вам до 99% токенов и денег!
Агенты ИИ и обработка данных: введение
Агенты ИИ — это программные системы, которые используют возможности искусственного интеллекта для выполнения задач и достижения целей от имени пользователей. Оснащенные рассуждениями, планированием и памятью, эти агенты могут принимать решения, учиться и адаптироваться — все самостоятельно. 🤯
В последние месяцы агенты ИИ взлетели, особенно в мире автоматизации браузеров. Эти браузеры агентов ИИ позволяют вам использовать LLM для программного управления браузерами, автоматизируя такие задачи, как добавление продуктов в корзину Amazon 🛒.
Вы когда-нибудь задумывались, какие библиотеки и фреймворки поддерживают такие агенты ИИ, как Crawl4AI , ScrapeGraphAI и LangChain ?
При обработке данных с веб-страниц эти решения часто автоматически преобразуют HTML в Markdown — или предлагают методы для этого — перед отправкой данных в LLM. Но почему эти агенты ИИ предпочитают Markdown, а не HTML? 🧐
Короткий ответ: чтобы сэкономить токены и ускорить обработку! ⏩
Пришло время копнуть глубже! Но сначала давайте рассмотрим еще один популярный подход, который используют агенты ИИ для снижения нагрузки на данные. 👀
От перегрузки данными к ясности: первый шаг агентов ИИ
Представьте, что вы хотите, чтобы ваш ИИ-агент:
Подключитесь к сайту электронной коммерции (например, Amazon)
Поиск продукта (например, PlayStation 5)
Извлечь данные с конкретной страницы продукта
Это обычный сценарий для агента ИИ, поскольку парсинг электронной коммерции — это дикая гонка 🎢. В конце концов, страницы продуктов — это хаотичный беспорядок из постоянно меняющихся макетов, что делает программный парсинг данных кошмаром. Вот где агенты ИИ проявляют свои суперспособности 💪, используя LLM для беспрепятственного извлечения данных — независимо от того, насколько запутана структура страницы!
Теперь предположим, что вы поставили перед собой задачу узнать все самые сочные подробности со страницы продукта PlayStation 5 на Amazon 🎮:
Вот как вы отдадите команду своему браузеру-агенту ИИ, чтобы это произошло:
Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format.
Вот что должен (надеюсь 🤞) сделать ИИ-агент:
Откройте Amazon в браузере 🌍
Найдите «PlayStation 5» 🔍
Определите правильный продукт 🎯
Извлеките сведения о товаре со страницы и верните их в формате JSON 📄
Но вот настоящая проблема — Шаг 4. Страница продукта Amazon PlayStation 5 — это зверь! HTML-код забит тоннами информации, большая часть которой вам даже не нужна.
Нужны доказательства? Скопируйте полный HTML-код страницы из DOM вашего браузера и вставьте его в инструмент, например, LLM Token Calculator tool :
🚨 Приготовьтесь…
896 871 токен?! 😱 Да, вы правильно прочитали — восемьсот девяносто шесть тысяч восемьсот семьдесят один чертов токен!
Это ОГРОМНЫЙ объем данных — а это куча денег! 💸 (Более 2 долларов за запрос на GPT-4o! 😬)
Как вы можете себе представить, передача всех этих данных агенту ИИ сопряжена с серьезными ограничениями:
- Могут потребоваться премиум/профессиональные планы, поддерживающие высокое использование токенов 💰
- Стоит целое состояние, особенно если вы часто выполняете запросы 🤑
- Замедляет ответы, так как ИИ приходится обрабатывать нелепое количество информации ⏳
Решение: срежьте жир
Большинство агентов ИИ позволяют вам указать селектор CSS для извлечения только соответствующих разделов веб-страницы. Другие используют эвристические алгоритмы для автоматической фильтрации контента, например, удаляя верхние и нижние колонтитулы (которые обычно не добавляют никакой ценности). ✂️
Например, если вы просмотрите страницу продукта PlayStation 5 на Amazon, вы заметите, что большая часть полезного контента находится внутри элемента HTML, идентифицированного селектором CSS #ppd
:
А что, если вы скажете своему ИИ-агенту сосредоточиться только на элементе #ppd
, а не на всей странице? Будет ли это иметь значение? 🤔
Давайте проверим это в поединке лицом к лицу ниже! 🔥
Markdown и HTML в обработке данных ИИ: прямое сравнение
Сравните использование токенов при прямой обработке части веб-страницы и при ее преобразовании в Markdown.
HTML
В браузере скопируйте HTML-код элемента #ppd
и вставьте его в инструмент LLM Token Calculator:
С 896 871 токена до всего лишь 309 951 — экономия почти 65%!
Конечно, это огромный спад, но давайте будем реалистами — токенов все равно слишком много! 😵💸
Уценка
Теперь давайте повторим трюк, который используют агенты ИИ, используя онлайн-инструмент преобразования HTML в Markdown. Но сначала помните, что агенты ИИ выполняют некоторую предварительную обработку, чтобы удалить несущественные для контента теги, такие как теги <style>
и <script>
.
Вы можете отфильтровать HTML-код целевого элемента, используя этот простой скрипт в консоли браузера:
function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement);
Затем скопируйте очищенный HTML и преобразуйте его в Markdown с помощью онлайн -инструмента преобразования HTML в Markdown :
Полученный Markdown значительно меньше, но по-прежнему содержит все важные текстовые данные!
Теперь вставьте этот Markdown в инструмент LLM Token Calculator:
Бум! 💣 С 896 871 токена осталось всего 7 943 токена. Это потрясающая экономия ~99% !
С помощью простого удаления базового контента и преобразования HTML в Markdown вы получаете более компактную полезную нагрузку, более низкие затраты и гораздо более быструю обработку. Большой выигрыш! 💰
Markdown против HTML: битва за токены и экономию средств
Последний шаг — проверить, что текст Markdown все еще содержит все ключевые данные. Для этого передайте его LLM с последней частью исходного приглашения, и вот результат JSON, который вы получите:
{ "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } }
Это именно то, что вернет ваш ИИ-агент — в точку!
Для краткого обзора ознакомьтесь с итоговой сводной таблицей ниже:
Метод | Жетоны | o1-мини Цена | gpt-4o-mini Цена | Цена gpt-4o |
---|---|---|---|---|
Весь HTML | 896,871 | $13.4531 | 0,1345 долл. США | $2.2422 |
| 309,951 | $4.6493 | 0,0465 долл. США | 0,7749 долл. США |
| 7,943 | 0,0596 долл. США | 0,0012 долл. США | 0,0199 долл. США |
Где агенты ИИ терпят неудачу
Все эти трюки по экономии токенов бесполезны, если ваш ИИ-агент блокируется целевым сайтом 😅 (вы когда-нибудь видели , насколько уморительно могут выглядеть ошибки AI CAPTCHA? 🤣 ).
Итак, почему это происходит? Все просто! Большинство сайтов используют меры по борьбе с парсингом , которые могут легко блокировать автоматизированные браузеры. Хотите полный анализ? Посмотрите наш предстоящий вебинар ниже:
Если вы следовали нашему расширенному руководству по веб-скрапингу , вы знаете, что проблема не в инструментах автоматизации браузера (библиотеках, которые питают ваших агентов ИИ). Нет, настоящий виновник — сам браузер . 🤖
Чтобы избежать блокировки, вам нужен браузер, специально созданный для автоматизации облака. Введите Scraping Browser , браузер, который:
- Работает в режиме Headed, как обычный браузер, что значительно усложняет обнаружение вас антибот-системами. 🔍
- Легко масштабируется в облаке, экономя ваше время и деньги на инфраструктуру. 💰
- Автоматически решает CAPTCHA, обрабатывает отпечатки браузера, настраивает файлы cookie/заголовки и повторяет попытки для обеспечения бесперебойной работы. ⚡
- Ротация IP-адресов от одной из крупнейших и самых надежных сетей прокси-серверов. 🌍
- Легко интегрируется с популярными библиотеками автоматизации, такими как Playwright, Selenium и Puppeteer. 🔧
Узнайте больше о Scraping Browser от Bright Data — идеальном инструменте для интеграции в ваши агенты ИИ :
Заключительные мысли
Теперь вы в курсе, почему агенты ИИ используют Markdown для обработки данных. Это простой трюк, позволяющий сэкономить токены (и деньги) и ускорить обработку LLM.
Хотите, чтобы ваш агент ИИ работал без столкновений с блоками? Ознакомьтесь с набором инструментов Bright Data для ИИ ! Присоединяйтесь к нам, чтобы сделать Интернет доступным для всех — даже через автоматизированные браузеры агентов ИИ. 🌐
До следующего раза, продолжайте свободно путешествовать по Интернету! 🏄♂️