318 чтения
318 чтения

Почему новые агенты ИИ выбирают Markdown вместо HTML?

к Bright Data7m2025/03/19
Read on Terminal Reader

Слишком долго; Читать

Узнайте, почему агенты ИИ преобразуют HTML в Markdown, чтобы сократить использование токенов до 99%! Более быстрая обработка, более низкие затраты — максимальная эффективность ИИ.
featured image - Почему новые агенты ИИ выбирают Markdown вместо HTML?
Bright Data HackerNoon profile picture
0-item

Агенты ИИ захватывают мир, знаменуя собой следующий большой шаг в эволюции ИИ 🦖. Итак, что общего у всех этих агентов? Они используют Markdown вместо чистого HTML при обработке контента на веб-страницах ⛓️. Интересно узнать, почему?


В этой записи блога вы узнаете, как этот простой трюк может сэкономить вам до 99% токенов и денег!

Агенты ИИ и обработка данных: введение

Агенты ИИ — это программные системы, которые используют возможности искусственного интеллекта для выполнения задач и достижения целей от имени пользователей. Оснащенные рассуждениями, планированием и памятью, эти агенты могут принимать решения, учиться и адаптироваться — все самостоятельно. 🤯


В последние месяцы агенты ИИ взлетели, особенно в мире автоматизации браузеров. Эти браузеры агентов ИИ позволяют вам использовать LLM для программного управления браузерами, автоматизируя такие задачи, как добавление продуктов в корзину Amazon 🛒.


Вы когда-нибудь задумывались, какие библиотеки и фреймворки поддерживают такие агенты ИИ, как Crawl4AI , ScrapeGraphAI и LangChain ?


При обработке данных с веб-страниц эти решения часто автоматически преобразуют HTML в Markdown — или предлагают методы для этого — перед отправкой данных в LLM. Но почему эти агенты ИИ предпочитают Markdown, а не HTML? 🧐


Почему?


Короткий ответ: чтобы сэкономить токены и ускорить обработку!


Пришло время копнуть глубже! Но сначала давайте рассмотрим еще один популярный подход, который используют агенты ИИ для снижения нагрузки на данные. 👀

От перегрузки данными к ясности: первый шаг агентов ИИ

Представьте, что вы хотите, чтобы ваш ИИ-агент:

  1. Подключитесь к сайту электронной коммерции (например, Amazon)

  2. Поиск продукта (например, PlayStation 5)

  3. Извлечь данные с конкретной страницы продукта


Это обычный сценарий для агента ИИ, поскольку парсинг электронной коммерции — это дикая гонка 🎢. В конце концов, страницы продуктов — это хаотичный беспорядок из постоянно меняющихся макетов, что делает программный парсинг данных кошмаром. Вот где агенты ИИ проявляют свои суперспособности 💪, используя LLM для беспрепятственного извлечения данных — независимо от того, насколько запутана структура страницы!


Теперь предположим, что вы поставили перед собой задачу узнать все самые сочные подробности со страницы продукта PlayStation 5 на Amazon 🎮:


Страница продукта PlayStation 5 на Amazon


Вот как вы отдадите команду своему браузеру-агенту ИИ, чтобы это произошло:


 Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format.


Вот что должен (надеюсь 🤞) сделать ИИ-агент:

  1. Откройте Amazon в браузере 🌍

  2. Найдите «PlayStation 5» 🔍

  3. Определите правильный продукт 🎯

  4. Извлеките сведения о товаре со страницы и верните их в формате JSON 📄


Но вот настоящая проблема — Шаг 4. Страница продукта Amazon PlayStation 5 — это зверь! HTML-код забит тоннами информации, большая часть которой вам даже не нужна.


Нужны доказательства? Скопируйте полный HTML-код страницы из DOM вашего браузера и вставьте его в инструмент, например, LLM Token Calculator tool :


Результат от token-calculator.net


🚨 Приготовьтесь…


896 871 токен!


896 871 токен?! 😱 Да, вы правильно прочитали — восемьсот девяносто шесть тысяч восемьсот семьдесят один чертов токен!


Это ОГРОМНЫЙ объем данных — а это куча денег! 💸 (Более 2 долларов за запрос на GPT-4o! 😬)


Послушайте Джо Бастианича…


Как вы можете себе представить, передача всех этих данных агенту ИИ сопряжена с серьезными ограничениями:

  1. Могут потребоваться премиум/профессиональные планы, поддерживающие высокое использование токенов 💰
  2. Стоит целое состояние, особенно если вы часто выполняете запросы 🤑
  3. Замедляет ответы, так как ИИ приходится обрабатывать нелепое количество информации ⏳

Решение: срежьте жир

Большинство агентов ИИ позволяют вам указать селектор CSS для извлечения только соответствующих разделов веб-страницы. Другие используют эвристические алгоритмы для автоматической фильтрации контента, например, удаляя верхние и нижние колонтитулы (которые обычно не добавляют никакой ценности). ✂️


Например, если вы просмотрите страницу продукта PlayStation 5 на Amazon, вы заметите, что большая часть полезного контента находится внутри элемента HTML, идентифицированного селектором CSS #ppd :


HTML-элемент #ppd


А что, если вы скажете своему ИИ-агенту сосредоточиться только на элементе #ppd , а не на всей странице? Будет ли это иметь значение? 🤔


Давайте проверим это в поединке лицом к лицу ниже! 🔥

Markdown и HTML в обработке данных ИИ: прямое сравнение

Сравните использование токенов при прямой обработке части веб-страницы и при ее преобразовании в Markdown.

HTML

В браузере скопируйте HTML-код элемента #ppd и вставьте его в инструмент LLM Token Calculator:


309 951 токен, на этот раз


С 896 871 токена до всего лишь 309 951 — экономия почти 65%!


Конечно, это огромный спад, но давайте будем реалистами — токенов все равно слишком много! 😵‍💸

Уценка

Теперь давайте повторим трюк, который используют агенты ИИ, используя онлайн-инструмент преобразования HTML в Markdown. Но сначала помните, что агенты ИИ выполняют некоторую предварительную обработку, чтобы удалить несущественные для контента теги, такие как теги <style> и <script> .


Вы можете отфильтровать HTML-код целевого элемента, используя этот простой скрипт в консоли браузера:


 function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement);


Затем скопируйте очищенный HTML и преобразуйте его в Markdown с помощью онлайн -инструмента преобразования HTML в Markdown :


HTML в Markdown


Полученный Markdown значительно меньше, но по-прежнему содержит все важные текстовые данные!


Ух ты!


Теперь вставьте этот Markdown в инструмент LLM Token Calculator:


7943 жетона!


Бум! 💣 С 896 871 токена осталось всего 7 943 токена. Это потрясающая экономия ~99% !


Какой ошеломляющий результат!


С помощью простого удаления базового контента и преобразования HTML в Markdown вы получаете более компактную полезную нагрузку, более низкие затраты и гораздо более быструю обработку. Большой выигрыш! 💰

Markdown против HTML: битва за токены и экономию средств

Последний шаг — проверить, что текст Markdown все еще содержит все ключевые данные. Для этого передайте его LLM с последней частью исходного приглашения, и вот результат JSON, который вы получите:


 { "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } }

Это именно то, что вернет ваш ИИ-агент — в точку!


Для краткого обзора ознакомьтесь с итоговой сводной таблицей ниже:


Метод

Жетоны

o1-мини Цена

gpt-4o-mini Цена

Цена gpt-4o

Весь HTML

896,871

$13.4531

0,1345 долл. США

$2.2422

#ppd HTML

309,951

$4.6493

0,0465 долл. США

0,7749 долл. США

#ppd Уценка

7,943

0,0596 долл. США

0,0012 долл. США

0,0199 долл. США

Где агенты ИИ терпят неудачу

Все эти трюки по экономии токенов бесполезны, если ваш ИИ-агент блокируется целевым сайтом 😅 (вы когда-нибудь видели , насколько уморительно могут выглядеть ошибки AI CAPTCHA? 🤣 ).


Итак, почему это происходит? Все просто! Большинство сайтов используют меры по борьбе с парсингом , которые могут легко блокировать автоматизированные браузеры. Хотите полный анализ? Посмотрите наш предстоящий вебинар ниже:


Если вы следовали нашему расширенному руководству по веб-скрапингу , вы знаете, что проблема не в инструментах автоматизации браузера (библиотеках, которые питают ваших агентов ИИ). Нет, настоящий виновник — сам браузер . 🤖


Чтобы избежать блокировки, вам нужен браузер, специально созданный для автоматизации облака. Введите Scraping Browser , браузер, который:

  • Работает в режиме Headed, как обычный браузер, что значительно усложняет обнаружение вас антибот-системами. 🔍
  • Легко масштабируется в облаке, экономя ваше время и деньги на инфраструктуру. 💰
  • Автоматически решает CAPTCHA, обрабатывает отпечатки браузера, настраивает файлы cookie/заголовки и повторяет попытки для обеспечения бесперебойной работы. ⚡
  • Ротация IP-адресов от одной из крупнейших и самых надежных сетей прокси-серверов. 🌍
  • Легко интегрируется с популярными библиотеками автоматизации, такими как Playwright, Selenium и Puppeteer. 🔧


Узнайте больше о Scraping Browser от Bright Data — идеальном инструменте для интеграции в ваши агенты ИИ :

Заключительные мысли

Теперь вы в курсе, почему агенты ИИ используют Markdown для обработки данных. Это простой трюк, позволяющий сэкономить токены (и деньги) и ускорить обработку LLM.


Хотите, чтобы ваш агент ИИ работал без столкновений с блоками? Ознакомьтесь с набором инструментов Bright Data для ИИ ! Присоединяйтесь к нам, чтобы сделать Интернет доступным для всех — даже через автоматизированные браузеры агентов ИИ. 🌐


До следующего раза, продолжайте свободно путешествовать по Интернету! 🏄‍♂️

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks