Почему новые агенты ИИ выбирают Markdown вместо HTML?

Агенты ИИ захватывают мир, знаменуя собой следующий большой шаг в эволюции ИИ 🦖. Итак, что общего у всех этих агентов? Они используют Markdown вместо чистого HTML при обработке контента на веб-страницах ⛓️. Интересно узнать, почему?

В этой записи блога вы узнаете, как этот простой трюк может сэкономить вам до 99% токенов и денег!

Агенты ИИ и обработка данных: введение

Агенты ИИ — это программные системы, которые используют возможности искусственного интеллекта для выполнения задач и достижения целей от имени пользователей. Оснащенные рассуждениями, планированием и памятью, эти агенты могут принимать решения, учиться и адаптироваться — все самостоятельно. 🤯

В последние месяцы агенты ИИ взлетели, особенно в мире автоматизации браузеров. Эти браузеры агентов ИИ позволяют вам использовать LLM для программного управления браузерами, автоматизируя такие задачи, как добавление продуктов в корзину Amazon 🛒.

Вы когда-нибудь задумывались, какие библиотеки и фреймворки поддерживают такие агенты ИИ, как Crawl4AI , ScrapeGraphAI и LangChain ?

При обработке данных с веб-страниц эти решения часто автоматически преобразуют HTML в Markdown — или предлагают методы для этого — перед отправкой данных в LLM. Но почему эти агенты ИИ предпочитают Markdown, а не HTML? 🧐

Короткий ответ: чтобы сэкономить токены и ускорить обработку! ⏩

Пришло время копнуть глубже! Но сначала давайте рассмотрим еще один популярный подход, который используют агенты ИИ для снижения нагрузки на данные. 👀

От перегрузки данными к ясности: первый шаг агентов ИИ

Представьте, что вы хотите, чтобы ваш ИИ-агент:

Подключитесь к сайту электронной коммерции (например, Amazon)
Поиск продукта (например, PlayStation 5)
Извлечь данные с конкретной страницы продукта

Это обычный сценарий для агента ИИ, поскольку парсинг электронной коммерции — это дикая гонка 🎢. В конце концов, страницы продуктов — это хаотичный беспорядок из постоянно меняющихся макетов, что делает программный парсинг данных кошмаром. Вот где агенты ИИ проявляют свои суперспособности 💪, используя LLM для беспрепятственного извлечения данных — независимо от того, насколько запутана структура страницы!

Теперь предположим, что вы поставили перед собой задачу узнать все самые сочные подробности со страницы продукта PlayStation 5 на Amazon 🎮:

Вот как вы отдадите команду своему браузеру-агенту ИИ, чтобы это произошло:

 Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format.

Вот что должен (надеюсь 🤞) сделать ИИ-агент:

Откройте Amazon в браузере 🌍
Найдите «PlayStation 5» 🔍
Определите правильный продукт 🎯
Извлеките сведения о товаре со страницы и верните их в формате JSON 📄

Но вот настоящая проблема — Шаг 4. Страница продукта Amazon PlayStation 5 — это зверь! HTML-код забит тоннами информации, большая часть которой вам даже не нужна.

Нужны доказательства? Скопируйте полный HTML-код страницы из DOM вашего браузера и вставьте его в инструмент, например, LLM Token Calculator tool :

🚨 Приготовьтесь…

896 871 токен?! 😱 Да, вы правильно прочитали — восемьсот девяносто шесть тысяч восемьсот семьдесят один чертов токен!

Это ОГРОМНЫЙ объем данных — а это куча денег! 💸 (Более 2 долларов за запрос на GPT-4o! 😬)

Как вы можете себе представить, передача всех этих данных агенту ИИ сопряжена с серьезными ограничениями:

Могут потребоваться премиум/профессиональные планы, поддерживающие высокое использование токенов 💰
Стоит целое состояние, особенно если вы часто выполняете запросы 🤑
Замедляет ответы, так как ИИ приходится обрабатывать нелепое количество информации ⏳

Решение: срежьте жир

Большинство агентов ИИ позволяют вам указать селектор CSS для извлечения только соответствующих разделов веб-страницы. Другие используют эвристические алгоритмы для автоматической фильтрации контента, например, удаляя верхние и нижние колонтитулы (которые обычно не добавляют никакой ценности). ✂️

Например, если вы просмотрите страницу продукта PlayStation 5 на Amazon, вы заметите, что большая часть полезного контента находится внутри элемента HTML, идентифицированного селектором CSS #ppd :

А что, если вы скажете своему ИИ-агенту сосредоточиться только на элементе #ppd , а не на всей странице? Будет ли это иметь значение? 🤔

Давайте проверим это в поединке лицом к лицу ниже! 🔥

Markdown и HTML в обработке данных ИИ: прямое сравнение

Сравните использование токенов при прямой обработке части веб-страницы и при ее преобразовании в Markdown.

HTML

В браузере скопируйте HTML-код элемента #ppd и вставьте его в инструмент LLM Token Calculator:

С 896 871 токена до всего лишь 309 951 — экономия почти 65%!

Конечно, это огромный спад, но давайте будем реалистами — токенов все равно слишком много! 😵‍💸

Уценка

Теперь давайте повторим трюк, который используют агенты ИИ, используя онлайн-инструмент преобразования HTML в Markdown. Но сначала помните, что агенты ИИ выполняют некоторую предварительную обработку, чтобы удалить несущественные для контента теги, такие как теги <style> и <script> .

Вы можете отфильтровать HTML-код целевого элемента, используя этот простой скрипт в консоли браузера:

 function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement);

Затем скопируйте очищенный HTML и преобразуйте его в Markdown с помощью онлайн -инструмента преобразования HTML в Markdown :

Полученный Markdown значительно меньше, но по-прежнему содержит все важные текстовые данные!

Теперь вставьте этот Markdown в инструмент LLM Token Calculator:

Бум! 💣 С 896 871 токена осталось всего 7 943 токена. Это потрясающая экономия ~99% !

С помощью простого удаления базового контента и преобразования HTML в Markdown вы получаете более компактную полезную нагрузку, более низкие затраты и гораздо более быструю обработку. Большой выигрыш! 💰

Markdown против HTML: битва за токены и экономию средств

Последний шаг — проверить, что текст Markdown все еще содержит все ключевые данные. Для этого передайте его LLM с последней частью исходного приглашения, и вот результат JSON, который вы получите:

 { "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } }

Это именно то, что вернет ваш ИИ-агент — в точку!

Для краткого обзора ознакомьтесь с итоговой сводной таблицей ниже:

Метод	Жетоны	o1-мини Цена	gpt-4o-mini Цена	Цена gpt-4o
Весь HTML	896,871	$13.4531	0,1345 долл. США	$2.2422
`#ppd` HTML	309,951	$4.6493	0,0465 долл. США	0,7749 долл. США
`#ppd` Уценка	7,943	0,0596 долл. США	0,0012 долл. США	0,0199 долл. США

Где агенты ИИ терпят неудачу

Все эти трюки по экономии токенов бесполезны, если ваш ИИ-агент блокируется целевым сайтом 😅 (вы когда-нибудь видели , насколько уморительно могут выглядеть ошибки AI CAPTCHA? 🤣 ).

Итак, почему это происходит? Все просто! Большинство сайтов используют меры по борьбе с парсингом , которые могут легко блокировать автоматизированные браузеры. Хотите полный анализ? Посмотрите наш предстоящий вебинар ниже:

Если вы следовали нашему расширенному руководству по веб-скрапингу , вы знаете, что проблема не в инструментах автоматизации браузера (библиотеках, которые питают ваших агентов ИИ). Нет, настоящий виновник — сам браузер . 🤖

Чтобы избежать блокировки, вам нужен браузер, специально созданный для автоматизации облака. Введите Scraping Browser , браузер, который:

Работает в режиме Headed, как обычный браузер, что значительно усложняет обнаружение вас антибот-системами. 🔍
Легко масштабируется в облаке, экономя ваше время и деньги на инфраструктуру. 💰
Автоматически решает CAPTCHA, обрабатывает отпечатки браузера, настраивает файлы cookie/заголовки и повторяет попытки для обеспечения бесперебойной работы. ⚡
Ротация IP-адресов от одной из крупнейших и самых надежных сетей прокси-серверов. 🌍
Легко интегрируется с популярными библиотеками автоматизации, такими как Playwright, Selenium и Puppeteer. 🔧

Узнайте больше о Scraping Browser от Bright Data — идеальном инструменте для интеграции в ваши агенты ИИ :

Заключительные мысли

Теперь вы в курсе, почему агенты ИИ используют Markdown для обработки данных. Это простой трюк, позволяющий сэкономить токены (и деньги) и ускорить обработку LLM.

Хотите, чтобы ваш агент ИИ работал без столкновений с блоками? Ознакомьтесь с набором инструментов Bright Data для ИИ ! Присоединяйтесь к нам, чтобы сделать Интернет доступным для всех — даже через автоматизированные браузеры агентов ИИ. 🌐

До следующего раза, продолжайте свободно путешествовать по Интернету! 🏄‍♂️

Почему новые агенты ИИ выбирают Markdown вместо HTML?

Слишком долго; Читать

Агенты ИИ и обработка данных: введение

От перегрузки данными к ясности: первый шаг агентов ИИ

Решение: срежьте жир

Markdown и HTML в обработке данных ИИ: прямое сравнение

HTML

Уценка

Markdown против HTML: битва за токены и экономию средств

Где агенты ИИ терпят неудачу

Заключительные мысли

About Author

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В...

Categories

Trending Topics

Почему новые агенты ИИ выбирают Markdown вместо HTML?

Слишком долго; Читать

Агенты ИИ и обработка данных: введение

От перегрузки данными к ясности: первый шаг агентов ИИ

Решение: срежьте жир

Markdown и HTML в обработке данных ИИ: прямое сравнение

HTML

Уценка

Markdown против HTML: битва за токены и экономию средств

Где агенты ИИ терпят неудачу

Заключительные мысли

About Author

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В...

ПОХОЖИЕ ИСТОРИИ

Categories

Trending Topics