paint-brush
Làm chủ việc quét web độngtừ tác giả@brightdata
478 lượt đọc
478 lượt đọc

Làm chủ việc quét web động

từ tác giả Bright Data10m2024/07/01
Read on Terminal Reader

dài quá đọc không nổi

Trong hội thảo trực tuyến gần đây, các chuyên gia tự động hóa web Dario Kondratiuk, Diego Molina và Greg Gorlen đã chia sẻ các mẹo chuyên nghiệp để điều hướng bối cảnh này. Việc sử dụng các bộ chọn mạnh mẽ trong quá trình quét web có thể giảm thiểu việc bảo trì và giảm lỗi tập lệnh. Bằng cách nhắm mục tiêu các lệnh gọi API thay vì loại bỏ DOM, nhà phát triển có thể truy cập trực tiếp vào dữ liệu có cấu trúc ở định dạng JSON.
featured image - Làm chủ việc quét web động
Bright Data HackerNoon profile picture
0-item
1-item
2-item
3-item
4-item
5-item

Trong phát triển web, việc quét các trang web động đã trở thành cả một nghệ thuật và khoa học. Với các công cụ như Puppeteer, Playwright và Selenium, các nhà phát triển có thể tùy ý sử dụng các tùy chọn mạnh mẽ. Nhưng đi kèm với sức mạnh to lớn là sự phức tạp lớn lao. Trong một hội thảo trực tuyến gần đây, các cựu chiến binh Dario Kondratiuk, Diego Molina và Greg Gorlen đã chia sẻ các mẹo chuyên nghiệp để điều hướng bối cảnh này. Cho dù bạn đang xử lý Ứng dụng Trang Đơn (SPA) hay né tránh các biện pháp chống bot, đây là cách nâng cấp trò chơi cào của bạn.

Chọn bộ chọn đáng tin cậy

Trong hội thảo trực tuyến, Dario Kondratiuk nhấn mạnh tầm quan trọng của việc sử dụng các bộ chọn mạnh mẽ trong quá trình quét web. Các bộ chọn dễ vỡ, lồng sâu thường dẫn đến vấn đề đau đầu về bảo trì. Thay vào đó, Dario khuyến nghị sử dụng nhãn ARIA và bộ chọn dựa trên văn bản để có khả năng phục hồi tốt hơn trước những thay đổi.


Ví dụ :

 javascriptCopy code// Using Playwright for ARIA and text selectors await page.locator('text="Login"').click(); await page.locator('[aria-label="Submit"]').click();


Cách tiếp cận này đảm bảo rằng ngay cả khi HTML cơ bản thay đổi, tập lệnh của bạn vẫn hoạt động. Như Dario đã chỉ ra, “Bộ chọn đáng tin cậy giảm thiểu việc bảo trì và giảm lỗi tập lệnh”.


Nắm bắt việc chặn API

Trong hội thảo trực tuyến, Greg Gorlen nhấn mạnh sức mạnh của việc chặn API để trích xuất dữ liệu hiệu quả hơn. Bằng cách nhắm mục tiêu lệnh gọi API thay vì loại bỏ DOM, nhà phát triển có thể truy cập trực tiếp vào dữ liệu có cấu trúc ở định dạng JSON, bỏ qua sự phức tạp của nội dung được tải động.


Tại sao lại chặn API?

  • Tốc độ : Truy cập dữ liệu JSON thường nhanh hơn phân tích cú pháp HTML.

  • Độ tin cậy : Cấu trúc JSON ít bị thay đổi hơn so với DOM.


Greg đã chia sẻ một ví dụ sử dụng Playwright để chặn phản hồi API:


 javascriptCopy code// Using Playwright to intercept API responses await page.route('**/api/data', route => { route.continue(response => { const data = response.json(); console.log(data); // Process or save the data }); });


Trong ví dụ này, tập lệnh chặn các cuộc gọi đến một điểm cuối API cụ thể, cho phép các nhà phát triển làm việc trực tiếp với dữ liệu có cấu trúc, rõ ràng.


Mẹo thực tế : Luôn kiểm tra tab mạng trong công cụ dành cho nhà phát triển trên trình duyệt của bạn. Tìm kiếm các lệnh gọi API trả về dữ liệu bạn cần. Nếu có, phương pháp này có thể đơn giản hóa đáng kể quá trình thu thập dữ liệu của bạn.


“Việc chặn API không chỉ tăng tốc độ trích xuất dữ liệu mà còn nâng cao độ tin cậy. Hãy tìm điểm cuối JSON—chúng thường chứa dữ liệu bạn muốn ở định dạng dễ sử dụng hơn nhiều.”



Xử lý tải chậm

Tải từng phần, một kỹ thuật phổ biến để tối ưu hóa hiệu suất web, có thể làm phức tạp các nỗ lực thu thập dữ liệu. Nội dung chỉ tải khi người dùng tương tác với trang, chẳng hạn như cuộn hoặc nhấp chuột. Trong hội thảo trực tuyến, Dario Kondratiuk đã đưa ra các chiến lược hiệu quả để giải quyết thách thức này.


Các phương pháp tiếp cận chính :

  1. Cuộn mô phỏng : Việc mô phỏng cuộn của người dùng có thể kích hoạt tải nội dung bổ sung. Điều này rất quan trọng đối với các trang web nơi nội dung xuất hiện khi người dùng cuộn xuống.


     javascriptCopy code// Simulate scrolling with Playwright await page.evaluate(async () => { await new Promise(resolve => { let totalHeight = 0; const distance = 100; const timer = setInterval(() => { window.scrollBy(0, distance); totalHeight += distance; if (totalHeight >= document.body.scrollHeight) { clearInterval(timer); resolve(); } }, 100); // Adjust delay as necessary }); });


    Tại sao nó hoạt động : Phương pháp này bắt chước hành vi tự nhiên của người dùng, cho phép hiển thị tất cả nội dung được tải một cách lười biếng. Việc điều chỉnh khoảng cách cuộn và độ trễ giúp kiểm soát tốc độ và mức độ tải hoàn chỉnh.


  2. Chặn yêu cầu : Bằng cách chặn lệnh gọi API, bạn có thể truy cập trực tiếp vào dữ liệu mà không cần dựa vào kết xuất nội dung trực quan. Cách tiếp cận này có thể nâng cao đáng kể tốc độ và độ tin cậy của việc trích xuất dữ liệu.


     javascriptCopy code// Intercepting API requests in Playwright await page.route('**/api/data', route => { route.continue(response => { const data = response.json(); console.log(data); // Process data as needed }); });


    Thuận lợi :

    • Tốc độ : Truy xuất dữ liệu trực tiếp, bỏ qua nhu cầu tải nhiều trang.
    • Hiệu quả : Ghi lại tất cả dữ liệu có liên quan mà không cần hiển thị toàn bộ trang một cách trực quan.


  3. Kiểm tra khả năng hiển thị của phần tử : Dario đề xuất xác thực khả năng hiển thị của các phần tử cụ thể để đảm bảo nội dung được yêu cầu đã được tải. Điều này có thể được kết hợp với thao tác cuộn để cung cấp chiến lược quét toàn diện.

     javascriptCopy code// Wait for specific elements to load await page.waitForSelector('.item-loaded', { timeout: 5000 });


Tại sao những kỹ thuật này lại quan trọng : Tải từng phần có thể khiến việc thu thập dữ liệu trở nên khó khăn bằng cách ẩn dữ liệu cho đến khi người dùng tương tác. Việc mô phỏng các tương tác và chặn yêu cầu cho phép nhà phát triển đảm bảo rằng tất cả nội dung cần thiết đều có sẵn để thu thập dữ liệu.


Dario nhấn mạnh: “Việc thu thập dữ liệu theo từng khối không chỉ giúp quản lý việc cuộn vô hạn mà còn đảm bảo rằng không có nội dung nào bị bỏ sót”. Bằng cách áp dụng các phương pháp này, các nhà phát triển có thể thu thập dữ liệu một cách hiệu quả ngay cả từ những trang web năng động nhất.


Mô phỏng tương tác của người dùng để tải chậm


Truy cập dữ liệu trong Shadow DOM

Các thành phần Shadow DOM đóng gói các phần của trang web, khiến việc trích xuất dữ liệu trở nên phức tạp hơn. Trong hội thảo trực tuyến, Dario Kondratiuk đã chia sẻ các kỹ thuật hiệu quả để thu thập dữ liệu trong các phần tử Shadow DOM.


Phương pháp tiếp cận :

  1. Sử dụng các công cụ tích hợp : Các công cụ như Playwright và Puppeteer cho phép các nhà phát triển xuyên thủng Shadow DOM, cho phép truy cập vào các phần tử bị ẩn.


     javascriptCopy code// Accessing elements within Shadow DOM using Playwright const shadowHost = await page.locator('#shadow-host'); const shadowRoot = await shadowHost.evaluateHandle(node => node.shadowRoot); const shadowElement = await shadowRoot.$('css-selector-within-shadow');


  2. Xử lý DOM bóng mở và đóng :

    • Open Shadow DOM : Có thể truy cập dễ dàng qua JavaScript, cho phép trích xuất dữ liệu đơn giản.
    • Closed Shadow DOM : Khó khăn hơn vì nó hạn chế quyền truy cập trực tiếp. Cách giải quyết có thể bao gồm việc sử dụng các công cụ trình duyệt cụ thể hoặc chèn JavaScript.


Tại sao lại quan trọng : Hiểu cấu trúc của Shadow DOM là rất quan trọng. Như Dario đã lưu ý, "Hãy coi Shadow DOM giống như iframe; điều hướng qua các gốc bóng giống như bạn làm với các tài liệu iframe."


Bằng cách tận dụng các kỹ thuật này, các nhà phát triển có thể trích xuất dữ liệu từ các phần tử được đóng gói một cách hiệu quả, đảm bảo việc quét toàn diện.


Chụp ảnh màn hình toàn trang

Việc chụp ảnh màn hình của nội dung động có thể khó khăn, đặc biệt khi nội dung đó không vừa với một khung nhìn duy nhất. Diego Molina đã chia sẻ các chiến lược để chụp ảnh màn hình toàn trang chính xác.


Kỹ thuật :

  1. Sử dụng khả năng của trình duyệt :

    • Firefox : Hỗ trợ tích hợp cho ảnh chụp màn hình toàn trang giúp việc chụp toàn bộ trang trở nên đơn giản.
     javascriptCopy code// Full-page screenshot in Playwright with Firefox await page.screenshot({ path: 'fullpage.png', fullPage: true });


  2. Giao thức Công cụ dành cho nhà phát triển của Chrome (CDP) :

    • Sử dụng CDP để chụp ảnh màn hình trong Chrome, cho phép kiểm soát nhiều hơn quá trình chụp ảnh màn hình.
     javascriptCopy code// Using CDP with Puppeteer for full-page screenshots const client = await page.target().createCDPSession(); await client.send('Page.captureScreenshot', { format: 'png', full: true });


  3. Chờ tải nội dung : Diego nhấn mạnh tầm quan trọng của việc chờ đợi các yếu tố cụ thể để đảm bảo rằng tất cả nội dung động được tải đầy đủ trước khi chụp.

     javascriptCopy code// Wait for content to load await page.waitForSelector('.content-loaded'); await page.screenshot({ path: 'dynamic-content.png', fullPage: true });


Tại sao lại quan trọng : Chụp ảnh màn hình toàn diện là rất quan trọng để gỡ lỗi và lưu giữ hồ sơ. Diego khuyên: “Hãy luôn đảm bảo rằng tất cả các thành phần, phông chữ và hình ảnh đều được tải đầy đủ trước khi chụp ảnh màn hình để tránh thiếu nội dung”.

Bỏ qua các biện pháp chống Bot

Khi mở rộng nỗ lực quét web, các nhà phát triển thường gặp phải các công nghệ chống bot tinh vi được thiết kế để ngăn chặn việc trích xuất dữ liệu tự động. Jakub đã chia sẻ những chiến lược thiết thực để vượt qua những thách thức này:


API quét web - Dữ liệu sáng


  1. Quản lý phiên : Việc sử dụng các công cụ như Scraping Browser của Bright Data có thể đơn giản hóa đáng kể việc quản lý phiên. Sản phẩm này tự động quản lý cookie và phiên, mô phỏng các kiểu duyệt web giống con người để giảm khả năng bị gắn cờ.


  2. Xoay vòng IP : Việc triển khai xoay vòng IP là rất quan trọng để quét quy mô lớn. Các dịch vụ như Bright Data cung cấp mạng proxy rộng khắp, cho phép bạn xoay vòng địa chỉ IP và mô phỏng các yêu cầu từ nhiều vị trí địa lý khác nhau. Điều này giúp tránh kích hoạt hệ thống phòng thủ chống bot theo dõi các yêu cầu lặp đi lặp lại từ các IP đơn lẻ.


  3. Kỹ thuật lấy dấu vân tay : Các công cụ như Puppeteer ExtraPlaywright Stealth có thể sửa đổi dấu vân tay của trình duyệt để bỏ qua việc phát hiện. Bằng cách thay đổi các yếu tố như tác nhân người dùng, kích thước màn hình và loại thiết bị, những công cụ này giúp tập lệnh trông giống người dùng hợp pháp hơn.


  4. Tương tác giống con người : Selenium, Nhà viết kịch và Puppeteer cung cấp các nền tảng cho phép tương tác giống con người, chẳng hạn như chuyển động chuột thực tế và mô phỏng gõ. Điều này có thể làm giảm thêm khả năng kích hoạt các cơ chế chống bot.


Tại sao lại quan trọng : Việc điều hướng các biện pháp chống bot là rất quan trọng để quét thành công trên quy mô lớn. Jakub nhấn mạnh tầm quan trọng của việc tập trung vào việc viết các tập lệnh hiệu quả đồng thời tận dụng các công cụ quản lý sự phức tạp của quản lý phiên, xoay vòng IP và lấy dấu vân tay.


Vượt qua CAPTCHA


Khi thực hiện các chiến lược này và sử dụng các công cụ chuyên dụng, các nhà phát triển có thể mở rộng quy mô hoạt động thu thập dữ liệu của mình một cách hiệu quả và giảm thiểu rủi ro bị phát hiện và chặn.


Thông tin chi tiết về Hỏi & Đáp: Câu trả lời của chuyên gia cho những thách thức chung

Trong phiên hỏi đáp của hội thảo trực tuyến, những người tham gia hội thảo đã giải quyết một số thách thức chung mà các nhà phát triển phải đối mặt trong quá trình quét web:


  1. Chặn các lệnh gọi API giao diện người dùng: Hội thảo nhấn mạnh việc sử dụng các công cụ như Puppeteer và Playwright để chặn các lệnh gọi API trực tiếp. Bằng cách giám sát các yêu cầu mạng trong công cụ dành cho nhà phát triển của trình duyệt, nhà phát triển có thể xác định và nhắm mục tiêu các điểm cuối API cụ thể trả về dữ liệu mong muốn, bỏ qua các cấu trúc DOM phức tạp.


  2. Quản lý xác thực cơ bản: Để xử lý xác thực cơ bản, điều quan trọng là phải tự động hóa quy trình bằng cách sử dụng các chức năng tích hợp trong các công cụ thu thập dữ liệu. Điều này đảm bảo truy cập dữ liệu suôn sẻ mà không cần can thiệp thủ công mỗi lần.


  3. Viết Bộ chọn XPath mạnh mẽ: Sự đồng thuận rất rõ ràng: tránh XPath bất cứ khi nào có thể. Thay vào đó, hãy tận dụng các tùy chọn định vị mạnh mẽ được cung cấp bởi các công cụ như Playwright, cung cấp nhiều bộ chọn khác nhau như bộ chọn vai trò dựa trên văn bản và ARIA, đảm bảo các tập lệnh thu thập dữ liệu linh hoạt hơn.


  4. Tiêu chuẩn hóa trích xuất dữ liệu: Mặc dù chưa có tiêu chuẩn chung để đóng gói HTML hoàn chỉnh nhưng các nhà phát triển có thể sử dụng các công cụ như Mozilla Readability để đơn giản hóa việc trích xuất nội dung bằng cách chuyển đổi các trang sang định dạng có cấu trúc hơn, nâng cao khả năng truy cập dữ liệu.


  5. Tải chậm mà không có tương tác của người dùng: Các chuyên gia khuyên bạn nên sử dụng tính năng cuộn mô phỏng hoặc chặn các yêu cầu mạng để đảm bảo tất cả tải nội dung mà không cần tương tác thủ công của người dùng. Cách tiếp cận này cho phép trích xuất dữ liệu toàn diện ngay cả trên các trang phức tạp, tải chậm.


  6. Chụp ảnh màn hình của nội dung động: Khi xử lý nội dung động, điều cần thiết là phải đợi tất cả các thành phần tải đầy đủ trước khi chụp ảnh màn hình. Các công cụ như khả năng chụp ảnh màn hình gốc của Firefox hoặc sử dụng Giao thức DevTools của Chrome (CDP) có thể tạo điều kiện cho việc chụp toàn trang chính xác.


  7. Xử lý các lớp động: Để quản lý các thay đổi thường xuyên trong các lớp động, bảng điều khiển đề xuất tập trung vào các bộ chọn tương đối và thuộc tính dữ liệu. Các yếu tố này nhìn chung ổn định hơn và ít có khả năng thay đổi hơn, giảm nhu cầu điều chỉnh tập lệnh liên tục.


Những bài học chính từ Hội thảo trên web

Hội thảo trực tuyến đã cung cấp một kho tàng thông tin chi tiết về cách làm chủ việc quét web động. Với sự hướng dẫn của chuyên gia, các nhà phát triển đã đạt được các chiến lược có giá trị để giải quyết các thách thức phức tạp trong quá trình quét web.


Những gì chúng tôi đã học được :

  • Bộ chọn mạnh mẽ : Chọn nhãn ARIA và bộ chọn dựa trên văn bản để tạo các tập lệnh thu thập dữ liệu linh hoạt.
  • Chặn API : Nhắm mục tiêu các điểm cuối API để trích xuất dữ liệu nhanh hơn, đáng tin cậy hơn.
  • Quản lý SPA : Sử dụng các vị từ hướng sự kiện để xử lý nội dung được tải động trong SPA.
  • Tải chậm : Mô phỏng tương tác của người dùng hoặc chặn các yêu cầu mạng để đảm bảo quét dữ liệu toàn diện.
  • Shadow DOM : Truy cập các phần tử được đóng gói một cách hiệu quả bằng cách sử dụng các công cụ và kỹ thuật phù hợp.
  • Các biện pháp chống Bot : Sử dụng các công cụ quản lý phiên, xoay IP và lấy dấu vân tay để mở rộng nỗ lực thu thập dữ liệu trong khi tránh bị phát hiện.
  • Lớp động : Tập trung vào các thuộc tính và thuộc tính dữ liệu ổn định để duy trì độ bền của bộ cào.


Những lời khuyên thực tế và kinh nghiệm được chia sẻ của các tham luận viên đã cung cấp nền tảng vững chắc cho các nhà phát triển để tinh chỉnh các kỹ thuật quét web của họ. Bằng cách triển khai các chiến lược này, bạn có thể nâng cao khả năng thu thập dữ liệu của mình, giảm nỗ lực bảo trì và đảm bảo trích xuất dữ liệu thành công trên nhiều kiến trúc trang web khác nhau .


Nhìn chung, hội thảo trực tuyến là một nguồn tài nguyên vô giá, cung cấp quan điểm của chuyên gia và các giải pháp hữu ích cho những thách thức phổ biến về xử lý dữ liệu. Cho dù bạn là nhà phát triển dày dạn kinh nghiệm hay mới bắt đầu, những hiểu biết sâu sắc này chắc chắn sẽ nâng cao nỗ lực quét web của bạn.