Web scraping là việc sử dụng phần mềm tự động thu thập thông tin mong muốn từ một trang web, chuẩn hóa thông tin đó thành một định dạng hữu ích cho mục đích đã định và lưu trữ trong cơ sở dữ liệu ngoại tuyến để sử dụng sau này. Một thành phần cố hữu của Web scraping là trình thu thập thông tin web (Web crawler), điều hướng qua các trang web và truy cập vào tất cả các liên kết quan tâm. Thông thường, thu thập thông tin được thực hiện bằng cách yêu cầu trang HTML và sau đó phân tích cú pháp kết quả thô hoặc bằng cách sử dụng các khuôn khổ tự động hóa việc sử dụng các trình duyệt web thông thường. Mặc dù cách tiếp cận thứ hai phức tạp hơn và tiêu tốn nhiều tài nguyên hơn, nhưng nó có những lợi ích mà trình thu thập thông tin có thể sử dụng tất cả các tính năng của trình duyệt, chẳng hạn như việc sử dụng JavaScript.
Tài liệu tham khảo
1. K. Hemakumar and B. Prakash, "Learning based web crawl forum," International Conference on Information Communication and Embedded Systems (ICICES2014), 2014, pp. 1-7, doi: 10.1109/ICICES.2014.7033889.
2. K. Turk, S. Pastrana and B. Collier, "A tight scrape: methodological approaches to cybercrime research data collection in adversarial environments," 2020 IEEE European Symposium on Security and Privacy Workshops (EuroS&PW), 2020, pp. 428-437, doi: 10.1109/EuroSPW51379.2020.00064.