
O Crawler4j é uma biblioteca Java com implementações que facilitam a criação de Web Crawler’s.
Existem várias configurações no Crawler4j que facilitam a utilização, mas a mais interessante é a possibilidade de configurar facilmente o número de Threads, possibilitando executar vários processos simultâneos.
O Web Crawler é muito utilizado hoje para buscar informações na web de forma automatizada.
Para quem trabalha com Big Data e Data Science, é uma ferramenta indispensável.
Por fazer buscas recursivas em link’s encontrados na página, pode ser necessário limitar o número de páginas a serem visitadas.
Acesse o tutorial completo em: https://nakatech.herokuapp.com/article/2021/crawler4j.html.