Crawler4j – Nakatani's Concept place

O Crawler4j é uma biblioteca Java com implementações que facilitam a criação de Web Crawler’s.

Existem várias configurações no Crawler4j que facilitam a utilização, mas a mais interessante é a possibilidade de configurar facilmente o número de Threads, possibilitando executar vários processos simultâneos.

O Web Crawler é muito utilizado hoje para buscar informações na web de forma automatizada.

Para quem trabalha com Big Data e Data Science, é uma ferramenta indispensável.

Por fazer buscas recursivas em link’s encontrados na página, pode ser necessário limitar o número de páginas a serem visitadas.

Acesse o tutorial completo em: https://nakatech.herokuapp.com/article/2021/crawler4j.html.