Web Crawlers e arquivo robots.txt
O que são Webcrawlers
Um webcrawler (rastreador web) é um bot da Internet que navega sistematicamente pelas páginas da web com o propósito de indexá-las.
Também é conhecido pelo nome de Web Spider.
Funcionamento de um Webcrawler
O webcrawler utiliza uma lista inicial de URLs para visitar, que são conhecidas como seeds (sementes).
Ele identifica todos os hyperlinks nessas URLs, e os adiciona à lista de URLs a visitar.
As páginas visitadas são então copiadas para serem processadas posteriormente com o intuito de indexá-las.
Os motores de busca utilizam webcrawlers para manterem seus bancos de dados atualizados.
Exemplo de Webcrawler
O webcrawler usado pelo Google para indexar as páginas da Web para construir a busca do google é o Googlebot
No endereço abaixo, é possível ler informações completas sobre esse webcrawler:
https://support.google.com/webmasters/answer/182072
Arquivo Robots.txt
Um arquivo robots.txt restringe acesso dos robôs webcrawlers a um site.
Os webcrawlers, antes de indexar um novo site descoberto, verificam se ele possui um arquivo robots.txt que os impeçam de acessar determinadas páginas.
No website abaixo encontramos informações sobre como criar e utilizar um arquivo robots.txt:
https://support.google.com/webmasters/answer/156449
Escreva um comentário