Web Crawlers e arquivo robots.txt

O que são Webcrawlers

Um webcrawler (rastreador web) é um bot da Internet que navega sistematicamente pelas páginas da web com o propósito de indexá-las.

Também é conhecido pelo nome de Web Spider.

Funcionamento de um Webcrawler

O webcrawler utiliza uma lista inicial de URLs para visitar, que são conhecidas como seeds (sementes).

Ele identifica todos os hyperlinks nessas URLs, e os adiciona à lista de URLs a visitar.

As páginas visitadas são então copiadas para serem processadas posteriormente com o intuito de indexá-las.

Os motores de busca utilizam webcrawlers para manterem seus bancos de dados atualizados.

Exemplo de Webcrawler

O webcrawler usado pelo Google para indexar as páginas da Web para construir a busca do google é o Googlebot

No endereço abaixo, é possível ler informações completas sobre esse webcrawler:

https://support.google.com/webmasters/answer/182072

Arquivo Robots.txt

Um arquivo robots.txt restringe acesso dos robôs webcrawlers a um site.

Os webcrawlers, antes de indexar um novo site descoberto, verificam se ele possui um arquivo robots.txt que os impeçam de acessar determinadas páginas.

No website abaixo encontramos informações sobre como criar e utilizar um arquivo robots.txt:

https://support.google.com/webmasters/answer/156449

 

Sobre Fábio dos Reis (1332 Artigos)
Fábio dos Reis trabalha com tecnologias variadas há mais de 25 anos, tendo atuado nos campos de Eletrônica, Telecomunicações, Programação de Computadores e Redes de Dados. É um entusiasta de Unix, Linux e Open Source em geral, adora Eletrônica e Música, e estuda idiomas, além de ministrar cursos e palestras sobre diversas tecnologias em São Paulo e outras cidades do Brasil.
Contato: Website

Escreva um comentário

Seu e-mail não será divulgado


*