Web Crawlers e arquivo robots.txt

Postado Em 03/10/2013 [data do post] por Fábio dos Reis [autor do post] em Segurança [categoria do post]

O que são Webcrawlers

Um webcrawler (rastreador web) é um bot da Internet que navega sistematicamente pelas páginas da web com o propósito de indexá-las.

Também é conhecido pelo nome de Web Spider.

Funcionamento de um Webcrawler

O webcrawler utiliza uma lista inicial de URLs para visitar, que são conhecidas como seeds (sementes).

Ele identifica todos os hyperlinks nessas URLs, e os adiciona à lista de URLs a visitar.

As páginas visitadas são então copiadas para serem processadas posteriormente com o intuito de indexá-las.

Os motores de busca utilizam webcrawlers para manterem seus bancos de dados atualizados.

Exemplo de Webcrawler

O webcrawler usado pelo Google para indexar as páginas da Web para construir a busca do google é o Googlebot

No endereço abaixo, é possível ler informações completas sobre esse webcrawler:

https://support.google.com/webmasters/answer/182072

Arquivo Robots.txt

Um arquivo robots.txt restringe acesso dos robôs webcrawlers a um site.

Os webcrawlers, antes de indexar um novo site descoberto, verificam se ele possui um arquivo robots.txt que os impeçam de acessar determinadas páginas.

No website abaixo encontramos informações sobre como criar e utilizar um arquivo robots.txt:

https://support.google.com/webmasters/answer/156449

Bóson Treinamentos em Ciência e Tecnologia

Aprenda Desenvolvimento de Software, Bancos de Dados, Linux, SQL, Excel, Lógica de Programação, Hardware, Eletrônica, Arduino e muito mais!

Web Crawlers e arquivo robots.txt

O que são Webcrawlers

Arquivo Robots.txt

Sobre Fábio dos Reis (1195 Artigos)

Escreva um comentário Cancelar resposta

O que são Webcrawlers

Arquivo Robots.txt

Sobre Fábio dos Reis (1195 Artigos)

Artigos Relacionados

Usando o comando sudo e arquivo sudoers no Linux

Curso de MySQL – Gerenciamento de Usuários do sistema – Criar, Consultar, Renomear e Excluir

Firewall iptables no Linux – Parte 05: Compartilhamento de Internet

O arquivo de senhas /etc/shadow no Linux

Servidor SSH – Conceitos básicos e conexão por senha no Linux

Escreva um comentário Cancelar resposta