Um rastreador da web é um bot que se move por páginas da web e indexa seu conteúdo para que os usuários possam encontrá-lo em pesquisas subsequentes. Os bots mais proeminentes são operados pelos principais motores de busca. O Google possui vários bots de rastreamento da web; outros incluem o bot do Yahoo e o bot da empresa chinesa de tecnologia Baidu. Um rastreador da web viaja principalmente por páginas da web usando links externos e internos. Os rastreadores da Web também são chamados de spiders.
Se um proprietário de domínio da web deseja que seu site seja encontrado nas pesquisas, ele deve permitir o rastreamento da web. Os mecanismos de pesquisa apresentarão apenas páginas da web que descobriram por meio de rastreamento. Conforme um rastreador da web se move por uma página, ele indexa, ou registra, todas as informações relevantes na página (geralmente qualquer informação na página) para que possa puxar essas páginas quando um usuário faz uma consulta de mecanismo de pesquisa. Nem toda a Internet é indexada; os pesquisadores não têm certeza de quanto. Mas apenas páginas da web públicas podem ser acessadas por rastreadores da web; páginas privadas não podem. Um site também pode adicionar a extensão robots.txt ao HTML para páginas que não devem ser rastreadas por um bot, ou usar tags “noindex” no próprio HTML.
Rastreadores da web e SEO
Os rastreadores da Web encontram conteúdo para mecanismos de pesquisa; o que eles reúnem em uma página da web afeta a classificação de otimização do mecanismo de pesquisa dessa página. Se uma página tiver muitas palavras-chave e links relevantes quando for indexada, ela será exibida com mais destaque em um mecanismo de busca. Ter palavras-chave em lugares importantes, como cabeçalhos e metadados, também dá a uma página da web melhor visibilidade de SEO. Os rastreadores da web não prestam apenas atenção ao texto simples em uma página da web, eles também estudam os metadados e a maneira como os usuários respondem a uma página, por isso é importante para um site escolher metadados precisos para serem exibidos com mais precisão em um mecanismo de pesquisa - e ter conteúdo que responda a consultas de pesquisa relevantes.
Os crawler bots também têm sido usados para fins maliciosos, como espalhar conteúdo falso ou colher informações do usuário, e também para avaliar e influenciar a opinião.