
O protocolo de exclusão de robôs do Google (REP), também conhecido como robots.txt, é um padrão usado por muitos websites para informar aos rastreadores automáticos que partes do site devem ser rastreadas ou não.
No entanto, não é o padrão adotado oficialmente, o que leva a diferentes interpretações. Em uma tentativa de tornar o REP um padrão oficial da Web, o Google abriu o analisador do robots.txt e a biblioteca C++ associada criada há 20 anos. Você pode encontrar a ferramenta no GitHub.
O REP foi concebido em 1994 por um engenheiro de software holandês, Martijn Koster, e hoje é o padrão de fato usado por sites para instruir rastreadores.
O rastreador Googlebot rastreia o arquivo robots.txt para encontrar instruções sobre quais partes do site devem ser ignoradas. Se não houver arquivo robots.txt, o bot assumirá que é OK rastrear todo o site.
No entanto, este protocolo foi interpretado “um pouco diferente ao longo dos anos” pelos desenvolvedores, o que levou a ambigüidade e dificuldade em “escrever as regras corretamente”.
Por exemplo, há incerteza em casos em que o “editor de texto inclui caracteres da lista de materiais em seus arquivos robots.txt”. Embora, para desenvolvedores de ferramentas e rastreadores, sempre haja incerteza sobre “como eles devem lidar com arquivos robots.txt com centenas de megabytes de tamanho?
Esta é a razão pela qual o Google quer que o REP seja oficialmente adotado como um padrão da Internet com regras fixas para todos. A empresa diz que documentou exatamente como o REP deve ser usado e submeteu sua proposta à Força-Tarefa de Engenharia da Internet (IETF).
Embora não possamos dizer com certeza que o REP se tornará um padrão oficial, ele definitivamente ajudará os visitantes da Web, bem como os proprietários de sites, mostrando resultados de pesquisa mais consistentes e respeitando os desejos do site.
Fonte: FOSSBYTES