• Contato
  • Curiosidades
    • O Que é Kernel?
    • O Que é Linux?
    • O Que é Software Livre?
    • Unix: O Pai de Todos os Sistemas Operacionais
  • Velocimetro
  • Privacidade
  • Colabore
King Linux
segunda-feira, 1 março, 2021
No Result
View All Result
  • Setup menu at Appearance » Menus and assign menu to Main Navigation
No Result
View All Result
King Linux
No Result
View All Result

Google abre o código do seu ‘Web Crawler’ depois de 20 anos

by King Linux
2 de julho de 2019
in Noticias
0
COMPARTILHE ESTE ARTIGO 📢

O protocolo de exclusão de robôs do Google (REP), também conhecido como robots.txt, é um padrão usado por muitos websites para informar aos rastreadores automáticos que partes do site devem ser rastreadas ou não.

No entanto, não é o padrão adotado oficialmente, o que leva a diferentes interpretações. Em uma tentativa de tornar o REP um padrão oficial da Web, o Google abriu o analisador do robots.txt e a biblioteca C++ associada criada há 20 anos. Você pode encontrar a ferramenta no GitHub.

O REP foi concebido em 1994 por um engenheiro de software holandês, Martijn Koster, e hoje é o padrão de fato usado por sites para instruir rastreadores.

O rastreador Googlebot rastreia o arquivo robots.txt para encontrar instruções sobre quais partes do site devem ser ignoradas. Se não houver arquivo robots.txt, o bot assumirá que é OK rastrear todo o site.

No entanto, este protocolo foi interpretado “um pouco diferente ao longo dos anos” pelos desenvolvedores, o que levou a ambigüidade e dificuldade em “escrever as regras corretamente”.

Por exemplo, há incerteza em casos em que o “editor de texto inclui caracteres da lista de materiais em seus arquivos robots.txt”. Embora, para desenvolvedores de ferramentas e rastreadores, sempre haja incerteza sobre “como eles devem lidar com arquivos robots.txt com centenas de megabytes de tamanho?

Esta é a razão pela qual o Google quer que o REP seja oficialmente adotado como um padrão da Internet com regras fixas para todos. A empresa diz que documentou exatamente como o REP deve ser usado e submeteu sua proposta à Força-Tarefa de Engenharia da Internet (IETF).

ADVERTISEMENT

Embora não possamos dizer com certeza que o REP se tornará um padrão oficial, ele definitivamente ajudará os visitantes da Web, bem como os proprietários de sites, mostrando resultados de pesquisa mais consistentes e respeitando os desejos do site.

Fonte: FOSSBYTES

Tags: CrawlergoogleREPRobots.txt
Previous Post

Chave de segurança do Purism gerará as chaves diretamente no dispositivo, fabricada nos EUA

Next Post

Como configurar o UFW no Debian Buster

Next Post

Como configurar o UFW no Debian Buster

Faça uma Doação

A finalidade, é para ajudar que nosso site KingLinux não saia do ar e possamos continuar com a nossa contribuição à comunidade Linux e FOSS!

MANTENHA-SE ATUALIZADO

Digite seu E-mail e assine nosso boletim diário informativo:

Serviço disponibilizado por: Google FeedBurner

  • Contato
  • Curiosidades
  • Velocimetro
  • Privacidade
  • Colabore
WhatsApp: +55 12 99661 9330

©2018-2020 King Linux - Tudo Sobre Linux e Tecnologia Opensource

No Result
View All Result

©2018-2020 King Linux - Tudo Sobre Linux e Tecnologia Opensource

Login to your account below

Forgotten Password?

Fill the forms bellow to register

All fields are required. Log In

Retrieve your password

Please enter your username or email address to reset your password.

Log In
Utilizamos cookies para garantir que você tenha a melhor experiência em nosso site. Ao continuar visitando nosso site, você concorda com o uso de cookies. Visite nossa Política de Privacidade e Cookies .