Erros Robots.txt

8 Problemas Comuns em Robots.txt e Como Resolvê-los

O arquivo Robots.txt é uma ferramenta útil e poderosa para direcionar os rastreadores de motores de busca sobre como você deseja que eles naveguem pelo seu site.

Administrar esse arquivo é um componente chave para um SEO técnico eficaz. Embora não seja onipotente – nas próprias palavras do Google, "não é um mecanismo para manter uma página da web fora do Google" – ele pode ajudar a evitar que seu site ou servidor seja sobrecarregado por solicitações de rastreadores.

Se você está utilizando esse bloqueio de rastreamento em seu site, é crucial garantir seu uso correto.

Isso é especialmente importante se você utiliza URLs dinâmicas ou outros métodos que geram um número teoricamente infinito de páginas.

Neste guia, exploraremos alguns dos problemas mais comuns com o arquivo robots.txt, seu impacto no seu site e presença online, e como resolver esses problemas caso ocorram. Mas antes, vamos entender melhor o robots.txt e suas alternativas.

Índice de Conteúdos
  1. Quão perigosos são os erros em Robots.txt?
  2. 8 Erros Comuns em Robots.txt
    1. 1. Robots.txt não está no diretório raiz
    2. 2. Uso inadequado de Wildcards
    3. 3. Noindex em Robots.txt
    4. 4. Scripts e CSS bloqueados
    5. 5. Sem URL do Sitemap XML
    6. 6. Acesso a sites de desenvolvimento
    7. 7. Uso de URLs absolutas
    8. 8. Elementos desatualizados e não suportados
  3. Como se recuperar de um erro em Robots.txt

Quão perigosos são os erros em Robots.txt?

Um erro em robots.txt pode ter consequências indesejadas, mas frequentemente não é o fim do mundo. A boa notícia é que corrigindo seu arquivo robots.txt, você pode se recuperar de quaisquer erros rapidamente e, na maioria das vezes, completamente.

A orientação do Google para desenvolvedores web sobre erros em robots.txt é: "Os rastreadores da web são geralmente muito flexíveis e normalmente não serão dissuadidos por pequenos erros no arquivo robots.txt.

Na pior das hipóteses, diretivas incorretas ou não suportadas serão ignoradas. Tenha em mente, porém, que o Google não pode ler mentes ao interpretar um arquivo robots.txt; temos que interpretar o arquivo robots.txt que buscamos.

Dito isso, se você está ciente de problemas em seu arquivo robots.txt, eles geralmente são fáceis de corrigir."

8 Erros Comuns em Robots.txt

  1. Robots.txt não está no diretório raiz.
  2. Uso inadequado de Wildcards.
  3. Noindex no Robots.txt.
  4. Scripts e CSS bloqueados.
  5. Sem URL no Sitemap.
  6. Acesso a sites de desenvolvimento.
  7. Uso de URLs absolutas.
  8. Elementos desatualizados e não suportados.

Se seu site está se comportando de maneira estranha nos resultados de busca, seu arquivo robots.txt é um bom lugar para verificar erros de sintaxe e regras excessivas. Vamos examinar cada um dos erros acima em mais detalhes e ver como garantir que você tenha um arquivo robots.txt válido.

1. Robots.txt não está no diretório raiz

Os robôs de busca só podem descobrir o arquivo se ele estiver na sua pasta raiz.

Por isso, deve haver apenas uma barra ("/") entre o .com (ou domínio equivalente) do seu site e o nome do arquivo 'robots.txt' na URL do seu arquivo robots.txt.

Se houver uma subpasta, seu arquivo robots.txt provavelmente não está visível para os robôs de busca, e seu site provavelmente está se comportando como se não houvesse arquivo robots.txt.

Para resolver esse problema, mova seu arquivo robots.txt para o diretório raiz.

Vale a pena notar que isso exigirá que você tenha acesso à raiz do seu servidor. Alguns sistemas de gerenciamento de conteúdo carregam arquivos em um subdiretório "media" (ou algo semelhante) por padrão, então você pode precisar contornar isso para colocar seu arquivo robots.txt no lugar certo.

2. Uso inadequado de Wildcards

O arquivo robots.txt suporta dois caracteres:

  • Asterisco (*) – representa qualquer instância de um caractere válido, como um Curinga em um baralho de cartas.
  • Sinal de dólar ($) – denota o final de uma URL, permitindo que você aplique regras apenas à parte final da URL, como a extensão do tipo de arquivo.

É sensato adotar uma abordagem minimalista ao usar wildcards, pois eles têm o potencial de aplicar restrições a uma parte muito mais ampla do seu site.

Também é relativamente fácil acabar bloqueando o acesso dos robôs a todo o seu site com um asterisco mal colocado.

Teste suas regras usando uma ferramenta de teste de robots.txt para garantir que elas se comportem conforme o esperado.

Tenha cautela com o uso de wildcards para evitar bloquear ou permitir acesso demais acidentalmente.

3. Noindex em Robots.txt

Este é mais comum em sites com mais de alguns anos. O Google parou de obedecer às regras de noindex em arquivos robots.txt a partir de 1º de setembro de 2019.

Se o seu arquivo robots.txt foi criado antes dessa data ou contém instruções de noindex, é provável que você veja essas páginas indexadas nos resultados de busca do Google.

A solução para esse problema é implementar um método alternativo de "noindex". Uma opção é a meta tag robots, que você pode adicionar ao cabeçalho de qualquer página da web que deseja impedir que o Google indexe.

4. Scripts e CSS bloqueados

Pode parecer lógico bloquear o acesso dos rastreadores a JavaScripts externos e folhas de estilo em cascata (CSS). No entanto, lembre-se de que o Googlebot precisa de acesso aos arquivos CSS e JS para "ver" suas páginas HTML e PHP corretamente.

Se suas páginas estão se comportando de forma estranha nos resultados do Google, ou parece que o Google não está vendo-as corretamente, verifique se você está bloqueando o acesso dos rastreadores a arquivos externos necessários.

Uma solução simples para isso é remover a linha do seu arquivo robots.txt que está bloqueando o acesso.

Ou, se você tem alguns arquivos que precisa bloquear, insira uma exceção que restaure o acesso aos CSS e JavaScript necessários.

5. Sem URL do Sitemap XML

Isso é mais sobre SEO do que qualquer outra coisa. Você pode incluir a URL do seu sitemap XML no seu arquivo robots.txt.

Como este é o primeiro lugar que o Googlebot olha quando rastreia seu site, isso dá ao rastreador uma vantagem em conhecer a estrutura e as principais páginas do seu site.

Embora isso não seja estritamente um erro – pois omitir um sitemap não deve afetar negativamente a funcionalidade e aparência central do seu site nos resultados de busca – ainda vale a pena adicionar sua URL do sitemap ao robots.txt se você deseja impulsionar seus esforços de SEO.

6. Acesso a sites de desenvolvimento

A melhor prática é adicionar uma instrução de desautorização ao arquivo robots.txt de um site em construção para que o público em geral não o veja até que esteja concluído.

Da mesma forma, é crucial remover a instrução de desautorização quando você lançar um site concluído.

Esquecer de remover essa linha do robots.txt é um dos erros mais comuns entre os desenvolvedores web; e pode impedir que todo o seu site seja rastreado e indexado corretamente.

Se seu site de desenvolvimento parece estar recebendo tráfego do mundo real, ou seu site recém-lançado não está se saindo bem na busca, procure por uma regra de desautorização de agente de usuário universal em seu arquivo robots.txt: User-Agent: * Disallow: / Se você vir isso quando não deveria (ou não ver quando deveria), faça as alterações necessárias no seu arquivo robots.txt e verifique se a busca do seu site é atualizada de acordo.

7. Uso de URLs absolutas

Embora usar URLs absolutas em páginas canônicas e hreflang seja a melhor prática, para URLs no arquivo robots.txt, o inverso é verdadeiro.

Usar caminhos relativos no arquivo robots.txt é a abordagem recomendada para indicar quais partes de um site não devem ser acessadas por rastreadores.

Isso está detalhado na documentação do robots.txt do Google, que afirma: Uma diretória ou página, relativa ao domínio raiz, que pode ser rastreada pelo agente de usuário recém-mencionado.

Quando você usa uma URL absoluta, não há garantia de que os rastreadores interpretarão como pretendido e que a regra de desautorização/autorização será seguida.

8. Elementos desatualizados e não suportados

Embora as diretrizes para arquivos robots.txt não tenham mudado muito ao longo dos anos, dois elementos que são frequentemente incluídos são: * Crawl-delay. * Noindex.

Embora o Bing suporte crawl-delay, o Google não, mas é frequentemente especificado por webmasters. Você costumava ser capaz de definir configurações de rastreamento no Google Search Console, mas isso foi removido perto do final de 2023.

O Google anunciou que deixaria de suportar a diretiva noindex em arquivos robots.txt em julho de 2019. Antes dessa data, os webmasters podiam usar a diretiva noindex em seu arquivo robots.txt.

Isso não era uma prática amplamente suportada ou padronizada, e o método preferido para noindex era usar robôs de página ou medidas de x-robôs em nível de página.

Como se recuperar de um erro em Robots.txt

Se um erro em robots.txt tiver efeitos indesejados na busca do seu site, o primeiro passo é corrigir o robots.txt e verificar se as novas regras têm o efeito desejado.

Algumas ferramentas de rastreamento SEO podem ajudar para que você não precise esperar que os motores de busca rastreiem seu site novamente.

Quando você estiver confiante de que o robots.txt está se comportando conforme desejado, tente fazer com que seu site seja rastreado novamente o mais rápido possível.

Plataformas como Google Search Console e Bing Webmaster Tools podem ajudar. Envie um sitemap atualizado e solicite um novo rastreamento de quaisquer páginas que tenham sido indevidamente desindexadas.

Infelizmente, você está à mercê do Googlebot – não há garantia de quanto tempo pode levar para que quaisquer páginas ausentes reapareçam no índice de busca do Google.

Tudo o que você pode fazer é tomar a ação correta para minimizar esse tempo tanto quanto possível e continuar verificando até que o Googlebot implemente o robots.txt corrigido.

Thiago Barbosa

Especialista em Marketing Digital

Relacionado

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Sua pontuação: Útil

Sobe