Robots.txt na indexação de sites

Existe um arquivo específico que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. É o “robots.txt“. Ele deve ser colocar no diretório raiz do site e é o primeiro arquivo que os bots de busca procuram em um site. Nele você pode escolher os diretórios e arquivos que você deseja excluir das ferramentas de busca. O uso mais comum é evitar indexação de páginas logadas ou que possuam arquivos privados.

Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca:
User-agent: *
Disallow: /

O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo.

Um exemplo prático seria evitar a indexação de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro diretórios.

User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa

O sinal de tralha serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para a equipe que administra o site.

Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total:
User-agent: *
Disallow:

Você pode criar regras específicas para cada bot de busca. Para isto basta trocar o asterisco do User-agent pelo nome do bot. Cada bot ou spider tem um nome específico. Eles também são conhecidos como agentes. O agente do Google é o Googlebot, o do Yahoo! é o Slurp e o da MSN Busca é o MSNBot. Existem bots também para imagens por exemplo. O do Google é o Googlebot-Image, o do Yahoo é o yahoo-mmcrawler e o da MSN Busca o psbot. Um exemplo para excluir a indexação do Google seria:
User-agent: Googlebot
Disallow: /

Com isto, nada do site seria indexado pelo Google, mas outras ferramentas poderiam indexar normalmente.

O Robots.txt é extremamente útil, pois permite a retirada automatizada de páginas e do conteúdo de um site das páginas de resultado dos sites de busca. Ele também é bastante flexível permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.

51 Comentários »

  1. Juliana

    Setembro 16, 2006 @ 7:20 pm

    parabéns pelo artigo. achei muito bom e vou procurar maiores informações e subir rapidamente para os clientes da agência.

  2. Geraldo Monnerat

    Outubro 15, 2006 @ 1:05 am

    Artigo claro e sucinto sobre os Robots.txt. Apesar de simples o assunto, muitos não entendem a função do robots.txt

  3. viviani

    Novembro 15, 2006 @ 1:56 pm

    Parabens pela belo site , visitarei sempre
    elucidou algumas dúvidas
    att
    viviani funari

  4. Luiz Fabiano

    Novembro 25, 2006 @ 12:42 pm

    Muito bom o artigo… como disse o Geraldo, sucinto e objetivo. Parabéns pela iniciativa.

  5. Daniel Assumpção

    Dezembro 2, 2006 @ 8:21 pm

    Adorei este tópico, valeu ;)

  6. Edivaldo

    Dezembro 31, 2006 @ 4:20 pm

    Achei um pouco fonfuso. Se voce coloca o User-Agent: * parece que ele varre todo o site. Olha o que vocês escreveram:
    ——————————————————
    Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca:
    User-agent: *
    Disallow: /

    Veja outro texto logo abaixo:
    ————————————————————-
    Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total:
    User-agent: *
    Disallow:
    ————————————————————–
    Será que estou enganado, ou é somente a barra \”/\” que faz a diferença?

    Acho que deveria ser assim, para indexar totas as páginas do site
    User-agent: *
    Allow: /

    —– ou assim para restringir alguns diretórios —-
    User-agent: *
    Allow: /
    Disallow: /pasta1/
    Disallow: /pasta2/

  7. Paulo Rodrigo Teixeira

    Janeiro 2, 2007 @ 5:52 am

    Sim Edvaldo, apenas a / faz toda a diferença.

    No último caso, apenas colocar o Disallow teria o mesmo efeito. O Allow não altera em nada.

    Grande abraço,

  8. Túlio Vargas

    Janeiro 2, 2007 @ 11:55 am

    Muito legal o artigo !!
    Um abraço

  9. Marcelo Leite

    Janeiro 17, 2007 @ 10:57 am

    Ótimo artigo! Mas como faço para impedir que alguém veja o arquivo robots.txt?

    Por exemplo, se alguém digitar ‘www.meusite/robots.txt’, vai conseguir ver o que estou bloqueando. Isso não parece interessante. Como faço para impedir o acesso a ele?

    Obrigado, grande abraço!

  10. Marcelo Leite

    Janeiro 17, 2007 @ 11:06 am

    Desculpe, surgiu outra dúvida:
    Se quiser bloquear alguma pasta, devo fazer assim:

    User-agent: *
    Disallow: /pasta

    Ou assim:

    User-agent: *
    Disallow:
    Disallow: /pasta

    Obrigado!

  11. Paulo Rodrigo Teixeira

    Janeiro 17, 2007 @ 11:27 am

    Oi Marcelo,

    Vamos as dúvidas:
    - Impedir alguém de ver o robots:
    Eu pessoalmente não vejo problema que vejam os meu robots, mas uma possível solução é editar o seu arquivo .htaccess bloqueando o User-Agent dos navegadores. Isto deixaria livre para os spiders indexarem normalmente. Prefiro deixar liberado para todos.

    - Bloqueando uma pasta
    A melhor é a primeira solução, mas inclua a / depois do nome da pasta.

    Grande abraço,

  12. Marcelo Leite

    Janeiro 17, 2007 @ 12:44 pm

    Obrigado pela pronta resposta.

    Pensando bem, acho que você tem razão, é besteira impedir o acesso. Se for algo realmente confidencial tem a pasta _private para isso. Não precisa se preocupar com a indexação.

    Sobre bloquear a pasta, valeu! .-)
    Grande abraço… adicionei seu feed.

  13. Mariano

    Janeiro 28, 2007 @ 8:18 am

    Sinceramente, se você não deseja bloquear nenhum diretório de seu site, é preferível deixar seu site sem o robots.txt, porque a indexação dos arquivos não será afetada. Ocorreram casos de pessoas que criaram o robots.txt e o Google bloqueou por acidente ou erro de programa a indexação de todos os arquivos, fazendo o pagerank despencar vertiginosamente. Pergunto: Vale a pena correr o risco? Se alguém tiver melhor consideração, favor postar.

  14. Paulo Rodrigo Teixeira

    Janeiro 28, 2007 @ 7:12 pm

    Oi Mariano,

    Realmente o default dos robôs é indexar o site, porém os próprios sites de busca ficam procurando o arquivo no seu site dando erro 404. Não é obrigatório ter o arquivo, mas

    Nunca ouvi falar de um acidente do Google bloqueando um site entendendo errado um robots.txt. Você considera arriscado ou difícil criar um arquivo de texto com esta sintaxe:
    User-agent: *
    Disallow:

    Vale o esforço de ter o arquivo. É uma forma educada de formalizar que seu site está aberto aos sites de busca.

    Grande abraço

  15. Lucas Castro

    Janeiro 30, 2007 @ 11:45 pm

    O robots.txt é um padrão e como outro qualquer deve ser valorizado sem pensar em melhorias. O correto é que seja implementado, evitaria problemas.

    Muitos usuários podem alegar que não sabiam da existência do padrão, e tentar processar os sites de busca por indexarem seus sites. Querendo ou não, os sites indexarem tudo que aparece na frente, pode parecer chato. É um trabalho sujo que alguém tem que fazer.

    Além disso, vai parar de dar os erros 404 como o Paulo mesmo disse.

  16. Eduardo Stefanelli

    Fevereiro 12, 2007 @ 1:52 am

    Show!

  17. Rozenblitz

    Março 6, 2007 @ 3:54 pm

    olá,

    acabei de encontrar este site e achei ótimo o tutorial, mas tenho uma dúvida também: você diz “mas inclua a / depois do nome da pasta” no entato, fiz um teste no seu gerador de robots e o arquivo gerado não inclui a / no final. Qual o certo?

  18. Paulo Rodrigo Teixeira

    Março 6, 2007 @ 6:25 pm

    Oi Rozenblitz,

    A boa prática é ter a / no final, mas o robot entenderá a mesma coisa.

    Para incluir a barra no fim do diretorio, o gerador de robots teria que checar se o fim da string é .htm, .html, .php, .asp e todas as extensões possíves e futuras em sites. Preferi não incluir a barra para deixar o script com menos chance de erro.

    Assim, qualquer mudança no futuro não impacta o serviço.

    Grande abraço,

  19. Patrick Tytgadt

    Março 20, 2007 @ 12:39 am

    Estive tentando colocar o robots, porem ja se passaram mais de 70 dias e mesmo assim nao encontro meu site pelas palavras chave no Google e Yahoo… Sera que fiz algo errado?
    Obrigado

  20. Paulo Rodrigo Teixeira

    Março 20, 2007 @ 3:05 pm

    Patrick,

    Vou montar um post para explicar sobre isto, mas a resposta simples é ter links apontando para sua página.

    Grande abraço,

  21. Roberto Pierre

    Abril 5, 2007 @ 11:28 pm

    Paulo Rodrigo,

    Aprendi muito com as explicações, gostaria de saber mais uma coisa: o que é ter links apontando para minha página?

    Abraços
    Robeto Pierre

  22. Rozenblitz

    Abril 11, 2007 @ 12:56 am

    Olá, voltei :)

    Tenho uma situação curiosa: há um mês atrás fiz um robots.txt seguindo todas as instruções e coloquei no servidor (acho que fiz certo, vejam: http://img227.imageshack.us/img227/2100/robotsxb5.gif ), e teoricamente APENAS os bots descritos no arquivo deveriam continuar entrando no site, mas vejam as estatísticas recentes: http://img412.imageshack.us/img412/2152/robotsurchin2yz6.gif
    Notem também os três últimos nomes no final da estatística: que diabo é aquilo ?????.

    Tem alguma coisa errada como o meu robots.txt ???

    Se puder dar uma luz, mui grato ;)

  23. Evitando conteúdo duplicado em seu site ou blog · No Topo das Buscas

    Abril 14, 2007 @ 3:08 pm

    [...] Maiores informações sobre arquivos robots.txt e meta tags robots “noindex”, você poderá encontrar nos artigos Robots.txt – controlando o que os mecanismos de busca NÃO devem indexar, Robots.txt na indexação de sites, Quais e como utilizar as Meta Tags na sua página e Como utilizar a meta tag robots e como o Googlebot a interpreta. Existe até uma ferramenta super interessante para gerar o arquivo robots.txt no site Marketing de Busca. Confiram: http://www.marketingdebusca.com.br/robots-txt/  [...]

  24. Cabeca89

    Abril 19, 2007 @ 1:51 pm

    Só uma dúvida, eu devo colocar o robots.txt na pasta “/” ou dentro da “/www/”?

    Desde ja agradeço.

  25. Raphael Monteiro barboza

    Abril 23, 2007 @ 12:31 am

    muito bom este artigo. é uma coisa bem simples de se fazer e quanto menos erros nossos sites tiverem. mais eles ficam bem colocando. bom entao mesmo que não desabilite nennuma pagina devemos sim colocar o txt.

  26. Patrick Araujo

    Maio 22, 2007 @ 2:13 pm

    Paulo Rodrigo… Obrigado pela dica…. já comecei a apontar os sites e já estou vendo os resultados.

  27. Giovanni

    Maio 23, 2007 @ 8:52 am

    Cabeca89: Dentro da /www/…

  28. Alvares

    Junho 7, 2007 @ 7:47 pm

    muito bom esse post, há muitas pessoas que não sabem direito o porque o uso do arquivo robots.txt e sua importância. Parabéns!

  29. Éttore Murback

    Junho 22, 2007 @ 1:50 pm

    muito bom o site, e especificamente esta explicaçao sobre o robots.txt. Muito simples, clara e objetiva! Parabéns! Uma sugestão: os posts que sao colocados poderiam ser ao contrario… os mais recentes lá em cima…

  30. Éttore Murback

    Junho 22, 2007 @ 1:51 pm

    desculpe… posts nao, e sim comentarios…

  31. Charles

    Julho 31, 2007 @ 1:49 pm

    Parabéns pelo artigo. Ficou bem didático.
    Mas, tenho uma pequena dúvida. Meu site está atualmente em construção e tenho que deixar muita coisa online, mas não gostaria (neste momento) que os robôs varressem o site. Pensei em criar um robots.txt assim (na raiz):
    User-agent: *
    Disallow: /
    Daqui a algum tempo, quando o site estiver pronto, pretendo criar um novo robots.txt (desabilitando apenas subpastas administrativas), daí abrindo a porta para os robôs (quanto mais indexarem melhor).
    Minha dúvida é: meu primeiro robots.txt não desviaria definitivamente os buscadores? Como dizer ao Google (e outros) “agora entrem de novo no meu site/robots.txt”?

  32. Leandro

    Setembro 26, 2007 @ 3:41 pm

    Existe algum truque que eu possa usar para deixar um site em primeiro nos site de busca? (sem ter que pagar aqueles planos caro pra caramba).

  33. Rodrigo

    Setembro 27, 2007 @ 6:28 pm

    Estou terminando a montagem de meu site e achei muito boas as dicas, e como sou leigo ainda neste assunto gostaria de saber se tenho que colocar este código no html ou dentro de um arquivo salvo na pasta. desculpe a pergunta.

    Abraço e fiquem com DEUS.

  34. Patrick Araujo

    Setembro 29, 2007 @ 1:32 pm

    Muito boas as dicas. Obrigado!

  35. Djacir Porto

    Janeiro 24, 2008 @ 11:27 pm

    Achei legal. Nas ferramentas do Google via uma advertência informamdo da ausência do arquivo robosts.txt e pensava que era obrigatório. Valeu

  36. Paulo Villela

    Janeiro 26, 2008 @ 7:08 pm

    Paulo,
    Estou com um problema, onde o Google está indexando os arquivos dos subdominios no dominio principal.
    Ou seja, algumas páginas e posts, ao invés de ser indexados no subdominio, ele é no dominio principal, entende.
    É possível bloquear os subdominios via robots?
    Achei estranho isso, já que os sitemaps estão certos, não entendo porque ele está fazendo isso.
    abs

  37. EnterNauta

    Janeiro 28, 2008 @ 5:58 pm

    Robots.txt: como usar…

    Robots são as unidades utilizadas por mecanismos de busca para indexar as páginas da web. Quem tem um site pode dar certas instruções ao robot inserindo um arquivo de texto na pasta raiz de nome robots.txt. Pois, se o robot chegar à página, e est…

  38. Diego

    Janeiro 30, 2008 @ 2:44 pm

    Atualmente meu site está na primeira página do google digitando na busca pelo nome da minha empresa, mesmo assim é conveniente eu colocar o robots.txt ???

    com a seguinte especificação:

    User-agent: *
    Disallow:

    Por mim quero que todos os buscadores façam a varredura no meu site, e que todos possam ver o conteúdo de todas as páginas

    Seria como o Paulo Rodrigo Teixeira disse que é uma forma de formalização para que não fique dando erro 404 ?

    Obrigado pela ajuda, e mais ainda pela matéria esclarecedora

    Diego Barbosa

  39. Alezy Oliveira

    Fevereiro 7, 2008 @ 9:14 pm

    Obrigado pelas dicas!
    Tô começando meu sitezinho agora e isso já foi de grande importância

    Abração a todos!

  40. Cláudio

    Fevereiro 21, 2008 @ 12:41 am

    Obrigado pelo artigo e parabéns pela iniciativa.

  41. W_Junior

    Março 18, 2008 @ 11:45 am

    Me parece que um script na minha pagina atrapalha o google image indexar minhas imagens.. como faço pra contornar o problema sem mudar o script.. meu site eh http://www.smarta.com.br .. veja as tags

  42. Marçal

    Março 22, 2008 @ 8:02 pm

    Ótimo, mesmo que o post seja antigo.

  43. Bruno

    Junho 5, 2008 @ 4:25 pm

    Muito bem escrito. Parabéns!
    irei recomendar este site.
    Eu gostaria de me aprofundar nestas linguagens.
    Poderia me indicar algum livro(s), sobre os temas: SEO, SEM “robots.txt etc.
    Eu tenho a intenção de me especializar!

  44. Paulo

    Junho 6, 2008 @ 11:35 am

    Paulo,
    Tenho visto pela internet a fora, inúmeros modelos de robots.txt ideal para o wordpress. Alguns diferentes dos outros. Para você, qual seria o ideal?
    Além disso, fica a dúvida entre o que deve desabilitar para googlebot e para os outros robots (*).
    abs

  45. SEO no Google as novas regras - SEO Cast

    Junho 11, 2008 @ 3:05 am

    [...] Quanto a questão do REP (Robots Exclusion Protocol) ou o nosso conhecido robots.txt o Google não trouxe muitas novidades além das já conhecidas, apenas deixou bem claro o que valhe e não valhe. Se você está por fora o Paulo do marketingdebusca te deixa por dentro: robots.txt [...]

  46. Live BR

    Agosto 6, 2008 @ 8:52 pm

    Muito interessante, gostei muito, vou aproveitar pra me espelhar em dicas como essa que são muito valiosas.

  47. Leandro

    Agosto 20, 2008 @ 5:58 pm

    Muito obrigado pelas dicas!

    http://www.sucodecevada.com.br

  48. Extrema

    Setembro 6, 2008 @ 9:15 pm

    Também pode-se colocar um arquivo txt para PERMIÇÃO, veja o código abaixo:

    User-Agent: *
    Allow: /exemplo.html

  49. David Rabello

    Setembro 23, 2008 @ 3:21 pm

    Exelente artigo.

  50. Daniel

    Setembro 24, 2008 @ 6:05 pm

    Montei um site que tem páginas quase identicas, além de outras com imagens e pouco texto (e imagens sem Comentarios ALT), o que pode trazer problemas quando o Googlebot e outros forem indexá-lo. Sugeriram que eu fizesse uma página com Mapa do Site. Além disso, há muitas páginas no site, mais de 40, e não acho que devo indexar todas (principalmente as que podem traze problemas…)

    Como posso indicar no robots.txt que quero impedir por exemplo a indexação de todas as páginas com exceção da homepage e da página com Mapa do Site, sem ter que colocar uma linha de regra para cada página bloqueada?

    Seria assim?

    User-agent: *
    Disallow: /
    Allow: /index.htm
    Allow: /index.htm/mapa-do-site.html

    Obrigado!

  51. Himler Auguste Strabbs

    Novembro 12, 2008 @ 3:02 pm

    No caso do Google é melhor especificar o robot ou ele sai indexando tudo.

URI do TrackBack

Comente