Robots.txt na indexação de sites

Existe um arquivo específico que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. É o “robots.txt“. Ele deve ser colocar no diretório raiz do site e é o primeiro arquivo que os bots de busca procuram em um site. Nele você pode escolher os diretórios e arquivos que você deseja excluir das ferramentas de busca. O uso mais comum é evitar indexação de páginas logadas ou que possuam arquivos privados.

Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca:
User-agent: *
Disallow: /

O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo.

Um exemplo prático seria evitar a indexação de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro diretórios.

User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa

O sinal de tralha serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para a equipe que administra o site.

Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total:
User-agent: *
Disallow:

Você pode criar regras específicas para cada bot de busca. Para isto basta trocar o asterisco do User-agent pelo nome do bot. Cada bot ou spider tem um nome específico. Eles também são conhecidos como agentes. O agente do Google é o Googlebot, o do Yahoo! é o Slurp e o da MSN Busca é o MSNBot. Existem bots também para imagens por exemplo. O do Google é o Googlebot-Image, o do Yahoo é o yahoo-mmcrawler e o da MSN Busca o psbot. Um exemplo para excluir a indexação do Google seria:
User-agent: Googlebot
Disallow: /

Com isto, nada do site seria indexado pelo Google, mas outras ferramentas poderiam indexar normalmente.

O Robots.txt é extremamente útil, pois permite a retirada automatizada de páginas e do conteúdo de um site das páginas de resultado dos sites de busca. Ele também é bastante flexível permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.

60 Comentários »

  1. Juliana

    September 16, 2006 @ 7:20 pm

    parabéns pelo artigo. achei muito bom e vou procurar maiores informações e subir rapidamente para os clientes da agência.

  2. Geraldo Monnerat

    October 15, 2006 @ 1:05 am

    Artigo claro e sucinto sobre os Robots.txt. Apesar de simples o assunto, muitos não entendem a função do robots.txt

  3. viviani

    November 15, 2006 @ 1:56 pm

    Parabens pela belo site , visitarei sempre
    elucidou algumas dúvidas
    att
    viviani funari

  4. Luiz Fabiano

    November 25, 2006 @ 12:42 pm

    Muito bom o artigo… como disse o Geraldo, sucinto e objetivo. Parabéns pela iniciativa.

  5. Daniel Assumpção

    December 2, 2006 @ 8:21 pm

    Adorei este tópico, valeu ;)

  6. Edivaldo

    December 31, 2006 @ 4:20 pm

    Achei um pouco fonfuso. Se voce coloca o User-Agent: * parece que ele varre todo o site. Olha o que vocês escreveram:
    ——————————————————
    Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca:
    User-agent: *
    Disallow: /

    Veja outro texto logo abaixo:
    ————————————————————-
    Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total:
    User-agent: *
    Disallow:
    ————————————————————–
    Será que estou enganado, ou é somente a barra \”/\” que faz a diferença?

    Acho que deveria ser assim, para indexar totas as páginas do site
    User-agent: *
    Allow: /

    —– ou assim para restringir alguns diretórios —-
    User-agent: *
    Allow: /
    Disallow: /pasta1/
    Disallow: /pasta2/

  7. Paulo Rodrigo Teixeira

    January 2, 2007 @ 5:52 am

    Sim Edvaldo, apenas a / faz toda a diferença.

    No último caso, apenas colocar o Disallow teria o mesmo efeito. O Allow não altera em nada.

    Grande abraço,

  8. Túlio Vargas

    January 2, 2007 @ 11:55 am

    Muito legal o artigo !!
    Um abraço

  9. Marcelo Leite

    January 17, 2007 @ 10:57 am

    Ótimo artigo! Mas como faço para impedir que alguém veja o arquivo robots.txt?

    Por exemplo, se alguém digitar ‘www.meusite/robots.txt’, vai conseguir ver o que estou bloqueando. Isso não parece interessante. Como faço para impedir o acesso a ele?

    Obrigado, grande abraço!

  10. Marcelo Leite

    January 17, 2007 @ 11:06 am

    Desculpe, surgiu outra dúvida:
    Se quiser bloquear alguma pasta, devo fazer assim:

    User-agent: *
    Disallow: /pasta

    Ou assim:

    User-agent: *
    Disallow:
    Disallow: /pasta

    Obrigado!

  11. Paulo Rodrigo Teixeira

    January 17, 2007 @ 11:27 am

    Oi Marcelo,

    Vamos as dúvidas:
    - Impedir alguém de ver o robots:
    Eu pessoalmente não vejo problema que vejam os meu robots, mas uma possível solução é editar o seu arquivo .htaccess bloqueando o User-Agent dos navegadores. Isto deixaria livre para os spiders indexarem normalmente. Prefiro deixar liberado para todos.

    - Bloqueando uma pasta
    A melhor é a primeira solução, mas inclua a / depois do nome da pasta.

    Grande abraço,

  12. Marcelo Leite

    January 17, 2007 @ 12:44 pm

    Obrigado pela pronta resposta.

    Pensando bem, acho que você tem razão, é besteira impedir o acesso. Se for algo realmente confidencial tem a pasta _private para isso. Não precisa se preocupar com a indexação.

    Sobre bloquear a pasta, valeu! .-)
    Grande abraço… adicionei seu feed.

  13. Mariano

    January 28, 2007 @ 8:18 am

    Sinceramente, se você não deseja bloquear nenhum diretório de seu site, é preferível deixar seu site sem o robots.txt, porque a indexação dos arquivos não será afetada. Ocorreram casos de pessoas que criaram o robots.txt e o Google bloqueou por acidente ou erro de programa a indexação de todos os arquivos, fazendo o pagerank despencar vertiginosamente. Pergunto: Vale a pena correr o risco? Se alguém tiver melhor consideração, favor postar.

  14. Paulo Rodrigo Teixeira

    January 28, 2007 @ 7:12 pm

    Oi Mariano,

    Realmente o default dos robôs é indexar o site, porém os próprios sites de busca ficam procurando o arquivo no seu site dando erro 404. Não é obrigatório ter o arquivo, mas

    Nunca ouvi falar de um acidente do Google bloqueando um site entendendo errado um robots.txt. Você considera arriscado ou difícil criar um arquivo de texto com esta sintaxe:
    User-agent: *
    Disallow:

    Vale o esforço de ter o arquivo. É uma forma educada de formalizar que seu site está aberto aos sites de busca.

    Grande abraço

  15. Lucas Castro

    January 30, 2007 @ 11:45 pm

    O robots.txt é um padrão e como outro qualquer deve ser valorizado sem pensar em melhorias. O correto é que seja implementado, evitaria problemas.

    Muitos usuários podem alegar que não sabiam da existência do padrão, e tentar processar os sites de busca por indexarem seus sites. Querendo ou não, os sites indexarem tudo que aparece na frente, pode parecer chato. É um trabalho sujo que alguém tem que fazer.

    Além disso, vai parar de dar os erros 404 como o Paulo mesmo disse.

  16. Eduardo Stefanelli

    February 12, 2007 @ 1:52 am

    Show!

  17. Rozenblitz

    March 6, 2007 @ 3:54 pm

    olá,

    acabei de encontrar este site e achei ótimo o tutorial, mas tenho uma dúvida também: você diz “mas inclua a / depois do nome da pasta” no entato, fiz um teste no seu gerador de robots e o arquivo gerado não inclui a / no final. Qual o certo?

  18. Paulo Rodrigo Teixeira

    March 6, 2007 @ 6:25 pm

    Oi Rozenblitz,

    A boa prática é ter a / no final, mas o robot entenderá a mesma coisa.

    Para incluir a barra no fim do diretorio, o gerador de robots teria que checar se o fim da string é .htm, .html, .php, .asp e todas as extensões possíves e futuras em sites. Preferi não incluir a barra para deixar o script com menos chance de erro.

    Assim, qualquer mudança no futuro não impacta o serviço.

    Grande abraço,

  19. Patrick Tytgadt

    March 20, 2007 @ 12:39 am

    Estive tentando colocar o robots, porem ja se passaram mais de 70 dias e mesmo assim nao encontro meu site pelas palavras chave no Google e Yahoo… Sera que fiz algo errado?
    Obrigado

  20. Paulo Rodrigo Teixeira

    March 20, 2007 @ 3:05 pm

    Patrick,

    Vou montar um post para explicar sobre isto, mas a resposta simples é ter links apontando para sua página.

    Grande abraço,

  21. Roberto Pierre

    April 5, 2007 @ 11:28 pm

    Paulo Rodrigo,

    Aprendi muito com as explicações, gostaria de saber mais uma coisa: o que é ter links apontando para minha página?

    Abraços
    Robeto Pierre

  22. Rozenblitz

    April 11, 2007 @ 12:56 am

    Olá, voltei :)

    Tenho uma situação curiosa: há um mês atrás fiz um robots.txt seguindo todas as instruções e coloquei no servidor (acho que fiz certo, vejam: http://img227.imageshack.us/img227/2100/robotsxb5.gif ), e teoricamente APENAS os bots descritos no arquivo deveriam continuar entrando no site, mas vejam as estatísticas recentes: http://img412.imageshack.us/img412/2152/robotsurchin2yz6.gif
    Notem também os três últimos nomes no final da estatística: que diabo é aquilo ?????.

    Tem alguma coisa errada como o meu robots.txt ???

    Se puder dar uma luz, mui grato ;)

  23. Evitando conteúdo duplicado em seu site ou blog · No Topo das Buscas

    April 14, 2007 @ 3:08 pm

    [...] Maiores informações sobre arquivos robots.txt e meta tags robots “noindex”, você poderá encontrar nos artigos Robots.txt – controlando o que os mecanismos de busca NÃO devem indexar, Robots.txt na indexação de sites, Quais e como utilizar as Meta Tags na sua página e Como utilizar a meta tag robots e como o Googlebot a interpreta. Existe até uma ferramenta super interessante para gerar o arquivo robots.txt no site Marketing de Busca. Confiram: http://www.marketingdebusca.com.br/robots-txt/  [...]

  24. Cabeca89

    April 19, 2007 @ 1:51 pm

    Só uma dúvida, eu devo colocar o robots.txt na pasta “/” ou dentro da “/www/”?

    Desde ja agradeço.

  25. Raphael Monteiro barboza

    April 23, 2007 @ 12:31 am

    muito bom este artigo. é uma coisa bem simples de se fazer e quanto menos erros nossos sites tiverem. mais eles ficam bem colocando. bom entao mesmo que não desabilite nennuma pagina devemos sim colocar o txt.

  26. Patrick Araujo

    May 22, 2007 @ 2:13 pm

    Paulo Rodrigo… Obrigado pela dica…. já comecei a apontar os sites e já estou vendo os resultados.

  27. Giovanni

    May 23, 2007 @ 8:52 am

    Cabeca89: Dentro da /www/…

  28. Alvares

    June 7, 2007 @ 7:47 pm

    muito bom esse post, há muitas pessoas que não sabem direito o porque o uso do arquivo robots.txt e sua importância. Parabéns!

  29. Éttore Murback

    June 22, 2007 @ 1:50 pm

    muito bom o site, e especificamente esta explicaçao sobre o robots.txt. Muito simples, clara e objetiva! Parabéns! Uma sugestão: os posts que sao colocados poderiam ser ao contrario… os mais recentes lá em cima…

  30. Éttore Murback

    June 22, 2007 @ 1:51 pm

    desculpe… posts nao, e sim comentarios…

  31. Charles

    July 31, 2007 @ 1:49 pm

    Parabéns pelo artigo. Ficou bem didático.
    Mas, tenho uma pequena dúvida. Meu site está atualmente em construção e tenho que deixar muita coisa online, mas não gostaria (neste momento) que os robôs varressem o site. Pensei em criar um robots.txt assim (na raiz):
    User-agent: *
    Disallow: /
    Daqui a algum tempo, quando o site estiver pronto, pretendo criar um novo robots.txt (desabilitando apenas subpastas administrativas), daí abrindo a porta para os robôs (quanto mais indexarem melhor).
    Minha dúvida é: meu primeiro robots.txt não desviaria definitivamente os buscadores? Como dizer ao Google (e outros) “agora entrem de novo no meu site/robots.txt”?

  32. Leandro

    September 26, 2007 @ 3:41 pm

    Existe algum truque que eu possa usar para deixar um site em primeiro nos site de busca? (sem ter que pagar aqueles planos caro pra caramba).

  33. Rodrigo

    September 27, 2007 @ 6:28 pm

    Estou terminando a montagem de meu site e achei muito boas as dicas, e como sou leigo ainda neste assunto gostaria de saber se tenho que colocar este código no html ou dentro de um arquivo salvo na pasta. desculpe a pergunta.

    Abraço e fiquem com DEUS.

  34. Patrick Araujo

    September 29, 2007 @ 1:32 pm

    Muito boas as dicas. Obrigado!

  35. Djacir Porto

    January 24, 2008 @ 11:27 pm

    Achei legal. Nas ferramentas do Google via uma advertência informamdo da ausência do arquivo robosts.txt e pensava que era obrigatório. Valeu

  36. Paulo Villela

    January 26, 2008 @ 7:08 pm

    Paulo,
    Estou com um problema, onde o Google está indexando os arquivos dos subdominios no dominio principal.
    Ou seja, algumas páginas e posts, ao invés de ser indexados no subdominio, ele é no dominio principal, entende.
    É possível bloquear os subdominios via robots?
    Achei estranho isso, já que os sitemaps estão certos, não entendo porque ele está fazendo isso.
    abs

  37. EnterNauta

    January 28, 2008 @ 5:58 pm

    Robots.txt: como usar…

    Robots são as unidades utilizadas por mecanismos de busca para indexar as páginas da web. Quem tem um site pode dar certas instruções ao robot inserindo um arquivo de texto na pasta raiz de nome robots.txt. Pois, se o robot chegar à página, e est…

  38. Diego

    January 30, 2008 @ 2:44 pm

    Atualmente meu site está na primeira página do google digitando na busca pelo nome da minha empresa, mesmo assim é conveniente eu colocar o robots.txt ???

    com a seguinte especificação:

    User-agent: *
    Disallow:

    Por mim quero que todos os buscadores façam a varredura no meu site, e que todos possam ver o conteúdo de todas as páginas

    Seria como o Paulo Rodrigo Teixeira disse que é uma forma de formalização para que não fique dando erro 404 ?

    Obrigado pela ajuda, e mais ainda pela matéria esclarecedora

    Diego Barbosa

  39. Alezy Oliveira

    February 7, 2008 @ 9:14 pm

    Obrigado pelas dicas!
    Tô começando meu sitezinho agora e isso já foi de grande importância

    Abração a todos!

  40. Cláudio

    February 21, 2008 @ 12:41 am

    Obrigado pelo artigo e parabéns pela iniciativa.

  41. W_Junior

    March 18, 2008 @ 11:45 am

    Me parece que um script na minha pagina atrapalha o google image indexar minhas imagens.. como faço pra contornar o problema sem mudar o script.. meu site eh http://www.smarta.com.br .. veja as tags

  42. Marçal

    March 22, 2008 @ 8:02 pm

    Ótimo, mesmo que o post seja antigo.

  43. Bruno

    June 5, 2008 @ 4:25 pm

    Muito bem escrito. Parabéns!
    irei recomendar este site.
    Eu gostaria de me aprofundar nestas linguagens.
    Poderia me indicar algum livro(s), sobre os temas: SEO, SEM “robots.txt etc.
    Eu tenho a intenção de me especializar!

  44. Paulo

    June 6, 2008 @ 11:35 am

    Paulo,
    Tenho visto pela internet a fora, inúmeros modelos de robots.txt ideal para o wordpress. Alguns diferentes dos outros. Para você, qual seria o ideal?
    Além disso, fica a dúvida entre o que deve desabilitar para googlebot e para os outros robots (*).
    abs

  45. SEO no Google as novas regras - SEO Cast

    June 11, 2008 @ 3:05 am

    [...] Quanto a questão do REP (Robots Exclusion Protocol) ou o nosso conhecido robots.txt o Google não trouxe muitas novidades além das já conhecidas, apenas deixou bem claro o que valhe e não valhe. Se você está por fora o Paulo do marketingdebusca te deixa por dentro: robots.txt [...]

  46. Live BR

    August 6, 2008 @ 8:52 pm

    Muito interessante, gostei muito, vou aproveitar pra me espelhar em dicas como essa que são muito valiosas.

  47. Leandro

    August 20, 2008 @ 5:58 pm

    Muito obrigado pelas dicas!

    http://www.sucodecevada.com.br

  48. Extrema

    September 6, 2008 @ 9:15 pm

    Também pode-se colocar um arquivo txt para PERMIÇÃO, veja o código abaixo:

    User-Agent: *
    Allow: /exemplo.html

  49. David Rabello

    September 23, 2008 @ 3:21 pm

    Exelente artigo.

  50. Daniel

    September 24, 2008 @ 6:05 pm

    Montei um site que tem páginas quase identicas, além de outras com imagens e pouco texto (e imagens sem Comentarios ALT), o que pode trazer problemas quando o Googlebot e outros forem indexá-lo. Sugeriram que eu fizesse uma página com Mapa do Site. Além disso, há muitas páginas no site, mais de 40, e não acho que devo indexar todas (principalmente as que podem traze problemas…)

    Como posso indicar no robots.txt que quero impedir por exemplo a indexação de todas as páginas com exceção da homepage e da página com Mapa do Site, sem ter que colocar uma linha de regra para cada página bloqueada?

    Seria assim?

    User-agent: *
    Disallow: /
    Allow: /index.htm
    Allow: /index.htm/mapa-do-site.html

    Obrigado!

  51. Himler Auguste Strabbs

    November 12, 2008 @ 3:02 pm

    No caso do Google é melhor especificar o robot ou ele sai indexando tudo.

  52. sam

    January 21, 2009 @ 9:27 am

    Legal cara… manêro essa parada do Robots..

  53. Noel Reis

    January 27, 2009 @ 6:20 pm

    Parabéns, está ótima a presentação do texto.

  54. Sandra de Souza

    January 27, 2009 @ 6:22 pm

    Eu não conhecia este detalhe, depois de colocar em meu site comecei aparecer nas buscas.
    Muito Legal

  55. Cristiano pintor

    February 8, 2009 @ 10:52 pm

    Tenho tentado de todas as formas melhorar o indexamento do meu blog, criei ele para expor meus trabalho de pintura e textura na construção civil, esse negocio de seo da certo mesmo, depois que passei a frequentar o marketingdebusca, o numero de usuários no meu blog aumentou, viva ao google, PagRak para nós. valeu

  56. Fernando Maciel

    April 6, 2009 @ 10:02 am

    Olá..gostei muito do site e li todos os comentarios…

    Soh me ficou uma duvida…eu devo criar esse arquivo robot no bloco de notas por exemplo? no word? ou aonde?

    Obrigado!

  57. Paulo Rodrigo Teixeira

    April 6, 2009 @ 5:27 pm

    Fernando,

    Coloque o robot.txt em um arquivo do bloco de notas (notepad) mesmo.

    Abração,

  58. Edson

    May 11, 2009 @ 9:00 am

    olá amigo, eu tenho uma dúvida, e gostaria que vc me desse uma dica!
    Eu uso o plugin da pagenavi no meu site da wordpress!
    Com isso todos os link da paginavi estava sendo indexado pelo google! ex do link /page/
    Com isso, gerou um monte de paginas duplicadas, fui descobrir o robots.txt um tempo depois, onde bloquiei para não indexar esses links!

    Mas, porém, todavia, ainda tem varias paginas que já tinha cido indexado antes que eu tivesse bloqueado, e isso está causando uma série de erros, com meta descrição duplicada, conteúdo duplicado e outros!

    Gostaria de saber como faço para retirar estes links das pesquisas do google!

    Já tentei remover url pelo webmaster da google, mas lá só apaga links que estão fora do ar!
    Por favor preciso de sua ajuda. obrigado!

    Estarei a espera!

  59. Robots.txt para WordPress - Blog do yogodoshi

    May 29, 2009 @ 5:01 pm

    [...] Pra quem não sabe muito bem o que é o robots.txt, pra que ele serve ou qual seu benefício para SEO, sugiro ler o post: Robots.txt na indexação de sites. [...]

  60. Zeca

    June 8, 2009 @ 3:50 pm

    No meu Robots.txt tem o comando para o bloqueio “/page”. Mas ao verificar no google, as páginas não foram bloqueadas. O que será que pode ter ocorrido?

TrackBack URI

Comente