Robots.txt na indexação de sites

Existe um arquivo específico que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. É o “robots.txt“. Ele deve ser colocar no diretório raiz do site e é o primeiro arquivo que os bots de busca procuram em um site. Nele você pode escolher os diretórios e arquivos que você deseja excluir das ferramentas de busca. O uso mais comum é evitar indexação de páginas logadas ou que possuam arquivos privados.

Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca:
User-agent: *
Disallow: /

O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo.

Um exemplo prático seria evitar a indexação de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro diretórios.

User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa

O sinal de tralha serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para a equipe que administra o site.

Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total:
User-agent: *
Disallow:

Você pode criar regras específicas para cada bot de busca. Para isto basta trocar o asterisco do User-agent pelo nome do bot. Cada bot ou spider tem um nome específico. Eles também são conhecidos como agentes. O agente do Google é o Googlebot, o do Yahoo! é o Slurp e o da MSN Busca é o MSNBot. Existem bots também para imagens por exemplo. O do Google é o Googlebot-Image, o do Yahoo é o yahoo-mmcrawler e o da MSN Busca o psbot. Um exemplo para excluir a indexação do Google seria:
User-agent: Googlebot
Disallow: /

Com isto, nada do site seria indexado pelo Google, mas outras ferramentas poderiam indexar normalmente.

O Robots.txt é extremamente útil, pois permite a retirada automatizada de páginas e do conteúdo de um site das páginas de resultado dos sites de busca. Ele também é bastante flexível permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.

87 Comentários »

  1. Himler Auguste Strabbs

    November 12, 2008 @ 3:02 pm

    No caso do Google é melhor especificar o robot ou ele sai indexando tudo.

  2. sam

    January 21, 2009 @ 9:27 am

    Legal cara… manêro essa parada do Robots..

  3. Noel Reis

    January 27, 2009 @ 6:20 pm

    Parabéns, está ótima a presentação do texto.

  4. Sandra de Souza

    January 27, 2009 @ 6:22 pm

    Eu não conhecia este detalhe, depois de colocar em meu site comecei aparecer nas buscas.
    Muito Legal

  5. Cristiano pintor

    February 8, 2009 @ 10:52 pm

    Tenho tentado de todas as formas melhorar o indexamento do meu blog, criei ele para expor meus trabalho de pintura e textura na construção civil, esse negocio de seo da certo mesmo, depois que passei a frequentar o marketingdebusca, o numero de usuários no meu blog aumentou, viva ao google, PagRak para nós. valeu

  6. Fernando Maciel

    April 6, 2009 @ 10:02 am

    Olá..gostei muito do site e li todos os comentarios…

    Soh me ficou uma duvida…eu devo criar esse arquivo robot no bloco de notas por exemplo? no word? ou aonde?

    Obrigado!

  7. Paulo Rodrigo Teixeira

    April 6, 2009 @ 5:27 pm

    Fernando,

    Coloque o robot.txt em um arquivo do bloco de notas (notepad) mesmo.

    Abração,

  8. Edson

    May 11, 2009 @ 9:00 am

    olá amigo, eu tenho uma dúvida, e gostaria que vc me desse uma dica!
    Eu uso o plugin da pagenavi no meu site da wordpress!
    Com isso todos os link da paginavi estava sendo indexado pelo google! ex do link /page/
    Com isso, gerou um monte de paginas duplicadas, fui descobrir o robots.txt um tempo depois, onde bloquiei para não indexar esses links!

    Mas, porém, todavia, ainda tem varias paginas que já tinha cido indexado antes que eu tivesse bloqueado, e isso está causando uma série de erros, com meta descrição duplicada, conteúdo duplicado e outros!

    Gostaria de saber como faço para retirar estes links das pesquisas do google!

    Já tentei remover url pelo webmaster da google, mas lá só apaga links que estão fora do ar!
    Por favor preciso de sua ajuda. obrigado!

    Estarei a espera!

  9. Robots.txt para WordPress - Blog do yogodoshi

    May 29, 2009 @ 5:01 pm

    […] Pra quem não sabe muito bem o que é o robots.txt, pra que ele serve ou qual seu benefício para SEO, sugiro ler o post: Robots.txt na indexação de sites. […]

  10. Zeca

    June 8, 2009 @ 3:50 pm

    No meu Robots.txt tem o comando para o bloqueio “/page”. Mas ao verificar no google, as páginas não foram bloqueadas. O que será que pode ter ocorrido?

  11. Ioan Bratu

    July 23, 2009 @ 12:39 pm

    se eu colocar LITERALMENTE isso, funciona?

    # Alexa
    User-agent: ia_archiver
    Disallow:

    # Ask Jeeves
    User-agent: Teoma
    Disallow:

    # Google
    User-agent: googlebot
    Disallow:

    # MSN
    User-agent: msnbot
    Disallow:

    # Yahoo!
    User-agent: Slurp
    Disallow:

    # Abacho
    User-agent: AbachoBOT
    Disallow:

    # Baidu
    User-agent: baiduspider
    Disallow:

    # Fireball
    User-agent: fireball
    Disallow:

    # ObjectsSearch
    User-agent: ObjectsSearch
    Disallow:

    # Szukacz
    User-agent: szukacz
    Disallow:

    # Voila.fr
    User-agent: VoilaBot
    Disallow:

    # Walhello
    User-agent: Appie
    Disallow:

    # Yandex
    User-agent: Yandex
    Disallow:

    # Others
    User-agent: *
    Disallow:

  12. As 20 melhores ferramentas de SEO para usar e analisar seu blog! | Análise Blogueira

    August 11, 2009 @ 4:59 pm

    […] 12. Robotstxt.org: ferramenta perfeita para criar, gerir e analisar o robots.txt de seu blog, essencial para bloquear determinadas páginas de seu blog aos robôs dos buscadores, a fim de evitar conteúdo duplicado, principalmente. Veja mais sobre ele aqui. […]

  13. Marcos Paulo

    September 27, 2009 @ 1:34 pm

    Realmente muito bom o artigo. Estou desenvolvendo um site novo e irei usar estas técnicas. Obrigado ;D

  14. Designer Demétrios

    September 29, 2009 @ 10:39 am

    Quero bloquear um subdomínio, como faço isso?

  15. Paulo Rodrigo Teixeira

    September 29, 2009 @ 12:59 pm

    Ioan Bratu

    O último comando já resolve tudo.

    Designer Demétrios

    Crie um robots na raiz deste subdomínio. Para o Google, são sites diferentes.

  16. Ferramentas para Webmaster

    October 12, 2009 @ 11:26 am

    […] O que é Robots ? :: Gerador de Robots :: Várias ferramentas de SEO :: Outras […]

  17. Vanessa

    November 17, 2009 @ 3:20 pm

    Olá

    Muito bom o artigo.
    Só tenho uma dúvida, é possível utilizar expressões regulares no robot.txt?
    Desta forma eu conseguiria gerar um arquivo robot para vários sites do portal.

    Obrigada

  18. Carol

    February 8, 2010 @ 1:39 am

    Como remover apenas um palavra que os robos encontram em minha pagina sendo que não existe?

  19. Marcelo

    March 4, 2010 @ 3:34 pm

    Parabens pela materia.
    O site todo é muito bom.

  20. Fernando Santos

    March 9, 2010 @ 5:38 pm

    Marcelo,

    Poderia me indicar como que eu bloqueio acesso a um subdominio de meu site?

    Por exemplo:

    Meu site é http://www.meusite.com.br

    Quero bloquear teste.meusite.com.br

    Agradeço sua ajuda.

    Att.,

    Fernando

  21. RBoni

    March 14, 2010 @ 1:49 am

    Obrigado. Aprenderei mais passando por aqui.

  22. Julia R.

    April 20, 2010 @ 2:56 pm

    Não captei 100%
    Eu quero impedir que os robots indexem minha pasta components mas dentro da pasta components tem a pasta ads e alguns arquivos da pasta ads…
    Eu quero que ele index a pasta ads mas nao quero que ele index o arquivo config.php e a pasta img que está dentro da pasta ads.
    Pergunta:
    Se eu usar o comando allow para a pasta ads ele fará index do arquivo config.php?
    O arquivo realmente tem algum perigo de receber index? (tem configuracoes de usuarios e anúncios nele).
    Deu para entender minha (meu problema) pergunta? ^^

  23. Pedro

    June 9, 2010 @ 3:58 pm

    valeu mesmo pelo post
    alguns comentários também foram muito úteis

    obrigado por compartilhar a informação, continue o bom trabalho

    abração.

  24. Robots.txt na indexação de sites : Alexandre Rudalov – Design e Desenvolvimento de sites, hotsites, layouts e aplicações – Freelance Design

    July 17, 2010 @ 11:15 am

    […] Artigo extraído de: Marketing de Busca […]

  25. Daniel Bertolino - Designer

    August 5, 2010 @ 4:11 pm

    Muito bom, pois nos sites que faço utilizo muito dessa técnica e que auxilia muito na indexação correta do site, filtrando o que eu quero que o Google mostre ou não.

    Parabéns pelo site…Valeu!

  26. Carlos

    December 28, 2010 @ 8:48 am

    Só recentemente conheci o robot.txt. Encontrei alguns artigos na net mas os textos foram escritos para marcianos.
    Em contrapartida, o seu é de uma clareza espantosa.
    Parabéns!

  27. Diogo

    January 9, 2011 @ 8:42 am

    Parabéns cara, este seu post me ajudou muito a criar o meu robots.txt.
    Ótimo 2011, grande abraço

  28. Pedro Agle

    January 31, 2011 @ 3:29 am

    Bom Dia,

    Gostaria de saber como faço para bloquear a indexação do Google a uma página onde aparece dados pessoais meus??, aguardo

    Att
    Pedro Agle

  29. Wilson

    February 21, 2011 @ 5:03 pm

    E interessante pois gostei de saber como faço para bloquear as paginas da indexção do google e outros buscadores

  30. Carlos Alberto

    February 24, 2011 @ 10:07 am

    Cara, muito boa sua ‘matéria’, simples e facil, muito bom mesmo!
    Você poderia falar um pouco sobre SITEMAP? E tbm Links de Site, aqueles pequenos links que aparecem abaixo do seu site na busca do google, posso determiná-los, dizer ao google quais eu quero?
    Se vc conhecer as respostas ficarei muito grato. Vlw
    MATÉRIA SHOW!!!

  31. wells

    June 1, 2011 @ 11:46 am

    Uma duvida. Alem de colocar o arquivo robots.txt no raiz do servidor tambem tenho que colocar alguma coisa nessa tag:
    Voce poderia me esclarecer isso?

  32. wells

    June 1, 2011 @ 11:49 am

    Uma duvida. Alem de colocar o arquivo robots.txt no raiz do servidor tambem tenho que colocar alguma coisa na tag robots ?
    Voce poderia me esclarecer isso?

  33. Diego Fernandes

    December 30, 2011 @ 12:30 pm

    Muito bom o post. Acabei de usar o gerador de robots.txt do site e foi muito prático.
    Parabéns =D

  34. Maria

    January 1, 2012 @ 11:45 pm

    Eu fico confusa pois a pasta difere do URL, não entendo como o google separa isso.

  35. Nathalia

    May 8, 2013 @ 10:15 am

    Estou com uma duvida, eu posso criar este arquivo pelo próprio notepad?

  36. Abel

    July 13, 2013 @ 5:53 am

    Olá , gostei da forma como foi explicado, vou seguir seus conselhos pra melhorar a posição do meu site, junto aos sites de buscas.

  37. IgorHerbert

    August 30, 2013 @ 12:46 am

    Excelente!!!

TrackBack URI

Comente