Robots.txt na indexaÃ§Ã£o de sites

Tags Artigos, Google, Marketing de Busca, MSN Busca, Yahoo Search

Existe um arquivo especÃfico que Ã© procurado pelas ferramentas de busca para saber quais partes do site nÃ£o devem ser indexados. Ã‰ o “robots.txt“. Ele deve ser colocar no diretÃ³rio raiz do site e Ã© o primeiro arquivo que os bots de busca procuram em um site. Nele vocÃª pode escolher os diretÃ³rios e arquivos que vocÃª deseja excluir das ferramentas de busca. O uso mais comum Ã© evitar indexaÃ§Ã£o de pÃ¡ginas logadas ou que possuam arquivos privados.

Este Ã© um exemplo de arquivo que impediria a indexaÃ§Ã£o do site inteiro por todas as ferramentas de busca:
User-agent: *
Disallow: /

O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo.

Um exemplo prÃ¡tico seria evitar a indexaÃ§Ã£o de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexaÃ§Ã£o de quatro diretÃ³rios.

User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa

O sinal de tralha serve para comentÃ¡rios como informar o motivo da exclusÃ£o. O comentÃ¡rio nÃ£o influencia em nada o bot, porÃ©m serve para facilitar o entendimento do motivo da exclusÃ£o para a equipe que administra o site.

Se um site nÃ£o tiver este arquivo, a ferramenta de busca irÃ¡ indexar normalmente o seu site. Se preferir, vocÃª pode criar o arquivo “robots.txt” que permite a indexaÃ§Ã£o total:
User-agent: *
Disallow:

VocÃª pode criar regras especÃficas para cada bot de busca. Para isto basta trocar o asterisco do User-agent pelo nome do bot. Cada bot ou spider tem um nome especÃfico. Eles tambÃ©m sÃ£o conhecidos como agentes. O agente do Google Ã© o Googlebot, o do Yahoo! Ã© o Slurp e o da MSN Busca Ã© o MSNBot. Existem bots tambÃ©m para imagens por exemplo. O do Google Ã© o Googlebot-Image, o do Yahoo Ã© o yahoo-mmcrawler e o da MSN Busca o psbot. Um exemplo para excluir a indexaÃ§Ã£o do Google seria:
User-agent: Googlebot
Disallow: /

Com isto, nada do site seria indexado pelo Google, mas outras ferramentas poderiam indexar normalmente.

O Robots.txt Ã© extremamente Ãºtil, pois permite a retirada automatizada de pÃ¡ginas e do conteÃºdo de um site das pÃ¡ginas de resultado dos sites de busca. Ele tambÃ©m Ã© bastante flexÃvel permitindo que vÃ¡rias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.

Permalink

87 Comentários

Himler Auguste Strabbs

novembro 12, 2008 @ 3:02 pm

No caso do Google Ã© melhor especificar o robot ou ele sai indexando tudo.
sam

janeiro 21, 2009 @ 9:27 am

Legal cara… manÃªro essa parada do Robots..
Sandra de Souza

janeiro 27, 2009 @ 6:22 pm

Eu nÃ£o conhecia este detalhe, depois de colocar em meu site comecei aparecer nas buscas.
Muito Legal
Cristiano pintor

fevereiro 8, 2009 @ 10:52 pm

Tenho tentado de todas as formas melhorar o indexamento do meu blog, criei ele para expor meus trabalho de pintura e textura na construÃ§Ã£o civil, esse negocio de seo da certo mesmo, depois que passei a frequentar o marketingdebusca, o numero de usuÃ¡rios no meu blog aumentou, viva ao google, PagRak para nÃ³s. valeu
Fernando Maciel

abril 6, 2009 @ 10:02 am

OlÃ¡..gostei muito do site e li todos os comentarios…

Soh me ficou uma duvida…eu devo criar esse arquivo robot no bloco de notas por exemplo? no word? ou aonde?

Obrigado!
Paulo Rodrigo Teixeira

abril 6, 2009 @ 5:27 pm

Fernando,

Coloque o robot.txt em um arquivo do bloco de notas (notepad) mesmo.

AbraÃ§Ã£o,
Edson

maio 11, 2009 @ 9:00 am

olÃ¡ amigo, eu tenho uma dÃºvida, e gostaria que vc me desse uma dica!
Eu uso o plugin da pagenavi no meu site da wordpress!
Com isso todos os link da paginavi estava sendo indexado pelo google! ex do link /page/
Com isso, gerou um monte de paginas duplicadas, fui descobrir o robots.txt um tempo depois, onde bloquiei para nÃ£o indexar esses links!

Mas, porÃ©m, todavia, ainda tem varias paginas que jÃ¡ tinha cido indexado antes que eu tivesse bloqueado, e isso estÃ¡ causando uma sÃ©rie de erros, com meta descriÃ§Ã£o duplicada, conteÃºdo duplicado e outros!

Gostaria de saber como faÃ§o para retirar estes links das pesquisas do google!

JÃ¡ tentei remover url pelo webmaster da google, mas lÃ¡ sÃ³ apaga links que estÃ£o fora do ar!
Por favor preciso de sua ajuda. obrigado!

Estarei a espera!
Robots.txt para WordPress - Blog do yogodoshi

maio 29, 2009 @ 5:01 pm

[…] Pra quem nÃ£o sabe muito bem o que Ã© o robots.txt, pra que ele serve ou qual seu benefÃcio para SEO, sugiro ler o post: Robots.txt na indexaÃ§Ã£o de sites. […]
Zeca

junho 8, 2009 @ 3:50 pm

No meu Robots.txt tem o comando para o bloqueio “/page”. Mas ao verificar no google, as pÃ¡ginas nÃ£o foram bloqueadas. O que serÃ¡ que pode ter ocorrido?
Ioan Bratu

julho 23, 2009 @ 12:39 pm

se eu colocar LITERALMENTE isso, funciona?

# Alexa
User-agent: ia_archiver
Disallow:

# Ask Jeeves
User-agent: Teoma
Disallow:

# Google
User-agent: googlebot
Disallow:

# MSN
User-agent: msnbot
Disallow:

# Yahoo!
User-agent: Slurp
Disallow:

# Abacho
User-agent: AbachoBOT
Disallow:

# Baidu
User-agent: baiduspider
Disallow:

# Fireball
User-agent: fireball
Disallow:

# ObjectsSearch
User-agent: ObjectsSearch
Disallow:

# Szukacz
User-agent: szukacz
Disallow:

# Voila.fr
User-agent: VoilaBot
Disallow:

# Walhello
User-agent: Appie
Disallow:

# Yandex
User-agent: Yandex
Disallow:

# Others
User-agent: *
Disallow:
As 20 melhores ferramentas de SEO para usar e analisar seu blog! | AnÃ¡lise Blogueira

agosto 11, 2009 @ 4:59 pm

[…] 12. Robotstxt.org: ferramenta perfeita para criar, gerir e analisar o robots.txt de seu blog, essencial para bloquear determinadas pÃ¡ginas de seu blog aos robÃ´s dos buscadores, a fim de evitar conteÃºdo duplicado, principalmente. Veja mais sobre ele aqui. […]
Marcos Paulo

setembro 27, 2009 @ 1:34 pm

Realmente muito bom o artigo. Estou desenvolvendo um site novo e irei usar estas tÃ©cnicas. Obrigado ;D
Paulo Rodrigo Teixeira

setembro 29, 2009 @ 12:59 pm

Ioan Bratu

O Ãºltimo comando jÃ¡ resolve tudo.

Designer DemÃ©trios

Crie um robots na raiz deste subdomÃnio. Para o Google, sÃ£o sites diferentes.
Ferramentas para Webmaster

outubro 12, 2009 @ 11:26 am

[…] O que Ã© Robots ? :: Gerador de Robots :: VÃ¡rias ferramentas de SEO :: Outras […]
Vanessa

novembro 17, 2009 @ 3:20 pm

OlÃ¡

Muito bom o artigo.
SÃ³ tenho uma dÃºvida, Ã© possÃvel utilizar expressÃµes regulares no robot.txt?
Desta forma eu conseguiria gerar um arquivo robot para vÃ¡rios sites do portal.

Obrigada
Carol

fevereiro 8, 2010 @ 1:39 am

Como remover apenas um palavra que os robos encontram em minha pagina sendo que nÃ£o existe?
Fernando Santos

março 9, 2010 @ 5:38 pm

Marcelo,

Poderia me indicar como que eu bloqueio acesso a um subdominio de meu site?

Por exemplo:

Meu site Ã© http://www.meusite.com.br

Quero bloquear teste.meusite.com.br

AgradeÃ§o sua ajuda.

Att.,

Fernando
RBoni

março 14, 2010 @ 1:49 am

Obrigado. Aprenderei mais passando por aqui.
Julia R.

abril 20, 2010 @ 2:56 pm

NÃ£o captei 100%
Eu quero impedir que os robots indexem minha pasta components mas dentro da pasta components tem a pasta ads e alguns arquivos da pasta ads…
Eu quero que ele index a pasta ads mas nao quero que ele index o arquivo config.php e a pasta img que estÃ¡ dentro da pasta ads.
Pergunta:
Se eu usar o comando allow para a pasta ads ele farÃ¡ index do arquivo config.php?
O arquivo realmente tem algum perigo de receber index? (tem configuracoes de usuarios e anÃºncios nele).
Deu para entender minha (meu problema) pergunta? ^^
Pedro

junho 9, 2010 @ 3:58 pm

valeu mesmo pelo post
alguns comentÃ¡rios tambÃ©m foram muito Ãºteis

obrigado por compartilhar a informaÃ§Ã£o, continue o bom trabalho

abraÃ§Ã£o.
Robots.txt na indexaÃ§Ã£o de sites : Alexandre Rudalov – Design e Desenvolvimento de sites, hotsites, layouts e aplicaÃ§Ãµes – Freelance Design

julho 17, 2010 @ 11:15 am

[…] Artigo extraÃdo de: Marketing de Busca […]
Daniel Bertolino - Designer

agosto 5, 2010 @ 4:11 pm

Muito bom, pois nos sites que faÃ§o utilizo muito dessa tÃ©cnica e que auxilia muito na indexaÃ§Ã£o correta do site, filtrando o que eu quero que o Google mostre ou nÃ£o.

ParabÃ©ns pelo site…Valeu!
Carlos

dezembro 28, 2010 @ 8:48 am

SÃ³ recentemente conheci o robot.txt. Encontrei alguns artigos na net mas os textos foram escritos para marcianos.
Em contrapartida, o seu Ã© de uma clareza espantosa.
ParabÃ©ns!
Diogo

janeiro 9, 2011 @ 8:42 am

ParabÃ©ns cara, este seu post me ajudou muito a criar o meu robots.txt.
Ã“timo 2011, grande abraÃ§o
Pedro Agle

janeiro 31, 2011 @ 3:29 am

Bom Dia,

Gostaria de saber como faÃ§o para bloquear a indexaÃ§Ã£o do Google a uma pÃ¡gina onde aparece dados pessoais meus??, aguardo

Att
Pedro Agle
Wilson

fevereiro 21, 2011 @ 5:03 pm

E interessante pois gostei de saber como faÃ§o para bloquear as paginas da indexÃ§Ã£o do google e outros buscadores
Carlos Alberto

fevereiro 24, 2011 @ 10:07 am

Cara, muito boa sua ‘matÃ©ria’, simples e facil, muito bom mesmo!
VocÃª poderia falar um pouco sobre SITEMAP? E tbm Links de Site, aqueles pequenos links que aparecem abaixo do seu site na busca do google, posso determinÃ¡-los, dizer ao google quais eu quero?
Se vc conhecer as respostas ficarei muito grato. Vlw
MATÃ‰RIA SHOW!!!
wells

junho 1, 2011 @ 11:46 am

Uma duvida. Alem de colocar o arquivo robots.txt no raiz do servidor tambem tenho que colocar alguma coisa nessa tag:
Voce poderia me esclarecer isso?
wells

junho 1, 2011 @ 11:49 am

Uma duvida. Alem de colocar o arquivo robots.txt no raiz do servidor tambem tenho que colocar alguma coisa na tag robots ?
Voce poderia me esclarecer isso?
Diego Fernandes

dezembro 30, 2011 @ 12:30 pm

Muito bom o post. Acabei de usar o gerador de robots.txt do site e foi muito prÃ¡tico.
ParabÃ©ns =D
Maria

janeiro 1, 2012 @ 11:45 pm

Eu fico confusa pois a pasta difere do URL, nÃ£o entendo como o google separa isso.
Nathalia

maio 8, 2013 @ 10:15 am

Estou com uma duvida, eu posso criar este arquivo pelo prÃ³prio notepad?
Abel

julho 13, 2013 @ 5:53 am

OlÃ¡ , gostei da forma como foi explicado, vou seguir seus conselhos pra melhorar a posiÃ§Ã£o do meu site, junto aos sites de buscas.
IgorHerbert

agosto 30, 2013 @ 12:46 am

Excelente!!!

Marketing de Busca

87 Comentários

Fernando Maciel

Edson

Vanessa

Carol

Marcelo

Pedro Agle

Carlos Alberto

wells

wells

Nathalia

Próximas Turmas

Páginas

Posts Recentes

Categorias

Meta