Ferramentas de Busca

As ferramentas de busca, também conhecidas como search engine, tem um conceito muito maior hoje em dia, envolvendo inclusive os diretórios e tudo relacionado a busca na internet. Mas originalmente, o conceito de ferramenta de busca é relacionado apenas as buscas que não são feitas por pessoas em contrapartida aos diretórios. Podemos dividir estas buscas em três partes:

Coleta, análise, resposta

A parte da coleta de páginas é feita pelos web crawlers. O web crawler é um programa que varre a web coletando os dados que encontra nos sites. Também conhecido como spider, o webcraler é um robô (bot), pois simula o comportamento de uma pessoa ao navegar pelos sites. Os bots mais conhecidos são o GoogleBot (Google), o Yahoo! Slurp (Yahoo!) e o MSNBot (Microsoft).

Os web crawlers começam sua navegação de uma lista de URLs como diretórios ou uma base já existente. A partir delas, o web crawlers checam o conteúdo destas páginas e vão armazenado os links contidas nelas para poder acessar novas páginas. Indo de link em link, eles conseguem alcançar, a partir de poucas páginas, milhões de outras, armazenando as informações coletadas em bancos de dados.

Na parte da análise das páginas, o conteúdo armazenado é tratado para identificar como ele deve ser indexado. Por exemplo, quais são as palavras-chave que tem na página do site, se a página trata de mais de um assunto, se o link para esta página tem algum termo relevante, se exite uma palavra-chave no título da página e diversos outros. Tudo isto é feito para que ao ser feita uma busca, sejam retornados rapidamente resultados relevantes.

A última parte é a mais transparente para nós. Ela é a página de resposta. Quando o usuário faz uma pesquisa (query) um site de busca, a palavra que ele digitou é a palavra-chave que será buscada no banco de dados indexado e será retornada uma listagem de páginas relacionadas por ordem de relevância. Como a quantidade de informações sobre está palavra é muito grande, ele apenas consulta a quantidade de ocorências desta palavra-chave e faz a paginação dos resultados. Com isto, se você não encontrou o que precisava, ou quer mais fontes de informação, basta ir para a próxima página e ver os próximos resultados.

2 Comentários »

  1. Regina said,

    Agosto 30, 2007 @ 11:20 am

    Gostaria de mais informações a respeito.

  2. Fausto Barral said,

    Outubro 17, 2007 @ 3:30 pm

    Eu tbm queria mto saber disso.

RSS feed for comments on this post · URI do TrackBack

Comente