Sabe o pagerank? Tu sabe que ele é calculado por um algoritmo que utiliza cadeias de Markov, teoria de grafos, álgebra linear e etecéteras, certo? Além disso, tu sabe que ele utiliza links entre sites para determinar o valor do pagerank deste site. Quanto mais linkado é um site, maior seu pagerank. Mas não basta apenas o número absoluto de links que um site tem. Um link vindo de um site com pagerank maior vale mais. Ou seja, é melhor falar de iPod e ser linkado pela Apple do que por mim.
Mas isto é uma explicação meia-boca do que é realmente o pagerank. A definição oficial está no artigo original publicado pelo Google:
We assume page A has pages T1…Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages’ PageRanks will be one.
PageRank or PR(A) can be calculated using a simple iterative algorithm, and corresponds to the principal eigenvector of the normalized link matrix of the web.
Mais detalhes aqui.
Muito bonito. É legal, inteligente e tudo mais e, na maioria absoluta das vezes, funciona.
Na maioria das vezes.
Às vezes dá errado porque quem realmente seleciona as páginas é uma máquina e, por mais efetivo que seja um algoritmo, alguma intervenção humana é sempre necessária. Pensando nisso, uma equipe de programadores criou o Mahalo, um mecanismo de buscas onde humanos determinam o que é o bom conteúdo. Os editores selecionam o melhor conteúdo paras as 10 mil palavras-chave mais pesquisadas na internet.
Mas só 10 mil? O google trabalha com quantas? Todas as palavras do mundo?
Note que isto não é um problema muito grande se considerarmos a relação de quantidade versus qualidade. Pessoas escolhendo o conteúdo é sempre melhor do que máquinas. A questão é saber se o grupo de editores deles conseguirá dar conta de todo o conteúdo da web.
Se conseguir, teremos o melhor site de buscas da internet (sempre lembrando que somente para as 10 mil palavras-chave selecionadas), pois humanos escolherão o que é realmente bom.
Se não conseguir, ele não será nada mais do que um daqueles antigos diretórios de sites que eram populares na web de 1995, só que utilizando CSS.

3 comentários Comentários e trackbacks estão fechados no momento.
Linka o Bibliotecários sem fronteiras, eles falaram do Mahalo há quase um mês :P
Falando sério, eu acho que, pela pequena abrangência dos diretórios, eles estão fadados ao esquecimento. Quem sabe o que quer e sabe como procurar encontra tudo num metabuscador sem maiores problemas, o que invalida a suposta vantagem dos diretórios e do Mahalo. Prevejo fracasso e espero estar errada.
Pensar que eu não respondi a uma questão numa determinada prova em que ela pedia pra explicar como funcionavam metabuscadores e diretórios… Ok, eu sei porque não respondi: eu não lembrava das outras questões e responder só a duas me daria o mesmo D que tirei sem maiores esforços :P
Meio off topic, mas lembrei na questão dos buscadores: você já fez uma busca por “my fucking keys”? Um dos primeiros resultados é um tratado sobre chaves perdidas que vale muito a pena ler, um dos raros americanos que sabe ser engraçado sem ser idiota.
Não custa comentar que o DMOZ era uma diretório baseado na intervenção humana… e infelizmente o projeto nunca decolou totalmente.
Dica: para checar o Pagerank de uma URL visite: http://www.Pagerank.com.br
[ ]’s
Ricardo Vaz Monteiro
Um trackback
[...] Pagerank e Mahalo Mas isto é uma explicação meia-boca do que é realmente o pagerank. A definição oficial está no artigo original publicado pelo Google:. We assume page A has pages T1?Tn which point to it (ie, are citations). The parameter d is a damping … [...]