Pagerank e Mahalo

Sabe o pagerank? Tu sabe que ele é calculado por um algoritmo que utiliza cadeias de Markov, teoria de grafos, álgebra linear e etecéteras, certo? Além disso, tu sabe que ele utiliza links entre sites para determinar o valor do pagerank deste site. Quanto mais linkado é um site, maior seu pagerank. Mas não basta apenas o número absoluto de links que um site tem. Um link vindo de um site com pagerank maior vale mais. Ou seja, é melhor falar de iPod e ser linkado pela Apple do que por mim.

Mas isto é uma explicação meia-boca do que é realmente o pagerank. A definição oficial está no artigo original publicado pelo Google:

We assume page A has pages T1…Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages’ PageRanks will be one.

PageRank or PR(A) can be calculated using a simple iterative algorithm, and corresponds to the principal eigenvector of the normalized link matrix of the web.

Mais detalhes aqui.

Muito bonito. É legal, inteligente e tudo mais e, na maioria absoluta das vezes, funciona.

Na maioria das vezes.

Às vezes dá errado porque quem realmente seleciona as páginas é uma máquina e, por mais efetivo que seja um algoritmo, alguma intervenção humana é sempre necessária. Pensando nisso, uma equipe de programadores criou o Mahalo, um mecanismo de buscas onde humanos determinam o que é o bom conteúdo. Os editores selecionam o melhor conteúdo paras as 10 mil palavras-chave mais pesquisadas na internet.

Mas só 10 mil? O google trabalha com quantas? Todas as palavras do mundo?

Note que isto não é um problema muito grande se considerarmos a relação de quantidade versus qualidade. Pessoas escolhendo o conteúdo é sempre melhor do que máquinas. A questão é saber se o grupo de editores deles conseguirá dar conta de todo o conteúdo da web.

Se conseguir, teremos o melhor site de buscas da internet (sempre lembrando que somente para as 10 mil palavras-chave selecionadas), pois humanos escolherão o que é realmente bom.

Se não conseguir, ele não será nada mais do que um daqueles antigos diretórios de sites que eram populares na web de 1995, só que utilizando CSS.

Que tal compartilhar este texto com seus amigos? É só clicar nos botões abaixo e divulgar!

4 comentários.

3 comentários Comentários e trackbacks estão fechados no momento.

  1. Carla, 4/7/07
    1

    Linka o Bibliotecários sem fronteiras, eles falaram do Mahalo há quase um mês :P

    Falando sério, eu acho que, pela pequena abrangência dos diretórios, eles estão fadados ao esquecimento. Quem sabe o que quer e sabe como procurar encontra tudo num metabuscador sem maiores problemas, o que invalida a suposta vantagem dos diretórios e do Mahalo. Prevejo fracasso e espero estar errada.

    Pensar que eu não respondi a uma questão numa determinada prova em que ela pedia pra explicar como funcionavam metabuscadores e diretórios… Ok, eu sei porque não respondi: eu não lembrava das outras questões e responder só a duas me daria o mesmo D que tirei sem maiores esforços :P

  2. j. noronha, 5/7/07
    2

    Meio off topic, mas lembrei na questão dos buscadores: você já fez uma busca por “my fucking keys”? Um dos primeiros resultados é um tratado sobre chaves perdidas que vale muito a pena ler, um dos raros americanos que sabe ser engraçado sem ser idiota.

  3. Pagerank, 17/9/07
    3

    Não custa comentar que o DMOZ era uma diretório baseado na intervenção humana… e infelizmente o projeto nunca decolou totalmente.

    Dica: para checar o Pagerank de uma URL visite: http://www.Pagerank.com.br

    [ ]‘s

    Ricardo Vaz Monteiro

Um trackback

  1. [...] Pagerank e Mahalo Mas isto é uma explicação meia-boca do que é realmente o pagerank. A definição oficial está no artigo original publicado pelo Google:. We assume page A has pages T1?Tn which point to it (ie, are citations). The parameter d is a damping … [...]

  • Institucional

    A Grande Abóbora, o blog do Marcus.

    Uma explosão de sabor.

    Saiba mais sobre mim lendo meu about.

    Ou não.