Links desaparecidos

December 9th, 2003 § 10 comments

Esses dias eu estava navegando ao acaso no meu próprio blog, verificando algumas entradas antigas. Clicando nos links dessas entradas, para relembrar alguns tópicos que eu havia comentado, fiquei impressionado com a quantidade de páginas não encontradas quando eu seguia esses links. Uma boa parcela daqueles links simplesmente haviam deixado de existir, mesmo tendo certeza que eu havia entrado esses links corretamente na época.

Curioso para descobrir a proporção de links com problemas, criei um programinha rápido em Python para verificar o assunto. O que o programa fez foi simples: varreu todos os arquivos que compõem o meu blog (um cópia local, é claro), recolheu todas os links no mesmo, e enviou uma requisição HEAD para cada uma as URLs recolhidas (ou GET, onde o método HEAD não era suportado).

No total, descobri que, somando as entradas nos meus dois blogs ativos (o em inglês e o em português), durante toda a existência dos mesmos eu postei cerca de 1200 links. Digo cerca porque algumas URLs nas páginas vem de comentários e algumas são recolhidas erradas pelo programa dada a dificuldade relativa de identificar propriamente uma URL em um texto.

O resultado do programa não foi muito de uma surpresa para mim, considerando a impressão que eu tive ao navegar pelo blog. De 1200 requisições, 45 retornaram um erro 404, ou seja, a página não existe agora embora existisse na época. Isso representa apenas 3,75% dos links, o que é uma quantidade bem pequena, considerando a mobilidade da Web. Por outro lado, mais outras 48 requisições, mais 4% do total, retornaram erros diversos.

Verificando alguns resultados, eu também descobri que alguns sites servem páginas 404 especiais que retornam incorretamente os códigos 200, 301 e 302, quando esses códigos indicam, na verdade, requisição bem sucedida, página movida permanentemente e página movida temporariamente. Os principais culpados, nesta área, são revistas e jornais online.

No geral, os resultados foram os seguintes:

43 domínios não encontrados (3,58%)
Alguns são problemas temporários de conexão, outros são problemas permanentes como sites que não existem mais (sites de candidatos, por exemplo).
1064 respostas bem sucedidas (88,67%)
Páginas encontradas, ou movidas. Alguns desses resultados, como mencionado acima, são incorretos, embora não sejam muitos, pelo que eu pude determinar.
93 erros (7,75%)
Estes incluem páginas não encontradas, erros de servidor e acesso negado.

Considerando o período envolvido (pouco mais de um ano e dois meses), quase que 10% das páginas que eu mencionei em alguma hora em meu blog estão com problemas. Pessoalmente, acho que 10% é um número bem grande de erros. Obviamente, é impossível esperar que todas as pessoas que possuem sites preservem o espaço de URLs. Existem alguns casos em que isso não é nem desejado realmente. Por outro lado, sites que poderiam tomar mais cuidado com isso acabam causando mais problemas. Citações são feitas, na expectativa de que sejam recursos permanentes e, de um dia para o outro, esses recursos desaparecem.

De qualquer forma, foi um experimento interessante. Como não há como prevenir tal problema, também não há medidas a serem tomadas. Fica só aquela sensação de que os links aqui no site estão lentamente desaparecendo no grande buraco negro que existe no centro da Web.

§ 10 Responses to Links desaparecidos"

  • Dennis says:

    Uau, essa expressão “buraco negro” é algo recorrente em nossas vidas! Realmente é uma pesquisa interessante essa que vc fez. Os números citados não chegam a impressionar né? Estão mais ou menos perto do esperado. Realmente falta um pouco mais de compromisso dos grandes veículos de comunicação com a historicidade das informações por eles publicada. Tudo bem que a tecnologia evolui rápido e tal, mas é meio frustrante esta sensação de falta de um referencial seguro, algo para onde você possa apontar o dedo sabendo que estará lá… enfim, interessante.

  • caffo says:

    Concordo com o Dennis. Antes dessa fase atual da ‘tecnologia da informação dominando as nossas vidas’, as coisas eram mais, digamos, atemporais.

    Hoje o mundo muda muito mais rapidamente, e a informação também. É realmente complicado manter um ponto de referência.

  • É um “pobrema” mesmo. Por essas e outras é que eu nunca linko para uma imagem fora do meu servidor. Eu fazia isso e agora meus arquivos antigos estão cheios de buracos.

    Na época do início da Guerra do Iraque II pensei em fazer um “web.archive.org de bolso” onde um blog manteria “em cache” as páginas linkadas. O TikiWiki tem esse recurso embutido. Pensei em fazer isso basicamente por dois motivos: primeiro que alguns sites (como o NYTimes e vários outros jornais) só disponibilizam gratuitamente seus artigos online por um período de tempo. No NYTimes, por exemplo, depois de 2 semanas tem que pagar. Em segundo lugar pensei em jornais que poderiam simplesmente “sumir” com algum conteúdo vergonhoso.

    É claro que a idéia nunca saiu da cabeça. 😉

  • Ronaldo says:

    Dennis,

    Sobre “buracos negros”, realmente. :-) Estão aparecendo cada vez com maior freqüência.

    Quando à pesquisa, não sei se é impressão minha só, mas eu acho que os números são bem grandes, principalmente quanto aos grandes veículos.

    Mas é realmente complicada essa coisa. E é tão fácil manter as URLs. O único problema é armazenamento; o resto pode ser resolvido sem grilo. Eu já mudei o esquema de URLs dos meus blogs várias vezes e todos ainda funcionam sem problema. Até migrei blogs de amigos daqui para outros sites e ainda assim os links aqui continuam a funcionar. Só precisa de um pouco de esforço.

    E no caso de conteúdo que vai embora mesmo, existe até um código HTTP para isso que, infelizmente, só vi usado uma vez em toda minha vida de Web.

  • Ronaldo says:

    Caffo,

    Acho que essa coisa da temporalidade vem da facilidade que temos de excluir coisas hoje (e de perder também). O meio digital é mais frágil que o meio puramente físico. É claro que tudo pode ser negociado e resolvido. Mas sem incentivo, não há motivo também.

  • Ronaldo says:

    A idéia é boa e seria legal implementar um sistema assim. O maior problema seria como lidar com links que são feitos para todo um recurso e não para uma parte específica. Aí, só algo como o Internet Archive
    mesmo.

  • caffo says:

    Ou então montar um sistema ‘inteligente’ o suficiente para retirar a parte específica do todo. Algo quase cirúrgico e bastante complexo.

    Quem fizer me avise antes de patentear :)

  • zunk3r says:

    hun, interessante.
    mas pq phyton?? alguma vantagem especifica???

  • Ronaldo says:

    Caffo,

    Deixa de ser preguiçoso e faz o sistema. O mercado tá bom. 😛

  • Ronaldo says:

    Zunk3r,

    O uso do Python é só uma preferência pessoal. Eu gosto da linguagem e estou usando cada vez mais em meus projetos pessoais. É um linguagem muito completa e sofisticada, além de permitir a criação de protótipos rápidos, como foi o caso neste projetinho.

What's this?

You are currently reading Links desaparecidos at Superfície Reflexiva.

meta