93 318 54 36

Internet Archive o Archive.org: cómo funciona y cómo recuperar un sitio web

07/03/2022
Elizabeth De León

Internet Archive es un archivo que contiene todos los sitios obsoletos y que ya no existen.

Qué es Archive.org y qué contiene

Internet Archive o Archive.org desempeña el papel de una enorme biblioteca en línea sin fines de lucro encargada de preservar la existencia de libros digitales, videos, películas, canciones, imágenes y sitios web completos de todo el mundo. Cada día millones de internautas hacen uso de este sitio, uno de los 300 más visitados del mundo, que desde 1996 guarda copias de contenidos en línea y los pone a disposición de todos de forma gratuita.

Detrás de Archive.org (que es otro nombre para esta poderosa biblioteca virtual) hay una organización real cuyas oficinas administrativas se encuentran en San Francisco.

El propósito de esta organización es preservar el conocimiento en todas sus formas, un poco como bibliotecas, solo que en este caso está dirigido a todo tipo de contenido, desde libros hasta películas, desde música hasta software.

Archive.org se basa en Wayback Machine , una aplicación introducida en 2001 que almacena automáticamente escaneos de sitios web y los pone a disposición en el portal como «imágenes fijas».

Las páginas se guardan en los servidores de Archive.org que las devuelven tal como estaban en el momento del escaneo, aunque hayan pasado años desde entonces.

Los sitios web se registran como si fueran fotografías, y esto también en el caso de sitios dinámicos que se «congelan» y almacenan con esas características vigentes, incluidos los enlaces dentro de los mismos. La pantalla nos proporciona «calendarios» desde los cuales podemos seleccionar la versión del sitio que queremos explorar: por ejemplo podríamos ingresar la versión del 5 de mayo de 2015 o el 10 de septiembre de 2019. Cada «escaneo» del sitio se archiva con motivo de una fecha y hora precisas por lo que es muy fácil elegir la versión que nos interesa.

¿Qué puedes encontrar en el Archivo de Internet?

Archive.org contiene 14 mil millones de contenido textual, 35 mil millones de otros materiales, algo así como 400 mil millones, y actúa como una «copia de seguridad» de los contenidos de toda la web desde 1996 hasta el presente. Es una inmensa base de datos que contiene obras multimedia de los cuatro rincones del globo, una inmensa ayuda para preservar la memoria histórica de los sitios web y la cultura en general.

Las obras contenidas en orden cronológico se pueden consultar como réplicas de los sitios en un período determinado. De hecho, varias copias de cada sitio web correspondientes a diferentes períodos de tiempo se guardan dentro de los servidores de la poderosa plataforma.

Por supuesto, no podemos estar seguros de que todos los elementos de todos los sitios del mundo estén presentes y completos al 100 %: es posible que los archivos gráficos o los archivos adjuntos no estén disponibles. Además, la navegación puede ser poco intuitiva y la carga bastante lenta.

Sin embargo, en comparación con la enorme cantidad de contenido que ofrece de forma gratuita, ¡este es un límite muy bajo!

Pruébelo con un sitio que conoce y sabe que ha estado perdido durante años: ¡probablemente esté allí, listo para ser consultado!

Cómo encontrar sitios anteriores con Wayback Machine

Wayback Machine indexa sitios que pueden ser vistos por los motores de búsqueda, pero también le permite escanear sitios específicamente para incluirlos en sus archivos. La plataforma analiza periódicamente el sitio en cuestión para incluir versiones posteriores del mismo portal en sus archivos.
Por lo tanto, podemos acceder a un largo historial al que podemos acceder para ver las versiones de los distintos sitios en diferentes momentos de la historia. En el sitio encontramos un formulario de búsqueda especial en el que podemos escribir la palabra clave que nos interesa y consultar todos los sitios que nos devuelven para ello.

¿Qué está presente en Internet Archive?

En Archive.org podemos encontrar muchos contenidos como:

  • libros
  • película antigua
  • obra de arte
  • libros
  • Juegos de vídeo
  • canciones

Se estima que contiene 11 millones de textos, 1 millón de imágenes, más de 100.000 software. Los contenidos del sitio se dividen en diferentes colecciones como comunidades relacionadas con audio, video, archivos de texto, bibliotecas americanas, universidades, etc. lo que hace que sea aún más fácil orientarse.

El sitio incluye innumerables elementos, como películas de época y libros antiguos cuyos derechos de autor han caducado. La sección de videos, por ejemplo, incluye innumerables exámenes de artes visuales como cortometrajes bélicos, películas de época, programas históricos de televisión, que sin este portal serían muy difíciles de encontrar.

Tambien hay fotos

La categoría de imágenes nos proporciona ilustraciones que pueden ser utilizadas libremente bajo una licencia Creative Commons o de dominio público. Por ejemplo, podemos encontrar colecciones de fotografías e ilustraciones puestas a disposición por universidades y bibliotecas de todo el mundo y que se pueden utilizar libremente.

Wayback Machine cataloga e incluye automáticamente materiales en la web. Sin embargo, Wayback Machine no puede incluir un sitio inhibido por la indexación a través de robots.txt. Si los sitios están etiquetados con noindex, se vuelven no indexables retroactivamente y se excluyen del archivo en Wayback Machine.

Wayback Machine es una excelente plataforma para estudiar la evolución de un sitio web a lo largo del tiempo , así como para encontrar copias de materiales multimedia que de otro modo se perderían en el olvido.

Es un sitio formidable para todos aquellos que, por ejemplo, quieren encontrar videos y juegos que ahora son irrecuperables, películas antiguas que no se pueden encontrar, contenido de sitios web a los que les gustaba y para estudiosos que quieren ver cómo un el sitio ha cambiado a lo largo del tiempo del curso.

Dentro de Archive.org podemos consultar los distintos elementos en las categorías Libros, Audio, Vídeo, y cada clasificación incluye otras subdistinciones. Podemos realizar búsquedas sobre temas específicos como programas de televisión, contenido textual, sitios web.

¿Cómo se puede recuperar un sitio web con Archive.org?

El archivo del sitio web se puede encontrar en  http://web.archive.org/

Ingresamos el dominio del sitio web en la página principal en el campo de búsqueda. En nuestro caso será Repubblica.it

Después de insertar el enlace al sitio web, vemos el calendario para guardar el código html de la página.

Azul significa una respuesta de código 200 válida del servidor (sin error del servidor);

El rojo (puede ser amarillo o naranja, según el navegador y el sistema operativo de tu PC) significa error 404 o 403, algo que no interesa a la hora de restaurar. Verde significa redirección de página (301 y 302).

Los colores del calendario no garantizan el 100 % de cumplimiento: en la fecha azul también es posible una redirección (no a nivel de encabezado, sino, por ejemplo, en el código html de la página misma: en las metaetiquetas de actualización (captura de pantalla actualizar la etiqueta) o en JavaScript).

Ahora tomemos una fecha aleatoria como el 8 de noviembre de 2001 y veremos la hermosa página de la República de ese día. Parece que ha pasado un siglo, ¿eh?

¿Qué opinas de esta biblioteca en línea? ¿Ya lo has usado o tienes pensado hacerlo? ¡Hablemos de ello a continuación!