93 318 54 36

Internet Archive o Archive.org: com funciona i com recuperar un lloc web

07/03/2022
Elizabeth De León

Internet Archive és un fitxer que conté tots els llocs obsolets i que ja no existeixen.

Què és Archive.org i què conté

Internet Archive o Arxiu.org juga el paper d'una enorme biblioteca en línia sense ànim de lucre encarregada de preservar l'existència de llibres digitals, vídeos, pel·lícules, cançons, imatges i llocs web complets de tot el món. Cada dia milions d'internautes fan ús d'aquest lloc, un dels 300 més visitats del món, que des del 1996 guarda còpies de continguts en línia i els posa a disposició de tothom de manera gratuïta.

darrere de Arxiu.org (que és un altre nom per a aquesta poderosa biblioteca virtual) hi ha una organització real les oficines administratives de la qual es troben a San Francisco.

El propòsit d'aquesta organització és preservar el coneixement en totes les seves formes, una mica com a biblioteques, però en aquest cas està dirigit a tot tipus de contingut, des de llibres fins a pel·lícules, des de música fins a programari.

Archive.org es basa en Wayback Machine , una aplicació introduïda el 2001 que emmagatzema automàticament escanejats de llocs web i els posa a disposició al portal com a «imatges fixes».

Les pàgines es guarden als servidors de Arxiu.org que les tornen tal com estaven en el moment de l'escaneig, encara que hagin passat anys des de llavors.

Els llocs web es registren com si fossin fotografies, i això també en el cas de llocs dinàmics que es «congelen» i emmagatzemen amb aquestes característiques vigents, inclosos els enllaços dins dels mateixos. La pantalla ens proporciona «calendaris» des dels quals podem seleccionar la versió del lloc que volem explorar: per exemple podríem ingressar la versió del 5 de maig de 2015 o el 10 de setembre de 2019. Cada «escaneig» del lloc s'arxiva amb motiu duna data i hora precises pel que és molt fàcil triar la versió que ens interessa.

Què podeu trobar a l'Arxiu d'Internet?

Archive.org conté 14 mil milions de contingut textual, 35 mil milions d'altres materials, una cosa així com 400 mil milions, i actua com una «còpia de seguretat» dels continguts de tota la web des del 1996 fins ara. És una immensa base de dades que conté obres multimèdia dels quatre racons del globus, una immensa ajuda per preservar la memòria històrica dels llocs web i la cultura en general.

Les obres contingudes en ordre cronològic es poden consultar com a rèpliques dels llocs en un període determinat. De fet, diverses còpies de cada lloc web corresponents a diferents períodes de temps es guarden dins dels servidors de la poderosa plataforma.

Per descomptat, no podem estar segurs que tots els elements de tots els llocs del món estiguin presents i complets al 100%: és possible que els fitxers gràfics o els fitxers adjunts no estiguin disponibles. A més, la navegació pot ser poc intuïtiva i la càrrega força lenta.

Tot i això, en comparació amb l'enorme quantitat de contingut que ofereix de forma gratuïta, aquest és un límit molt baix!

Proveu-lo amb un lloc que coneix i sap que ha estat perdut durant anys: probablement sigui allà, llest per ser consultat!

Com trobar llocs anteriors amb Wayback Machine

Wayback Machine indexa llocs que poden ser vistos pels motors de cerca, però també us permet escanejar llocs específicament per incloure'ls en els vostres fitxers. La plataforma analitza periòdicament el lloc en qüestió per incloure versions posteriors del mateix portal als fitxers.
Per tant, podem accedir a un llarg historial a què podem accedir per veure les versions dels diferents llocs en diferents moments de la història. Al lloc trobem un formulari de cerca especial on podem escriure la paraula clau que ens interessa i consultar tots els llocs que ens tornen per fer-ho.

Què és present a Internet Archive?

A Archive.org podem trobar molts continguts com:

  • llibres
  • pel·lícula antiga
  • obra d'art
  • llibres
  • Jocs de vídeo
  • cançons

S'estima que conté 11 milions de textos, 1 milió d'imatges, més de 100.000 programaris. Els continguts del lloc es divideixen en diferents col·leccions com a comunitats relacionades amb àudio, vídeo, arxius de text, biblioteques americanes, universitats, etc. cosa que fa que sigui encara més fàcil orientar-se.

El lloc inclou innombrables elements, com pel·lícules d'època i llibres antics els drets d'autor dels quals han caducat. La secció de vídeos, per exemple, inclou innombrables exàmens d'arts visuals com ara curtmetratges bèl·lics, pel·lícules d'època, programes històrics de televisió, que sense aquest portal serien molt difícils de trobar.

També hi ha fotos

La categoria d'imatges ens proporciona il·lustracions que es poden utilitzar lliurement sota una llicència Creative Commons o de domini públic. Per exemple, podem trobar col·leccions de fotografies i il·lustracions posades a disposició per universitats i biblioteques de tot el món i que es poden fer servir lliurement.

Wayback Machine cataloga i inclou automàticament materials a la web. Tot i això, Wayback Machine no pot incloure un lloc inhibit per la indexació a través de robots.txt. Si els llocs estan etiquetats amb noindex, es tornen no indexables retroactivament i s'exclouen del fitxer a Wayback Machine.

Wayback Machine és una plataforma excel·lent per estudiar l'evolució d'un lloc web al llarg del temps , així com per trobar còpies de materials multimèdia que altrament es perdrien en l'oblit.

És un lloc formidable per a tots aquells que, per exemple, volen trobar vídeos i jocs que ara són irrecuperables, pel·lícules antigues que no es poden trobar, contingut de llocs web als quals els agradava i per a estudiosos que volen veure com un canviat al llarg del temps del curs.

Dins de Archive.org podem consultar els diferents elements a les categories Llibres, Àudio, Vídeo, i cada classificació inclou altres subdistincions. Podem fer cerques sobre temes específics com programes de televisió, contingut textual, llocs web.

Com puc recuperar un lloc web amb Archive.org?

El fitxer del lloc web es pot trobar a  la web d'archive.org amb el mateix disseny web que tenia.

Ingressem el domini del lloc web a la pàgina principal al camp de cerca. En el nostre cas serà Repubblica.it

Després d'inserir l'enllaç al lloc web, veiem el calendari per desar el codi HTML de la pàgina.

Blau significa una resposta de codi 200 vàlida del servidor (sense error del servidor);

El vermell (pot ser groc o taronja, segons el navegador i el sistema operatiu del teu PC) significa error 404 o 403, cosa que no interessa a l'hora de restaurar. Verd significa redirecció de pàgina (301 i 302).

Els colors del calendari no garanteixen el 100 % de compliment: a la data blava també és possible una redirecció (no a nivell de capçalera, sinó, per exemple, al codi html de la pàgina mateixa: a les metaetiquetes d'actualització (captura de pantalla (actualitzar l'etiqueta) o en JavaScript).

Ara prenem una data aleatòria com el 8 de novembre del 2001 i veurem la bella pàgina de la República d'aquell dia. Sembla que ha passat un segle, eh?

Què opines d'aquesta biblioteca en línia? Ja ho has fet servir o tens pensat fer-ho? Parlem-ne a continuació!

Necessites posar al dia la teva web?

Necessites algun dels nostres serveis de disseny web? A IndianWebs comptem amb una llarga experiència, i un equip de programadors i dissenyadors web a diferents especialitats, som capaços d'oferir un gran ventall de serveis en la realització de pàgines web a mida. Sigui quin sigui el teu projecte, ho afrontarem.