93 318 54 36

Internet Archive o Archive.org: come funziona e come recuperare un sito web

07/03/2022
Elisabetta De Leon

Internet Archive è un archivio che contiene tutti i siti obsoleti e non più esistenti.

Cos'è Archive.org e cosa contiene

Internet Archive o Archive.org svolge il ruolo di un'enorme biblioteca online senza scopo di lucro incaricata di preservare l'esistenza di libri digitali, video, film, canzoni, immagini e interi siti Web da tutto il mondo. Ogni giorno milioni di internauti utilizzano questo sito, uno dei 300 più visitati al mondo, che dal 1996 salva copie dei contenuti online e li rende disponibili a tutti gratuitamente.

dietro Archive.org (che è un altro nome per questa potente biblioteca virtuale) esiste una vera e propria organizzazione i cui uffici amministrativi si trovano a San Francisco.

Lo scopo di questa organizzazione è preservare la conoscenza in tutte le sue forme, un po' come le biblioteche, solo che in questo caso è rivolta a tutti i tipi di contenuti, dai libri ai film, dalla musica ai software.

Archive.org è basato su Wayback Machine , un'applicazione introdotta nel 2001 che memorizza automaticamente le scansioni dei siti Web e le rende disponibili sul portale come "immagini fisse".

Le pagine vengono salvate sui server Archive.org che li restituiscono così come erano al momento della scansione, anche se da allora sono passati anni.

I siti web vengono registrati come se fossero fotografie e ciò anche nel caso di siti dinamici che vengono “congelati” e conservati con le caratteristiche vigenti, compresi i link al loro interno. La schermata ci mette a disposizione dei "calendari" dai quali potremo selezionare la versione del sito che vogliamo scansionare: ad esempio potremmo inserire la versione del 5 maggio 2015 o del 10 settembre 2019. Ogni "scansione" del sito viene archiviata per via di una data e un orario precisi quindi è molto semplice scegliere la versione che ci interessa.

Cosa puoi trovare nell'Archivio Internet?

Archive.org contiene 14 miliardi di contenuti testuali, 35 miliardi di altri materiali, qualcosa come 400 miliardi, e funge da "backup" dei contenuti dell'intero web dal 1996 ad oggi. Si tratta di un immenso database che contiene opere multimediali provenienti dai quattro angoli del globo, un immenso aiuto per preservare la memoria storica dei siti web e della cultura in generale.

Le opere contenute in ordine cronologico sono consultabili come repliche dei siti in un certo periodo. Nei server della potente piattaforma, infatti, vengono salvate più copie di ciascun sito Web corrispondenti a periodi di tempo diversi.

Naturalmente non possiamo essere sicuri che tutti gli elementi su tutti i siti del mondo siano presenti e completi al 100%: file grafici o allegati potrebbero non essere disponibili. Inoltre, la navigazione può essere poco intuitiva e il caricamento piuttosto lento.

Tuttavia, rispetto all’enorme quantità di contenuti che offre gratuitamente, questo è un limite molto basso!

Provalo con un sito che conosci e che manchi da anni: probabilmente è lì, pronto per essere consultato!

Come trovare siti meno recenti con la Wayback Machine

Wayback Machine indicizza i siti che possono essere visti dai motori di ricerca, ma ti consente anche di scansionare i siti appositamente per includerli nei tuoi file. La piattaforma analizza periodicamente il sito in questione per includere nei propri archivi versioni successive dello stesso portale.
Pertanto, possiamo accedere a una lunga cronologia a cui possiamo accedere per vedere le versioni dei diversi siti in momenti diversi della storia. Sul sito troviamo un apposito modulo di ricerca in cui possiamo scrivere la parola chiave che ci interessa e consultare tutti i siti che ci ritornano per questo.

Cosa è presente in Internet Archive?

Su Archive.org possiamo trovare molti contenuti come:

  • libri
  • vecchio film
  • opera d'arte
  • libri
  • Videogiochi
  • canzoni

Si stima che contenga 11 milioni di testi, 1 milione di immagini, più di 100.000 software. I contenuti del sito sono suddivisi in diverse raccolte come comunità legate ad audio, video, file di testo, biblioteche americane, università, ecc. il che rende ancora più facile orientarsi.

Il sito include innumerevoli articoli, come film d'epoca e vecchi libri il cui diritto d'autore è scaduto. La sezione video, ad esempio, comprende innumerevoli approfondimenti di arti visive come cortometraggi di guerra, film d'epoca, programmi televisivi storici, che senza questo portale sarebbero molto difficili da trovare.

Ci sono anche delle foto

La categoria immagini ci fornisce illustrazioni che possono essere utilizzate liberamente con licenza Creative Commons o di pubblico dominio. Possiamo trovare, ad esempio, raccolte di fotografie e illustrazioni messe a disposizione da università e biblioteche di tutto il mondo e che possono essere utilizzate liberamente.

La Wayback Machine cataloga e include automaticamente materiali sul web. Tuttavia, la Wayback Machine non può elencare un sito a cui è stata impedita l'indicizzazione tramite robots.txt. Se i siti sono contrassegnati con noindex, diventano retroattivamente non indicizzabili e vengono esclusi dall'archivio su Wayback Machine.

Wayback Machine è un'ottima piattaforma per studiare l'evoluzione di un sito web nel tempo , nonché per ritrovare copie di materiali multimediali che altrimenti andrebbero perduti nell'oblio.

È un sito formidabile per tutti coloro che, ad esempio, vogliono ritrovare video e giochi ormai irrecuperabili, vecchi film introvabili, contenuti di siti web che gli piacevano, e per gli studiosi che vogliono vedere come è cambiato un sito nel corso del tempo.

All'interno di Archive.org possiamo consultare i diversi elementi nelle categorie Libri, Audio, Video e ogni classificazione comprende altre sottodistinzioni. Possiamo effettuare ricerche su argomenti specifici come programmi televisivi, contenuti testuali, siti web.

Come puoi recuperare un sito web con Archive.org?

L'archivio del sito web è reperibile all'indirizzo  il sito archive.org con lo stesso web design che avevo

Inseriamo il dominio del sito web nella pagina principale nel campo di ricerca. Nel nostro caso sarà Repubblica.it

Dopo aver inserito il collegamento al sito web, vediamo la pianificazione per il salvataggio del codice html della pagina.

Blu indica una risposta codice 200 valida dal server (nessun errore del server);

Il rosso (può essere giallo o arancione, a seconda del browser e del sistema operativo del PC) indica l'errore 404 o 403, qualcosa che non interessa durante il ripristino. Il verde significa reindirizzamento della pagina (301 e 302).

I colori del calendario non garantiscono il 100% di conformità: sulla data blu è possibile anche un reindirizzamento (non a livello di header, ma, ad esempio, nel codice html della pagina stessa: nei meta tag di aggiornamento (cattura del tag di aggiornamento schermata) o in JavaScript).

Adesso prendiamo una data a caso come l'8 novembre 2001 e vedremo la bellissima pagina di Repubblica di quel giorno. Sembra che sia passato un secolo, eh?

Cosa ne pensate di questa libreria online? Lo hai già utilizzato o hai intenzione di farlo? Ne parliamo dopo!

Hai bisogno di aggiornare il tuo sito web?

Hai bisogno di uno dei nostri servizi di web design? In IndianWebs Abbiamo una vasta esperienza e un team di programmatori e web designer in diverse specialità, siamo in grado di offrire una vasta gamma di servizi nella creazione di pagine web personalizzate. Qualunque sia il tuo progetto, lo affronteremo.