93 318 54 36

Internet Archive ou Archive.org : comment ça marche et comment récupérer un site web

07/03/2022
Elizabeth De Léon

Internet Archive est une archive qui contient tous les sites obsolètes et qui n'existent plus.

Qu'est-ce qu'Archive.org et ce qu'il contient

Internet Archive o Archive.org joue le rôle d'une immense bibliothèque en ligne à but non lucratif chargée de préserver l'existence de livres numériques, de vidéos, de films, de chansons, d'images et de sites Web entiers du monde entier. Chaque jour, des millions d'internautes utilisent ce site, l'un des 300 plus visités au monde, qui depuis 1996 sauvegarde des copies des contenus en ligne et les met gratuitement à la disposition de tous.

Derrière Archive.org (autre nom de cette puissante bibliothèque virtuelle), il existe une véritable organisation dont les bureaux administratifs sont situés à San Francisco.

Le but de cette organisation est de préserver le savoir sous toutes ses formes, un peu comme les bibliothèques, sauf que dans ce cas il s'adresse à tous types de contenus, du livre au film, de la musique aux logiciels.

Archive.org est basé sur Wayback Machine , une application introduite en 2001 qui stocke automatiquement les analyses de sites Web et les rend disponibles sur le portail sous forme d'« images fixes ».

Les pages sont enregistrées sur des serveurs Archive.org qui les ramènent tels qu'ils étaient au moment de l'analyse, même si des années se sont écoulées depuis.

Les sites Web sont enregistrés comme s'il s'agissait de photographies, et cela également dans le cas de sites dynamiques qui sont "gelés" et stockés avec les caractéristiques en vigueur, y compris les liens qu'ils contiennent. L'écran nous fournit des « calendriers » à partir desquels nous pouvons sélectionner la version du site que nous souhaitons scanner : par exemple nous pourrions saisir la version du 5 mai 2015 ou du 10 septembre 2019. Chaque « scan » du site est archivé. en raison d'une date et d'une heure précises il est donc très simple de choisir la version qui nous intéresse.

Que peut-on trouver dans les archives Internet ?

Archive.org contient 14 milliards de contenus textuels, 35 milliards d'autres documents, soit environ 400 milliards, et agit comme une « sauvegarde » du contenu de l'ensemble du Web depuis 1996 jusqu'à aujourd'hui. Il s'agit d'une immense base de données qui contient des œuvres multimédias provenant des quatre coins du monde, une aide immense pour préserver la mémoire historique des sites Web et de la culture en général.

Les ouvrages contenus par ordre chronologique peuvent être consultés comme des répliques des sites dans une certaine période. En effet, plusieurs copies de chaque site Internet correspondant à différentes périodes temporelles sont enregistrées au sein des serveurs de la puissante plateforme.

Bien entendu, nous ne pouvons pas être sûrs que tous les éléments de tous les sites dans le monde soient présents et complets à 100 % : les fichiers graphiques ou les pièces jointes peuvent ne pas être disponibles. De plus, la navigation peut être peu intuitive et le chargement est assez lent.

Cependant, comparé à l’énorme quantité de contenu qu’il propose gratuitement, il s’agit d’une limite très basse !

Essayez-le avec un site que vous connaissez et dont vous savez qu'il a disparu depuis des années : il est probablement là, prêt à être consulté !

Comment trouver des sites plus anciens avec la Wayback Machine

Wayback Machine indexe les sites visibles par les moteurs de recherche, mais il vous permet également d'analyser des sites spécifiquement pour les inclure dans vos fichiers. La plateforme analyse périodiquement le site en question pour inclure les versions ultérieures du même portail dans ses fichiers.
Par conséquent, nous pouvons accéder à un long historique auquel nous pouvons accéder pour voir les versions des différents sites à différents moments de l’histoire. Sur le site nous trouvons un formulaire de recherche spécial dans lequel nous pouvons écrire le mot-clé qui nous intéresse et consulter tous les sites qui nous reviennent pour cela.

Qu'est-ce qui est présent dans Internet Archive ?

Sur Archive.org, nous pouvons trouver de nombreux contenus tels que :

  • livres
  • vieux film
  • Oeuvre d'art
  • livres
  • Jeux vidéo
  • canciones

On estime qu'il contient 11 millions de textes, 1 million d'images, plus de 100.000 XNUMX logiciels. Le contenu du site est divisé en différentes collections telles que les communautés liées à l'audio, à la vidéo, aux fichiers texte, aux bibliothèques américaines, aux universités, etc. ce qui permet de s'orienter encore plus facilement.

Le site comprend d'innombrables éléments, tels que des films d'époque et des livres anciens. dont le droit d'auteur a expiré. La section vidéo, par exemple, comprend d'innombrables examens des arts visuels tels que des courts métrages de guerre, des films d'époque, des programmes télévisés historiques, qui seraient très difficiles à trouver sans ce portail.

Il y a aussi des photos

La catégorie images nous fournit des illustrations qui peuvent être utilisées librement sous une licence Creative Commons ou du domaine public. Par exemple, on peut trouver des collections de photographies et d’illustrations mises à disposition par des universités et des bibliothèques du monde entier et qui peuvent être utilisées librement.

La Wayback Machine catalogue et inclut automatiquement les documents sur le Web. Cependant, Wayback Machine ne peut pas répertorier un site dont l'indexation est interdite via robots.txt. Si les sites sont étiquetés avec noindex, ils deviennent rétroactivement non indexables et sont exclus des archives sur Wayback Machine.

Wayback Machine est une excellente plateforme pour étudier l'évolution d'un site Web au fil du temps , ainsi que pour trouver des copies de documents multimédias qui autrement seraient perdus dans l'oubli.

C'est un site formidable pour tous ceux qui, par exemple, souhaitent retrouver des vidéos et des jeux désormais irrécupérables, des vieux films introuvables, du contenu de sites Web qu'ils ont aimé, et pour les universitaires qui souhaitent voir comment un site a évolué. au cours de la durée du cours.

Au sein d'Archive.org, nous pouvons consulter les différents éléments dans les catégories Livres, Audio, Vidéo, et chaque classification comprend d'autres sous-distinctions. Nous pouvons effectuer des recherches sur des sujets spécifiques tels que des programmes télévisés, du contenu textuel, des sites Web.

Comment récupérer un site Web avec Archive.org ?

Les archives du site Web peuvent être consultées à l'adresse  le site archive.org avec le même conception de sites Web qu'il avait.

Nous entrons le domaine du site Web sur la page principale dans le champ de recherche. Dans notre cas, ce sera Repubblica.it

Après avoir inséré le lien vers le site, nous voyons le calendrier d'enregistrement du code html de la page.

Le bleu signifie une réponse de code 200 valide du serveur (pas d'erreur de serveur) ;

Le rouge (il peut être jaune ou orange, selon le navigateur et le système d'exploitation de votre PC) signifie l'erreur 404 ou 403, ce qui n'a aucun intérêt lors de la restauration. Le vert signifie la redirection de page (301 et 302).

Les couleurs du calendrier ne garantissent pas une conformité à 100% : sur la date bleue une redirection est également possible (pas au niveau de l'en-tête, mais par exemple dans le code html de la page elle-même : dans les balises méta update (capture de la balise update écran) ou en JavaScript).

Prenons maintenant une date aléatoire comme le 8 novembre 2001 et nous verrons la belle page République de ce jour. On dirait qu'un siècle s'est écoulé, hein ?

Que pensez-vous de cette bibliothèque en ligne ? L'avez-vous déjà utilisé ou envisagez-vous de le faire ? Parlons-en ensuite !

Avez-vous besoin de mettre à jour votre site Web ?

Avez-vous besoin de l'un de nos services de conception de sites Web ? Dans IndienWebs Nous disposons d'une vaste expérience et d'une équipe de programmeurs et de concepteurs Web dans différentes spécialités, nous sommes en mesure d'offrir une large gamme de services dans la création de pages Web personnalisées. Quel que soit votre projet, nous le réaliserons.