93 318 54 36

Internet Archive oder Archive.org: wie es funktioniert und wie man eine Website wiederherstellt

07/03/2022
Elizabeth De Leon

Das Internetarchiv ist ein Archiv, das alle Websites enthält, die veraltet sind und nicht mehr existieren.

Was ist Archive.org und was beinhaltet es

Internet Archive o Archive.org spielt die Rolle einer riesigen gemeinnützigen Online-Bibliothek, deren Aufgabe es ist, die Existenz digitaler Bücher, Videos, Filme, Lieder, Bilder und ganzer Websites aus der ganzen Welt zu erhalten. Jeden Tag nutzen Millionen von Internetbenutzern diese Website, eine der 300 meistbesuchten der Welt, die seit 1996 Kopien von Online-Inhalten aufbewahrt und sie jedem kostenlos zur Verfügung stellt.

Hinter Archive.org (was ein anderer Name für diese leistungsstarke virtuelle Bibliothek ist) gibt es eine echte Organisation, deren Verwaltungsbüro sich in San Francisco befindet.

Der Zweck dieser Organisation ist es, Wissen in all seinen Formen zu bewahren, ein bisschen wie Bibliotheken, nur dass sie in diesem Fall auf alle Arten von Inhalten abzielt, von Büchern bis zu Filmen, von Musik bis Software.

Archive.org basiert auf Wayback Machine , eine 2001 eingeführte Anwendung, die Webseiten-Scans automatisch speichert und als „Standbilder“ auf dem Portal bereitstellt.

Die Seiten werden auf den Servern von gespeichert Archive.org die sie so zurückgeben, wie sie zum Zeitpunkt des Scannens waren, auch wenn seitdem Jahre vergangen sind.

Websites werden wie Fotos registriert, und dies gilt auch für dynamische Websites, die „eingefroren“ und mit diesen gültigen Merkmalen gespeichert werden, einschließlich der darin enthaltenen Links. Der Bildschirm bietet uns „Kalender“, aus denen wir die Version der Website auswählen können, die wir scannen möchten: Beispielsweise könnten wir die Version vom 5. Mai 2015 oder 10. September 2019 eingeben. Jeder „Scan“ der Website wird archiviert entsprechend ein genaues Datum und eine genaue Uhrzeit, so dass es sehr einfach ist, die Version auszuwählen, die uns interessiert.

Was finden Sie im Internetarchiv?

Archive.org enthält 14 Milliarden Textinhalte, 35 Milliarden andere Materialien, etwa 400 Milliarden, und fungiert als „Backup“ des Inhalts des gesamten Webs von 1996 bis heute. Es ist eine riesige Datenbank, die Multimedia-Werke aus allen Teilen der Welt enthält, eine immense Hilfe, um das historische Gedächtnis von Websites und der Kultur im Allgemeinen zu bewahren.

Die in chronologischer Reihenfolge enthaltenen Werke können als Nachbildungen der Stätten eingesehen werden in einem bestimmten Zeitraum. Tatsächlich werden mehrere Kopien jeder Website, die unterschiedlichen Zeiträumen entsprechen, auf den Servern der leistungsstarken Plattform gespeichert.

Natürlich können wir nicht sicher sein, dass alle Elemente auf allen Websites weltweit vorhanden und zu 100 % vollständig sind: Grafikdateien oder Anhänge sind möglicherweise nicht verfügbar. Darüber hinaus kann die Navigation unintuitiv sein und das Laden recht langsam sein.

Im Vergleich zu der riesigen Menge an kostenlosen Inhalten ist dies jedoch eine sehr niedrige Grenze!

Probieren Sie es mit einer Website aus, von der Sie wissen, dass sie seit Jahren vermisst wird - sie ist wahrscheinlich genau dort, bereit für Sie zum Auschecken!

So finden Sie vergangene Websites mit der Wayback Machine

Die Wayback Machine indiziert Websites, die von Suchmaschinen gesehen werden können, Es ermöglicht Ihnen aber auch, Websites speziell zu scannen, um sie in Ihre Archive aufzunehmen. Die Plattform analysiert regelmäßig die betreffende Website, um spätere Versionen desselben Portals in ihr Archiv aufzunehmen.
Daher können wir auf einen langen Verlauf zugreifen, auf den wir zugreifen können, um die Versionen der verschiedenen Websites zu unterschiedlichen Zeiten in der Geschichte anzuzeigen. Auf der Website finden wir ein spezielles Suchformular, in das wir das Schlüsselwort schreiben können, das uns interessiert, und alle Websites konsultieren, die uns dafür zurückgeben.

Was ist im Internetarchiv vorhanden?

In Archive.org finden wir viele Inhalte wie:

  • Bücher
  • alter Film
  • Kunstwerk
  • Bücher
  • Videospiele
  • Songs

Es wird geschätzt, dass es 11 Millionen Texte, 1 Million Bilder und mehr als 100.000 Software enthält. Die Inhalte der Website sind in verschiedene Sammlungen unterteilt, z. B. Communities in Bezug auf Audio, Video, Textdateien, amerikanische Bibliotheken, Universitäten usw. was es noch einfacher macht, sich zurechtzufinden.

Die Website enthält unzählige Artikel, wie z. B. alte Filme und alte Bücher dessen Urheberrecht abgelaufen ist. Der Videobereich zum Beispiel enthält unzählige Rezensionen zu bildender Kunst wie Kriegskurzfilme, historische Filme, historische Fernsehsendungen, die ohne dieses Portal nur sehr schwer zu finden wären.

Es gibt auch Fotos

Die Kategorie Bilder stellt uns Illustrationen zur Verfügung, die unter einer Creative Commons- oder Public Domain-Lizenz frei verwendet werden können. Beispielsweise finden wir Sammlungen von Fotografien und Illustrationen, die von Universitäten und Bibliotheken auf der ganzen Welt zur Verfügung gestellt und frei verwendet werden können.

Die Wayback-Maschine katalogisiert und bindet Materialien automatisch ins Web ein. Die Wayback-Maschine kann jedoch keine Website enthalten, deren Indizierung über die robots.txt-Datei gesperrt ist. Werden Seiten mit noindex getaggt, werden sie rückwirkend nicht indexierbar und von der Archivierung auf der Wayback Machine ausgeschlossen.

Die Wayback Machine ist eine hervorragende Plattform, um die Entwicklung einer Website im Laufe der Zeit zu untersuchen , sowie um Kopien von Multimedia-Materialien zu finden, die sonst in Vergessenheit geraten wären.

Es ist eine großartige Website für alle, die beispielsweise Videos und Spiele finden möchten, die jetzt nicht mehr wiederherstellbar sind, alte Filme, die nicht gefunden werden können, Inhalte von Websites, die ihnen gefallen, und für Wissenschaftler, die sehen möchten, wie sich eine Website verändert hat über die Kurszeit.

Innerhalb von Archive.org können wir die verschiedenen Elemente in den Kategorien Bücher, Audio, Video konsultieren, und jede Klassifizierung enthält andere Unterkategorien. Wir können Suchen zu bestimmten Themen wie Fernsehprogrammen, Textinhalten, Websites durchführen.

Wie kann eine Website mit Archive.org wiederhergestellt werden?

Das Website-Archiv finden Sie unter  die Website archive.org mit dem gleichen Web-Design das ich hatte

Wir geben die Domain der Website auf der Hauptseite in das Suchfeld ein. In unserem Fall wird es Repubblica.it sein

Nach dem Einfügen des Links zur Website sehen wir den Kalender, um den HTML-Code der Seite zu speichern.

Blau bedeutet eine gültige 200-Code-Antwort vom Server (kein Serverfehler);

Rot (je nach Browser und Betriebssystem Ihres PCs kann es gelb oder orange sein) bedeutet Fehler 404 oder 403, was beim Wiederherstellen keine Rolle spielt. Grün bedeutet Seitenumleitung (301 und 302).

Die Farben des Kalenders garantieren keine 100%ige Übereinstimmung: Beim blauen Datum ist auch eine Weiterleitung möglich (nicht auf Header-Ebene, sondern beispielsweise im HTML-Code der Seite selbst: in den Update-Meta-Tags (Capture of Bildschirmaktualisierungs-Tag) oder in JavaScript).

Nehmen wir nun ein zufälliges Datum wie den 8. November 2001 und sehen uns die schöne Seite der Republik für diesen Tag an. Scheint, als wäre ein Jahrhundert vergangen, oder?

Was halten Sie von dieser Online-Bibliothek? Haben Sie es bereits genutzt oder planen Sie dies? Lass uns als nächstes darüber reden!

Müssen Sie Ihre Website aktualisieren?

Benötigen Sie einen unserer Webdesign-Services? In IndianWebs Wir verfügen über umfassende Erfahrung und sind mit einem Team von Programmierern und Webdesignern verschiedener Fachrichtungen in der Lage, eine breite Palette von Dienstleistungen bei der Erstellung individueller Webseiten anzubieten. Was auch immer Ihr Projekt ist, wir werden es in Angriff nehmen.