Am Innsbrucker Zeitungsarchiv (IZA) ging Anfang 2023 ein 10 Jahre langes Webarchivierungsprojekt zu Ende. Ich hatte die große Freude, dieses Webarchiv für die letzten zweieinhalb Jahre zu betreuen. In diesem Artikel möchte ich einige Erfahrungen, die ich in diesen Jahren mit Webarchivierung gemacht habe, teilen.

Doch was ist eigentlich Webarchivierung? Und warum benötigen wir Webarchivierung überhaupt? Wenn man von einem Webarchiv spricht, meint man eine Spiegelung einer Website zu einem bestimmten Zeitpunkt. Meistens wird die gespiegelte Website in einer sogenannten Webarchiv-Datei gespeichert. Die archivierte Version einer Website ist von etwaigen Änderungen der Originalseite nach dem Zeitpunkt der Spiegelung nicht mehr betroffen. Somit ist ein Webarchiv wie eine Fotografie einer Website. Mit spezieller Software kann man dann die archivierte Website wiederverwenden.

Die Erhaltung von Webarchiven ist von großer Bedeutung. Dabei geht es allerdings nicht nur um den Erhalt des Inhalts von Websites, sondern auch um den Erhalt der Präsentation dieses Inhalts. Erinnert man sich an Websites aus den 2000ern zurück, wird einem klar, weshalb das wichtig ist. Damals sahen Websites noch ganz anders aus. Die Präsentation des Inhalts richtete sich stark an ein Publikum, das mit Maus und Tastatur vor dem Computer saß. Heutzutage verwenden wir für das Abrufen von Websites immer häufiger unser Smartphone oder Tablet [1], was die Präsentation von Inhalten maßgeblich beeinflusst hat[i]. Mittels Webarchiven kann sichergestellt werden, dass die „Geschichte“ einer Website mit all ihren Inhalten und Darstellungen nachvollzogen werden kann. Ein gutes Beispiel für die Entwicklung einer Website ist „Gangway“ von Gerald Ganglbauer [2, 3], abrufbar in unserem Webarchiv:

Klickt man sich durch die Links, sieht man, wie sehr sich die Website seit ihrem Ursprung weiterentwickelt hat.

Unsere Webarchive, Dilimag und Autorenhomepages

Die Webarchive des IZA, die in diesem Artikel behandelt werden, sind Dilimag [4] und Autorenhomepages [5]. Nähere Informationen zu den Archiven kann man auf den jeweiligen Websites und in dem Artikel von Renate Giacomuzzi [6] nachlesen.

Technische Aspekte von Dilimag und Autorenhomepages

Im Wesentlichen bestehen die Webarchive am IZA aus vier Systemen:

  • Dilimag [4]
  • Autorenhomepages [5]
  • Eine interne Anwendung namens ArchiveImporter, mit deren Hilfe man neu erstellte Archive in das Dilimag bzw. Autorenhomepages System laden kann.
  • Replay Systeme [7, 8], mit denen archivierte Websites „erneut abgespielt“,  also erneut angesehen, werden können.

Sowohl das Dilimag als auch das Autorenhomepages System wurden im IZA im Rahmen des vom österreichischen Forschungsfonds FWF geförderten Autorenhomepage-Projekts von Armin Schleicher entwickelt. Die Software ermöglicht Mitarbeiter:innen des IZA das Anlegen neuer zu archivierenden Internetquellen. Zu jeder Quelle können auch mehrere Metainformationen, wie Herausgeber oder Schlagworte, angegeben werden. Sobald die Daten eingetragen wurden, können Besucher:innen von Dilimag und Autorenhomepages einsehen, welche Quellen das IZA archiviert hat. Auf der jeweiligen Seite einer Quelle werden diese Metainformationen und vergangene archivierte Versionen der Quelle nach Jahren sortiert angezeigt. Die Ansicht einer Quelle für Besucher:innen von Dilimag sehen sie in Abbildung 1.

Abbildung 1 Screenshot der Benutzeroberfläche von Dilimag

Das eigentliche Archivieren der Quellen wurde „händisch“ von der jeweils aktiven studentischen Mitarbeiter:in der Informatik gemacht, vor meiner Zeit von Armin Schleicher in Kooperation mit dem Internet Archive in San Francisco. Anfang 2020 habe ich als studentische Mitarbeiter:in der Informatik die IT-Arbeit für das Webarchiv übernommen. Welche Erfahrungen ich jeweils gemacht habe, wird in „Verwendete Technologien zum Crawlen von Websites“ näher besprochen.Die archivierten Websites wurden im Anschluss mit Hilfe des ArchiveImporter in das Dilimag bzw. Autorenhomepages System geladen.

Der ArchiveImporter enthält Funktionen, die das Indexieren und Bereitstellen der einzelnen gecrawlten Webarchive vereinfacht. Allerdings ist das Tool nicht perfekt. Das Konfigurieren und Ausführen des Tools benötigt fachliche Expertise mit Java Spring, Maven, Oracle Datenbanken, Bash-Scripts und mehr. Mit der org.netpreserve.openwayback/openwayback-core [7] Bibliothek wird abgefragt, welche unserer Internetquellen zu welchen Zeitpunkten gespeichert wurden. Mit diesen Informationen können dann die Weboberflächen von Dilimag bzw. Autorenhomepages mit den aktualisierten Daten angepasst werden. Das führt oft zu Anzeigeproblemen in Dilimag, wenn bei einer Quelle zufällig eine Seite einer anderen Quelle mitgecrawlt wurde. Diese wird dann bei falschen Quellen angezeigt. Für die Zukunft wäre es empfehlenswert, wenn man in den Dilimag bzw. Autorenhomepages Systemen einzelne Crawls von der Weboberfläche entfernen könnte, um das Problem einzugrenzen.

Als Replay-Tool verwenden wir standardmäßig OpenWayback [7]. OpenWayback war viele Jahre lang der Standard für die Wiedergabe von Webarchiven. Jedoch ist das Projekt mittlerweile nicht mehr in Entwicklung [9]. Die letzte Version erschien im Mai 2019. Unsere Konfiguration von OpenWayback macht das Hinzufügen neuer Webarchive umständlich. Je größer das Archiv wird, desto länger dauert auch das Einfügen neuer Crawls. Zusätzlich dazu kommt es vor, dass OpenWayback modernere Websites nicht mehr akkurat wiedergeben kann.

Für das Replay der einzelnen Webarchive verwenden wir zum größten Teil OpenWayback mit der CDX indexing Methode. Beim CDX indexing muss zu jedem Webarchiv zusätzlich eine CDX Datei generiert werden. Eine CDX Datei ist vereinfacht gesagt ist dabei eine ”Textdatei, die eine Liste aller URLs in einem Webarchiv enthält” [10]. Die einzelnen CDX Dateien müssen dann pro Kollektion (hier Dilimag oder Autorenhomepages) zusammengefügt und sortiert werden. Bei der aktuellen Größe des Archivs dauert das auf einem i5-8500 in etwa 30 Minuten. Die CDX Datei von Dilimag ist 29 GB groß.

Mitte 2022 beschlossen wir, unser OpenWayback Replay-Tool mit dem modernen alternativen System PyWb [8] zu ersetzen bzw. zu ergänzen. PyWb wird als Ersatz zu OpenWayback empfohlen [7]. Da PyWb aktiv entwickelt wird, ist es auch besser im Wiedergeben moderner Websites. Dafür kommt es aber hin und wieder zu Problemen mit älteren Webarchiven. Für eine möglichst gute Wiedergabe sollte man also überprüfen, welches Replay-Tool am besten für ein Webarchiv geeignet ist. Mit Stand der Publizierung dieses Artikels ist ein Zugang zu unserem PyWb System nur mittels Direktlink möglich. Ich plane in diesem Jahr das PyWb System für Benutzer:innen von Dilimag und Autorenhomepages einfach zugänglich zu machen.

Verwendete Technologien zum Crawlen von Websites

Neben den oben genannten Technologien, die dafür zuständig sind, unsere archivierten Quellen anzuzeigen, verwendeten wir noch einige andere Technologien für die Erstellung und Organisation des Webarchivs. Fangen wir an mit den “Crawlern”, also jenen Systemen, die das Spiegeln einer Website ermöglichen.

In den ersten Jahren von Dilimag und Autorenhomepages verwendeten wir das vom Internet Archive angebotene System archive-it [11]. Archive-it bietet eine rundum Lösung für das Erstellen und Organisieren von Webarchiven an. Nach Angabe der zu crawlenden Quellen werden diese von archive-it gespiegelt und danach zum Download bereitgestellt.

Nachdem unsere Kooperation mit archive-it ausgelaufen war, stiegen wir auf den weitverbreiteten Heritrix-Crawler [12] (im weiteren lediglich Heritrix) um. Heritrix[ii] System zum Erstellen von Web-Archiven. Am besten funktioniert Heritrix beim Archivieren statischer Websites. Grob gesagt sind das Websites, bei denen Inhalte und Strukturen für jede:n Benutzer:in gleich angezeigt werden und Interaktionen von Benutzer:innen keine Veränderungen der Seite hervorrufen. Ein Beispiel für solch eine Seite ist literaturkritik.at.

Auch wenn Heritrix ein sehr mächtiges System für das Crawlen von Websites ist, kommt es gerade bei Websites, die mittels Benutzer:innen Interaktionen ihre Inhalte ändern können, an seine Grenzen (mehr dazu in 3.2.1). Daher suchten wir nach alternativen Crawlern und fanden Browsertrix-Crawler [13] , Brozzler [14] und Conifer [15]. Diese drei Crawler ermöglichen in vielen Fällen ein besseres Spiegeln von modernen Websites als Heritrix. Browsertrix-Crawler und Brozzler arbeiten dabei wie Heritrix nach initialer Konfiguration automatisch während Conifer für jede Seite manuell bedient werden muss.

Zur Organisation von Crawls experimentierten wir auch mit dem quelloffenen Web Curator Tool [16] (WCT). Das WCT ist durch die Kollaboration der Nationalbibliotheken von Neuseeland und den Niederlanden entstanden. Es bietet einen kompletten Workflow für das Organisieren und Erstellen von Webarchiven an. Quellen, die archiviert werden sollen, können samt Metainformationen ins System eingetragen werden. Danach wird in regelmäßigen Zeitabständen automatisch mit Heritrix ein neuer Crawl erstellt. Ich empfehle es, sich den Workflow des WCT genau anzusehen, wenn man ein Webarchivprojekt wie Dilimag oder Autorenhomepages starten möchte. Das Tool passte im Endeffekt aber nicht in unseren Arbeitsablauf, hauptsächlich wegen der fehlenden Option der Deduplizierung von Crawls. Nach erstmaligen installieren des Tools können auch weniger erfahrene Personen Crawls starten und zukünftige Crawls planen.

Aufgetretene Herausforderungen

Speicherverbrauch von Webarchiven

Dimensionen von Websites können höchst unterschiedliche Größen annehmen. Sie können eher klein sein, wie die Website von Milena Michiko Flašar [17, 18], bei der es mit Stand Mai 2023 nur eine Handvoll Unterseiten gibt. Allerdings gibt es auch Websites wie nachkritik.de [19, 20], die tausende Artikel und Bilder enthält. In manchen Fällen stellen Websites auch Audio- und Videoaufnahmen zur Verfügung, was die Größe der Webarchive nochmals erhöht.

Leider ist der Speicherplatz des IZAs begrenzt, weshalb wir bis 2021 Crawls deduplizierten. Beim Deduplizieren von Crawls werden nur die Seiten gespeichert, die neu sind oder verändert wurden. Um Deduplizierung besser zu erklären, erlaube ich mir ein Beispiel: Nehmen Sie an, Sie archivieren zwei Ausgaben eines Buches “Die Geschichte der Literaturkritik”. In der ersten Ausgabe gibt es folgende Kapitel:

  1. Die Anfänge der Literaturkritik
  2. Berühmte Literaturkritiker:innen

Sie archivieren nun dieses Buch mit allen Inhalten. Einige Zeit später erscheint die zweite Ausgabe mit folgenden Kapiteln:

  1. Die Anfänge der Literaturkritik
  2. Berühmte Literaturkritiker:innen
  3. Die Zukunft der Literaturkritik

Auch dieses Buch archivieren Sie. Allerdings bemerken Sie, dass die ersten zwei Kapitel identisch mit der ersten Ausgabe des Buches sind. Daher speichern Sie nur das neue, dritte Kapitel ab und verweisen auf die bereits archivierten Kapitel der ersten Ausgabe. In diesem Beispiel ist das Buch gleichzusetzen mit einer Website, die sich im Laufe der Zeit verändert und dadurch neue Versionen entstehen. Das Deduplizieren von Archiven kann dadurch sehr viel Speicherplatz sparen.

Deduplizierung kommt allerdings auch mit Nachteilen. Der für unser Webarchiv größte davon ist, dass die Qualitätskontrolle von erstellten Webarchiven stark erschwert wird. Eine neue Spieglung einer Quelle kann nur dann korrekt inspiziert werden, wenn alle vorherigen Crawls dieser Quelle mit einbezogen werden. Dieser Vorgang ist deutlich zeitaufwendiger als einen nicht deduplizierten Crawl zu überprüfen.

Für die Crawls 2022 unserer Internetquellen verwendeten wir keine Deduplizierung. Mir war es wichtig, so viele Qualitätskontrollen wie möglich durchzuführen, damit die letzten archivierten Websites von Dilimag und Autorenhomepages qualitativ hochwertig sind. Insgesamt benötigten die letzten Spieglungen der Quellen von Dilimag beziehungsweise Autorenhomepages etwas über 250 bzw. 20 Gigabyte an Speicher.

Überprüfen der Webarchive

Das Überprüfen der gecrawlten Seiten ist essenziell, damit grobe Fehler vor dem Hochladen auf Dilimag und Autorenhomepages behoben werden können. Im Wesentlichen habe ich alle Crawls manuell überprüft. Bei kleinen Seiten, wie der von Milena Michiko Flašar, ist es möglich, alle Seiten auf Fehler zu überprüfen. Bei größeren Seiten mit tausenden von Unterseiten, wie nachtkritik.de, ist das vollständige manuelle Überprüfen aber nicht realistisch. In diesen Fällen sah ich mir stichprobenartig verschiedene Unterseiten an.

Beim Überprüfen eines Crawls muss man auf mehrere Aspekte achten. Generell gilt, dass Fehler entweder beim Crawl selbst oder bei der anschließenden Wiedergabe mit dem Replay-Tool auftreten. Im Folgenden liste ich einige Aspekte auf, die vor beziehungsweise nach einem Crawl überprüft werden sollten. Diese Liste basiert auf meinen Erfahrungen. Natürlich, kann (und sollte!) die Liste noch ausgebaut werden. 

Vor dem Crawl:

  • Ist die Website noch online? Sollte eine Website nicht mehr online sein, muss das vermerkt werden (In einer Tabelle, im WCT, …). Danach werden Crawls für diese Website eingestellt.
  • Ist die Website unter einer anderen URL zu finden? Hin und wieder kommt es vor, dass Websites auf eine andere Domain umziehen. Dies muss vermerkt werden. Dann ist es notwendig, die neue Quelle zu crawlen.
  • Hat sich die Website verändert? Es empfiehlt sich vor einem Crawl nachzusehen, ob sich die Website grundlegend von der vorherigen Version unterscheidet. Dadurch kann man feststellen, welcher Technologien für den Crawl am geeignetsten wären. Wenn die Website auf eine andere URL umgezogen ist oder sich stark verändert hat, empfiehlt sich eine Spiegelung ohne Deduplizierung.

Nach dem Crawl (im Replay Tool):

Es empfiehlt sich auch zu prüfen, ob auf der Originalseite die Bilder korrekt angezeigt werden.

  • Werden Schriftarten korrekt nachgebildet? Auch hier gilt: Wurde die Schriftart korrekt im Archiv gespeichert? Wird sie dann korrekt wiedergegeben?
  • Vor allem bei Wordpress Seiten: Können Kategorien, Tags und vergangene Monate geladen werden? Bei manchen Websites ist es möglich, bestimmte Monate oder Kategorien auszuwählen (z.B.: https://iza-server.uibk.ac.at/pywb/dilimag/20220720072542/http://www.umblaetterer.de/#categories-1). Hier muss beachtet werden, dass diese Elemente korrekt wiedergegeben werden und auch auf die entsprechenden Seiten weiterleiten.
  • Funktionieren interaktive Elemente (wie nach Oben scrollen, Aufklappen von Sektionen, etc.)? Machen diese Funktionen, was man von ihnen erwartet?
  • Wurden alle benötigten Quellen gespiegelt? In manchen Fällen (z.B.: Gangway [3]) benötigt man mehrere Quellen für einen Crawl. Hier muss überprüft werden, dass alle Quellen korrekt wiedergegeben wurden. Sollte etwas fehlen, müssen die fehlenden Quellen nachgeholt werden.
  • Wurden Quellen gespiegelt, die nicht im Archiv inkludiert werden sollten? Es kann vorkommen, dass URLs gecrawlt wurden, die nicht in der Quelle angegeben ist. Sollte das in einem Crawl häufiger vorkommen, muss der Crawl neu konfiguriert werden.
  • Funktionieren Downloads (PDFs, Multimediadateien)? Können Multimediadaten in den Archiversionen heruntergeladen werden?
  • Werden Umlaute korrekt angezeigt? In Pywb kommt es aktuell noch vor, dass bei älteren Crawls Umlaute nicht korrekt angezeigt werden können. In OpenWayback ist es problemlos möglich. Ein Beispiel hierfür ist das abraxas-magazin:

Mit automatisierter Qualitätskontrolle habe ich wenig bis keine Erfahrung. Es bietet sich zum Beispiel an, automatisiert Crawl Logs (Ablaufaufzeichnungen eines Programms) zu analysieren. Dadurch könnte man schnell feststellen, ob bestimmte Seiten einer Quelle nicht laden oder nicht gewollte Seiten inkludiert wurden.

Archivierung von modernen Webapplikationen

Mittlerweile kommt es immer häufiger vor, dass Websites dynamische Komponenten beinhalten. Das heißt vereinfacht gesagt, dass sich die Inhalte und Strukturen auf einer Website durch Interaktion von Benutzer:innen verändern, ohne dass man auf eine andere Unterseite geleitet wird. Nehmen Sie als Beispiel die Website https://readindie.wordpress.com/. Hier werden Ihnen einige (in etwa 10) Artikel angezeigt. Wenn Sie nach unten Scrollen, sehen Sie einen Button mit dem Text Ältere Beiträge. Wenn Sie auf diesen klicken, werden Ihnen die nächsten ≈10 Artikel angezeigt. Diesen Vorgang können Sie so oft wiederholen, bis keine weiteren Artikel mehr geladen werden. Dabei ist zu beachten, dass Sie sich immer noch auf derselben Seite (https://readindie.wordpress.com/) befinden. Ein Crawler wie Heritrix, der ausgelegt ist statische Seiten zu spiegeln, erfasst lediglich die initial angezeigten Artikel (hier: die ersten 10). Ein Crawl aus dem Jahr 2020, bei dem Heritrix verwendet wurde, finden sie unter https://iza-server.uibk.ac.at/pywb/dilimag/20200229140640/https://readindie.wordpress.com/. Hier werden Sie bemerken, dass beim Klick auf Ältere Beiträge keine weiteren Beiträge mehr geladen werden.

Um die Seite also korrekt zu archivieren, verwenden wir den Browsertrix-Crawler. Browsertrix-Crawler kann per Konfiguration automatisiert scrollen und danach auf den Ältere Beiträge Button klicken, um die gesamte Seite korrekt zu erfassen. Einen korrekten Crawl können Sie unter https://iza-server.uibk.ac.at/pywb/dilimag/20221006072903/https://readindie.wordpress.com/ abrufen.

Generell machte ich die Erfahrung, dass je mehr dynamische Elemente eine Website hat, desto komplexer ist es, diese gut zu spiegeln und wiederzugeben. Zwei Beispiele für Websites, die wir nicht korrekt crawlen und wiedergeben können werden im Folgenden beschrieben:

  1. readme.cc [22]: (Archivversion). Bei readme.cc schafft es Browsertrix-Crawler nicht, korrekt zu Scrollen um mehr Unterseiten zu finden. Man sieht gut, dass die ersten 25 Artikel geladen wurden, danach aber nicht mehr gescrollt werden kann. Ebenso ist es nicht möglich, die Filteroptionen zu verwenden. Auch spannend zu sehen ist, dass die Archivversion nur mittels Pywb angezeigt werden kann. Mit OpenWayback sieht man lediglich eine leere Seite.
  2. LiLiT [23]: (Archivversion) LiLiT ist ebenso eine Herausforderung. Bis jetzt haben wir es nicht geschafft, die Startseite und die Rezensentinnen-Seiten korrekt darzustellen. Allerdings war es uns mittels Browsertrix-Crawler und Conifer möglich, die Archivseiten von LiLiT (https://iza-server.uibk.ac.at/pywb/dilimag/20210803102840/https://literaturtirol.at/lilit-rezensionen) zu spiegeln.

Es ist gut möglich, dass mit mehr Zeit ein effektiveres Crawlen dieser Seiten möglich ist. Im Rahmen meiner Arbeit am IZA musste ich mich aber zeitlich pro Crawl limitieren, damit möglichst viele Archive unserer Quellen erstellt werden konnten.

Potenzielle Schwierigkeiten bei WordPress Websites

Viele Websitebetreiber:innen verwenden zur Erstellung und Präsentation ihrer Onlinepräsenz WordPress [24]. WordPress ist ein quelloffenes Content Management System (CMS), mit dem ohne große IT Fachkenntnisse Websites erstellt werden können. Zusätzlich dazu können mithilfe von Plugins weitere Funktionen hinzugefügt werden (Webshops, Kalender, etc.). Beim Crawlen von WordPress Websites muss man vor allem darauf achten, dass sich der Crawler nicht verirrt und endlos versucht ungewollte oder nichtexistierende Unterseiten zu crawlen. Zum Beispiel sollte man Suchfunktionen von Websites immer exkludieren, egal ob WordPress oder nicht.

Im Laufe der Zeit habe ich eine Liste an regular expressions erstellt, die ich standardmäßig verwende, wenn ich WordPress Sites crawle:

  • ./wp-json/.: JSON-Schnittstelle für meta Informationen einer Seite. Ohne diesen exclude crawlte Heritrix praktisch jede Seite zwei Mal, einmal “normal” und einmal die JSON-Metainformationen.
  • ./wp-admin/.: Die Administratorenoberfläche von WordPress. Verhindert ungewollte Anfragen an das Backend.
  • .feed/$: RSS Feed von WordPress Seiten. Der Feed kann links enthalten, die zu doppelten Crawls führen.
  • ./mejs..$: Ein Subdirectory eines WordPress Plugins das Heritrix in eine Endlosschleife schickt.
  • ./search/./.$ beziehungsweise ./?s=.$: Generelles exkludieren von Suchfunktionen. Heritrix kann ansonsten in manchen Fällen endlos Suchabfragen starten.

Abschließende Worte 

Webarchivierung ist ein komplexer Prozess. Jede Website ist auf ihre eigene Weise speziell. Die besten Archivversionen von Websites entstehen, wenn man sich pro Website individuell intensiv mit der Auswahl des Crawlers, dessen Konfiguration und der abschließenden Wiedergabe auseinandersetzt. In meiner Zeit als Web-Archiver am IZA habe ich sehr viel über all die Methoden gelernt, die ich in diesem Artikel beschrieben habe. Ich hoffe, ich konnte Ihnen Webarchivierung dadurch etwas näherbringen.

Abschließend möchte ich mich noch beim gesamten IZA Team bedanken. Ich bin glücklich Teil des Teams zu sein und euch auch weiterhin technisch unterstützen zu können. Besonders bedanken möchte ich auch bei Renate Giacomuzzi. Sie half mir mich in das Thema Webarchivierung einzuarbeiten und unterstützte mich bei Organisation und allen Fragen, die ich hatte.

 

Literatur

[1]  StatCounter Global Stats. „Desktop vs Mobile Market Share Worldwide | Statcounter Global Stats.” https://​gs.statcounter.com​/​platform-​market-​share/​desktop-​mobile/​worldwide​#yearly-2011-2022 (Zugriff am: 17. Mai 2023).

[2]  Dilimag. „Dilimag - Gangway.” https://​iza-server.uibk.ac.at​/​dilimag/​magazineDetail.jsf​?​id=​116 (Zugriff am: 16. Mai 2023).

[3]  G. Ganglbauer. „Gerald Ganglbauer – Select Sites.” https://​gangan.com​/​ (Zugriff am: 16. Mai 2023).

[4]  Dilimag. „Dilimag.” https://​iza-server.uibk.ac.at​/​dilimag/​homeContent.jsf (Zugriff am: 9. Mai 2023).

[5]  Autorenhomepages. „Autorenhomepages - Home.” https://​iza-server.uibk.ac.at​/​autorenhomepages/​homeContent.jsf (Zugriff am: 9. Mai 2023).

[6]  R. Giacomuzzi. „Ein kurzer Brief zum Abschied: Das Projekt Dilimag geht in den Ruhestand.“ (Zugriff am: 7. August 2023).

[7]  GitHub. „OpenWayback.” https://​github.com​/​iipc/​openwayback (Zugriff am: 5. September 2023).

[8]  webrecorder. „webrecorder/pywb: Core Python Web Archiving Toolkit for replay and recording of web archives.” https://​github.com​/​Webrecorder/​pywb (Zugriff am: 9. März 2023).

[9]  I. Kreymer. „OpenWayback to pywb Transition Guide and pywb update.” https://​netpreserveblog.wordpress.com​/​2020/​12/​16/​openwayback-​to-​pywb-​transition-​guide/​ (Zugriff am: 9. Mai 2023).

[10] IIPC. „CDX indexing (or OpenWayback at scale).” https://​github.com​/​iipc/​openwayback/​wiki/​How-​to-​configure​#cdx-indexing-or-openwayback-at-scale (Zugriff am: 23. Mai 2023).

[11] Archive.org. „Archive-It - Web Archiving Services for Libraries and Archives.” https://​archive-it.org​/​ (Zugriff am: 9. Mai 2023).

[12] Internet Archive. „Heritrix.” https://​github.com​/​internetarchive/​heritrix3 (Zugriff am: 9. März 2023).

[13] webrecorder. „webrecorder/browsertrix-crawler: Run a high-fidelity browser-based crawler in a single Docker container.” https://​github.com​/​webrecorder/​browsertrix-​crawler (Zugriff am: 9. Mai 2023).

[14] Internet Archive. „internetarchive/brozzler: brozzler - distributed browser-based web crawler.” https://​github.com​/​internetarchive/​brozzler (Zugriff am: 9. Mai 2023).

[15] Conifer Rhizome. „Conifer: Collect and revisit web pages.” https://​conifer.rhizome.org​/​ (Zugriff am: 9. Mai 2023).

[16] National Library of the Netherlands und National Library of New Zealand. „Web Curator Tool.” https://​webcuratortool.org​/​ (Zugriff am: 17. Mai 2023).

[17] M. M. Flašar. „Milena Michiko Flašar.” https://​www.milenaflasar.com​/​ (Zugriff am: 16. Mai 2023).

[18] Autorenhomepages. „Autorenhomepages - milenaflasar.com.” https://​iza-server.uibk.ac.at​/​autorenhomepages/​collectionDetail.jsf​?​id=​868 (Zugriff am: 16. Mai 2023).

[19] nachtkritik.de. „nachtkritik.de.” https://​www.nachtkritik.de​/​ (Zugriff am: 16. Mai 2023).

[20] Dilimag. „dilimag - nachtkritik.de.” http://​iza-server.uibk.ac.at​/​dilimag/​magazineDetail.jsf​?​id=​112 (Zugriff am: 16. Mai 2023).

[21] renk. „Konzept - renk.” https://​renk-magazin.de​/​en/​konzept/​ (Zugriff am: 17. Mai 2023).

[22] W. Grond und B. Mazenhauer. „readme.cc.” https://​readme.cc​/​ (Zugriff am: 17. Mai 2023).

[23] Forschungsinstitut Brenner-Archiv der Universität Innsbruck. „Lilit Archive - Literaturtirol.” https://​literaturtirol.at​/​lilit (Zugriff am: 17. Mai 2023).

[24] WordPress.org. „Blog Tool, Publishing Platform, and CMS - WordPress.org.” https://​wordpress.org​/​ (Zugriff am: 16. Mai 2023).


[i] Natürlich hängt die Präsentation von Websites nicht nur davon ab, ob ein Desktop PC oder ein Mobilgerät verwendet wird. Webtechnologien entwickeln sich stetig weiter und ermöglichen dadurch neue Möglichkeiten der Präsentation von Websites.

[ii] Ein Quelloffenes (auch Open-Source) System ist ein System, bei dem der Quellcode des Systems offengelegt ist. Dadurch kann jede Person mit Internetzugang einsehen, wie das System funktioniert. Ebenso kann jede Person Quellcode beisteuern, um das System zu verbessern.

[iii] Beim Erstellen dieses Artikels fiel mir auf, dass resonanzbodem.com nicht mehr existiert. Gut, das wir’s archiviert haben.