Ein verteiltes Langzeitarchivsystem für Kultureinrichtungen

Das Konzept der Stiftung Preußischer Kulturbesitz

1. Ausgangslage

Die Stiftung Preußischer Kulturbesitz (SPK) ist eine der weltweit größten Kulturerbeeinrichtungen und vereint hochklassige Museen, Archive, Bibliotheken und Forschungseinrichtungen unter einem Dach. Sie verfügt über eine der herausragendsten Sammlungen physischer und digitaler Kulturgüter in Deutschland mit vielen Stücken von Weltgeltung.1 Dazu gehört ein rasch wachsender Bestand an Retrodigitalisaten als Derivate von physischen, sehr oft unikalen Objekten und eine ebenfalls schnell wachsende Zahl an born digitals. Die SPK wird allgemein als vertrauenswürdige Einrichtung zur Bewahrung von analogem und digitalen Kulturgut angesehen und steht als herausgehobene, durch Bund und Länder finanzierte Einrichtung unter besonderer öffentlicher Beobachtung. Ihrem Auftrag entsprechend ist sie Bewahrerin digitaler Kulturgüter innerhalb der definierten Grundsätze des Bestandsaufbaus und des Sammlungs- und Aufbewahrungsprofils. Dabei spiegelt sich in der Vielfalt der Formate und Medientypen die Vielfalt der verschiedenen Einrichtungen der Stiftung wieder: Es gibt eine Vielzahl unterschiedlicher digitaler Objekte von der eingescannten Urkunde bis zu komplexen Videoinstallationen. Mengenmäßig überwiegen zweidimensionale Textdokumente, v.a. TIFF-Dateien, aber auch PDF-Dokumente sind vorhanden. Die Retrodigitalisate entstehen in verschiedenen Digitalisierungszentren der SPK oder aufgrund genauer Vorgaben durch Dienstleister, im Wesentlichen orientiert an den Praxisregeln Digitalisierung der DFG.2 Retrodigitalisate bilden den zahlenmäßig größten Anteil in Bezug auf das Speichervolumen. Allein die Staatsbibliothek zu Berlin – Preußischer Kulturbesitz (SBB) hat in ihren Digitalisierten Sammlungen über 218.000 retrodigitalisierte Werke bzw. 26 Millionen retrodigitalisierte Seiten im Angebot. In dem zentralen Sammlungsmanagementsystem der Staatlichen Museen zu Berlin (SMB) sind derzeit über 820.000 Kulturgutobjekte mit knapp 1,9 Mio. zugehörigen digitalen Assets erfasst. Das Geheime Staatsarchiv Preußischer Kulturbesitz (GStA) hat aus seinen Beständen knapp 14.000 Archiveinheiten mit
1,1 Millionen Scans und das Ibero-Amerikanische Institut Preußischer Kulturbesitz (IAI) 36.000 Werke mit 2,2 Millionen Scans digitalisiert. In der Regel handelt sich dabei um Bildinformationen, die als TIFF produziert und gespeichert werden. Von diesen Master-Dateien werden Derivate als Gebrauchskopien für die Präsentation abgeleitet. Neben Scans bzw. photographischen Abbildungen von Drucken und Handschriften, Objekten und Kunstwerken, Dokumenten und Fotos wächst aber auch die Zahl von 3D-Digitalisaten mit einem pro Kulturgutobjekt sehr hohen Speicherbedarf. Dabei kann diesen aufgrund ihrer Spezifik und einem hohen Grad an individueller Bearbeitung in der Entstehungsphase ein originärer Werkcharakter und somit ein gestiegener Sicherungsbedarf zukommen. Im Kontext der SPK existieren ferner jenseits digitaler Text- und Bildpublikationen sowie neben den Daten aus der digitalen Aufgabenerledigung (z.B. mit der E-Akte-Bund und speziellen Fachverfahren) weitere digitale Materialien, wie etwa Forschungsdatensets, z.B. Messergebnisse, Dokumentationen von Ausgrabungen und Restaurierungen oder Webseiten mit zum Teil interaktiven Anwendungen. Vermehrt kommen inzwischen digitale Vor- und Nachlässe hinzu.

Die Heterogenität dieses Materials ist groß und aufgrund der Diversität der zugehörigen Daten sind – sofern sie erhalten bleiben müssen oder sollen – häufig individuelle Lösungen erforderlich, die in einem einzigen System zur Sicherung der Langzeitverfügbarkeit standardmäßig nicht abgebildet werden können und beträchtliche Aufwände bei der Vorbereitung für die Übernahme in ein solches System erfordern.

Eine differenzierte Analyse der vorliegenden Daten zeigt allerdings auch, dass über 95% der digitalen Objekte in standardisierten, weit verbreiteten und für die Langzeitverfügbarkeit geeigneten Formaten vorliegen, also PDF3 oder TIFF. Daneben gibt es noch eine kleinere Anzahl anderer, teilweise sehr komplexer, oftmals zudem in proprietären Dateiformaten vorhandener digitaler Objekte, für die bisher weder Standards noch best practices existieren.

Die im Verfügungsbereich der SPK-Einrichtungen liegenden Bestände müssen erhalten, auffindbar und nachnutzbar bleiben, auch unter zukünftigen Generationen von Hard- und Softwareinfrastrukturen. Weitere Anforderungen sind der Erhalt der Datenintegrität, Authentizität, Vollständigkeit der Objekte, Wahrung von Zugriffsbeschränkungen und die Interpretierbarkeit der Daten. Die Datensicherheit soll den allgemeinen Standards genügen.

Derzeit findet die Sicherung der Daten über redundante Datenhaltung auf Produktivsystemen in den beiden Häusern der SBB statt. Ziel des hier diskutierten Konzepts war es, die bisherige Lösung so auszubauen, dass die langfristige Verfügbarkeit digitaler Objekte an den Einrichtungen der Stiftung auch in Zukunft sichergestellt werden kann.

Neben dem Aufbau einer verlässlichen Archivierungslösung für die SPK ist es das strategische Ziel, die SPK als seriösen, verlässlichen Partner nicht nur bei der Aufbewahrung und dem Erhalt von physischen Kulturobjekten, sondern auch bei digitalen Objekten zu etablieren, um perspektivisch auch eine Rolle als Langzeitarchivierungsdienstleister (LZA-Dienstleister) für andere (kleinere) Akteure übernehmen zu können und auch in diesem Bereich den Anspruch der SPK als führender Kultureinrichtung Rechnung zu tragen.

Die Konzeptentwicklung basierte auf den Grundlagen des Digitalen Manifests der SPK: „Wir bewahren digitales Kulturgut und halten es langfristig verfügbar. Wir kooperieren für diese Aufgabe mit anderen Kultur- und Wissenschaftseinrichtungen und unterstützen sie.“4 Es spiegelt sich auch in der SBB-Strategie wider.5

2. Konzeptentwicklung

Ausgehend von dem oben Skizzierten wurde ein übergreifendes Konzept für die langfristige Verfügbarmachung digitaler Objekte an der Stiftung entwickelt, das für verschiedene Einrichtungstypen greifen und die unterschiedlichen Bedürfnisse entsprechend berücksichtigen muss. Nicht Gegenstand des Konzepts sind Bewertungsentscheidungen, also welche digitalen Objekte langfristig aufzubewahren sind. Diese Relevanzeinschätzung wird an den einzelnen Einrichtungen durchgeführt.

Bei der Konzeptentwicklung wurde ergebnisoffen vorgegangen und zunächst auf die letzten Jahrzehnte der Langzeitarchivierung und ihrer Prämissen geblickt.

Zu Beginn der Entwicklungen im Bereich der Langzeitarchivierung gab es eine große Bandbreite und Kurzlebigkeit an digitalen Formaten und entsprechender Hardware. Die Antwort auf diese Herausforderung waren die Ausbildung des OAIS-Standards6 und daraus abgeleitet dezidierter gekapselter Systeme, die die Sicherung der Langzeitverfügbarkeit übernehmen sollten.

Zumindest für die gängigen Objekttypen ist diese Phase vorbei und es fand eine Konsolidierung statt. Bei der Retrodigitalisierung von Textmaterialen ist das TIFF-Format weit verbreitet. Es ist nicht davon auszugehen, dass TIFF seine Vormachtstellung verliert, obsolet wird oder dazugehörige Software nicht mehr vorhanden sein wird. Mit den DFG-Praxisregeln Digitalisierung besteht zudem für Deutschland ein Quasi-Standard. Es ist den Autor*innen kein Fall bekannt, wo so erzeugte TIFF-Dateien jenseits von Pilotprojekten und Tests aus Bestandserhaltungsgründen migriert wurden.

Der Ansatz solitärer Langzeitarchivierungssysteme fußt stark darauf, auf Obsoleszenzen vorbereitet zu sein. Da zumindest theoretisch offen ist, für welche Dateiformate ein Migrationsbedarf entstehen wird, werden in den aktuellen Systemen für alle Objekte umfangreiche Metadaten vorgehalten, die pro Einzelobjekt einen möglichst differenzierten Steckbrief zum Objekt darstellen, der unter anderem Informationen zur exakten Produktionsumgebung und zu nutzbaren Abspielumgebungen (z.B. geeignete Betriebssysteme und Softwareanwendungen) enthält. Gleichzeitig erfordert das dazugehörige preservation planning, also die systematische Beobachtung des Geschehens im Bereich von Datenformaten und dem Risiko ihrer Obsoleszenz, einen großen personellen Aufwand. In der Realität kommen Erhaltungsmaßnahmen (preservation actions) nicht bzw. nur marginal und testweise vor. Für die SPK liegt, wie oben dargelegt, der Großteil der Objekte in stabilen Formaten vor. Gleichzeitig verursachen Lizenzierung und Betriebs eines OAIS-konformen Archivs hohe Kosten, hinzu kommen geringere Flexibilität bei Anpassungswünschen und großer administrativer Aufwand. Es ist daher zu hinterfragen, welche Daten tatsächlich in einen sicheren Langzeitspeicher übernommen werden müssen, konkret auch, ob das bei TIFF-Daten aus standardisierten Digitalisierungsworkflows notwendig ist.

Als Zwischenresümee kann gesagt werden, dass das im Standard ausgebildete Konzept des preservation plannings in der Praxis nicht die Relevanz bekommen hat, wie der Standard annahm. Weiterhin bleiben Anforderungen in der semantic preservation, die dem Erhalt der inhaltlichen Interpretierbarkeit und der Wiederauffindbarkeit der Daten dient. Dies betrifft in erster Linie die Erfassung von Metadaten, die wiederum in anderen Systemen vorgehalten werden (können), z.B. einem Bibliothekssystem.

Für das zukünftige Archivkonzept der SPK erschien aus den dargelegten Gründen eine Stand-alone-Lösung nicht zielführend. Stattdessen wird ein „modularer“ Ansatz der verteilten Speicher- und Systemarchitektur in Zusammenarbeit mit externen Partnern verfolgt. Dabei ist eine verbindende Systemschicht, die die verteilt gespeicherten Archivobjekte administrativ zusammenhält, vorgesehen. Das Konzept beruht auf folgenden Grundpfeilern, die in der nachfolgend dargestellten prototypischen Ausprägung der angedachten LZA-Architektur (Abb. 1) erkennbar werden:

In der Praxis bedeutet dies, dass die benötigten Komponenten einer Archivlösung nicht alle Inhouse und einem technischen Dach („one solution“) vorgehalten werden, sondern dass in einer sorgfältigen Kosten- und Aufwandsbetrachtung Partner (öffentliche Einrichtungen und auch kommerzielle Partner) vertraglich eingebunden werden, die definierte Aufgaben nachweislich erfüllen. Technische Komponenten, die innerhalb der SPK implementiert werden sollen, werden in diese übergeordnete Strategie eingebettet und bilden nur einen Teil dieser mehrstufigen verteilten Gesamtstruktur. So können beispielsweise Medientypen in für die SPK seltenen Dateiformaten und mit besonderen Anforderungen gezielt diesen Partnern übergeben werden. Hierfür werden Kooperationsverträge und Service-Level-Agreements getroffen, die auch ein gemeinsames, fein austariertes und abgestuftes Qualitätsmanagement umfassen. Dabei wird sichergestellt, dass die digitalen Objekte der SPK unabhängig davon, wo sie prozessiert werden oder gespeichert sind, unter der Marke der SPK fungieren und als deren Datenbestand behandelt werden. Erfolgt eine Bereitstellung der Daten bzw. Dateien nach außen, wird durch ein gemeinsames Branding sichergestellt, dass die Daten für externe Dritte als SPK-Bestand sichtbar sind.

3. Umsetzungsschritte

Die Umsetzung des Konzepts wurde in fünf Arbeitspakete aufgeteilt:

Arbeitspaket 1: Aufbau eines diversifizierten, sicheren Archivs für die bitstream preservation (gefolgt von weiteren Ausbauschritten)

Arbeitspaket 2: Identifikation und Clustering von Datenbeständen

Arbeitspaket 3: Policy und Geschäftsgangoptimierung

Arbeitspaket 4: Verteilte Langzeitarchivierung

Arbeitspaket 5: Qualitätsmanagement

Zum Arbeitspaket 1: Die Grundlage jeglicher Archivierungsaktivitäten ist die angemessene Absicherung des Bitstreams, also des Erhalts der Informationen. Derzeit werden alle digitalen Dateien redundant auf Produktivspeichern gespeichert. Eine Diversifizierung der Speicherstruktur wird es ermöglichen, die spezifischen Bedürfnisse der Langzeitarchivierung besser abzubilden. In einer ersten Stufe soll zunächst ein vertrauenswürdiges Archivmanagementsystem für Retrodigitalisate und born digitals aus der SPK im Sinne eines sicheren und standardkonformen Speichers erstellt werden. Dieses wird mandantenfähig angelegt, um den einzelnen Einrichtungen innerhalb der SPK eine maximale Kontrolle über die Sicherungsfunktionen zu gewährleisten. Wichtig ist außerdem, dass das System massenfähig ist und skaliert.

Zur Schaffung einer Basis für eine begründete technische und finanzielle Folgenabschätzung wurden im ersten Quartal 2024 als erster Umsetzungsschritt innerhalb des Arbeitspakets zwei Proof of Concepts (PoC) durchgeführt.

Dazu sollte sowohl die intern vorhandene und noch auszubauende Infrastruktur als auch eine externe Speicherlösung im Zuse-Institut-Berlin evaluiert werden. Als Datenmaterial wurden Masterscans aus Digitalisierungsprozessen (= unkomprimierte TIFF, JPG, XML) verwendet, da dies die zahlenmäßig größte Materialgruppe mit auch dem größten Speicherplatzbedarf ist. Die Datenbasis wurde mit 15 TB so gewählt, dass sie groß genug ist, um aussagekräftige Schlüsse zu Datentransfer, Zeitaufwand ziehen zu können. Die Proof of Concepts lieferten wichtige Erkenntnisse zu Aufwand und prinzipieller Machbarkeit zweier alternativer Konzepte der physischen Speicherung. So wurde z.B. während der PoC ein zusätzlicher Kostenfaktor für Archivierung bei externem Anbieter identifiziert, der linear abhängig vom Datenvolumen ist. Da bei der aktuell genutzten Software eine externe Speicherung hohe Kosten verursachen würde, wird diese zunächst zurückgestellt, die Nutzung wurde aber technisch durchgeprobt. Bei beiden Optionen war der Zugriff auf archivierte Daten für Berechtigte ohne wesentliche Einschränkungen möglich und auch die Einrichtung und die Datenübertragung verliefen problemlos.

Als Nebeneffekt ermöglicht es der Aufbau eines Langzeitspeichers, die vorhandenen Speicher­infrastrukturen besser und kosteneffektiver zu nutzen, da aktiv benötige Daten mit häufigem Zugriff durch viele Akteure weiterhin auf schnellen (Arbeits-)Speichern vorgehalten werden, während selten benötige Daten mit Zugriff durch wenige Akteure zukünftig auf günstigeren, langsameren (Archiv-)Speichern ausgelagert werden sollen.

In Arbeitspaket 2 soll nach einer genauen Anforderungsanalyse ein Clustering nach verschiedenen Preservation Service Levels durchgeführt werden. Dazu ist die Einberufung einer SPK-übergreifenden Expertengruppe zur Identifikation von Datenbeständen und zur Klärung der erforderlichen Sicherheitsstufen, Klassifizierung nach Materialgruppen, Definition von Preservation und Service Levels geplant. Daraus werden Handlungsempfehlungen abgeleitet und Entscheidungsbäume zur Steuerung der weiteren Bearbeitungspipeline erstellt. Danach erfolgt der Abgleich der definierten, erwünschten Granularität der Langzeitarchivierung mit vorhandenen Sicherungssystemen.

Im dritten Arbeitspaket werden Policies für die einzelnen Materialgruppen und Preservation Service Levels als Grundlage eines verteilten Langzeitarchivs entwickelt. Diese beinhalten u.a. auch Kriterien und Vorgehen für die Bewertung von digitalen Objekten zur Aufbewahrung oder Kassation sowie Beschreibungen von Ingest-Verfahren und signifikanten Eigenschaften für unterschiedliche Datenarten. In dieses Paket fällt auch die sukzessive Optimierung von Geschäftsgängen und Prozessen, bei denen digitale, archivierungswürdige Daten produziert werden, um möglichst zu Beginn des Datenlebenszyklus langzeitstabile Formate und für die langfristige Nachnutzung notwendige Metadaten zu generieren.

Das Arbeitspaket 4 fokussiert den Ausbau der verteilten Langzeitarchivierung, indem es Kooperationen mit anderen Einrichtungen und externen Partnern initiiert und stärkt und Ausbau von Schnittstellen zur Kommunikation zwischen den verschiedenen SPK-internen und SPK-externen Systemen und Akteuren ausbaut.

Ein wichtiger Aspekt, der des Qualitätsmanagements, wird in Arbeitspaket 5 behandelt. Die Optimierungen zielen darauf, die Datenqualität bei der Produktion von Images in der Retrodigitalisierung noch mehr auf die Anforderungen der Langzeitverfügbarkeit hin auszurichten. Vergleichbare Verbesserungen sind auch für andere Datentypen wie etwa 3D-Daten oder Messdaten anzustreben. Zukünftig sollen alle digitalen Objekte, unabhängig ihres Entstehungskontextes, möglichst frühzeitig verifiziert und – wo möglich – auch validiert werden. Durch die frühzeitige Kontrolle der Dateien können spätere Aufwände eingespart werden, die sich dadurch ergeben, dass Fehler, die bei der Übernahme ins Archiv erkannt werden, oft nicht mehr oder nur mit großem Aufwand korrigiert werden können.

In Abb. 2 sind die geplanten Meilensteine ablesbar.

4. Umsetzungsstand und Ausblick

Das Stiftungsdirektorium der SPK stimmte dem Vorhaben zu, im SPK-weiten Rechenzentrum eine Langzeitarchivierungssystem aufzubauen. Durch die Realisierung eines Archivkonzeptes wird eine Diversifizierung der Speicherinfrastruktur weiter vorangetrieben - ein wichtiger erster Schritt zu einer nachhaltigen und fest etablierten Langzeitverfügbarkeit digitaler Objekte an der Stiftung.

Weitere Optimierungen zielen darauf ab, die Datenqualität bei der Produktion von Images in der Retrodigitalisierung noch besser auf die Anforderungen der Langzeitverfügbarkeit auszurichten. Dabei erleichtert beispielsweise die genaue Definition der zu verwendenden TIFF-Tags die Verifizierung und Validierung der Dokumente. Vergleichbare Verbesserungen sind auch für andere Datentypen wie etwa 3D-Daten oder Messdaten anzustreben. Die Workflows und digitalen Objekte werden auf die langfristige Verfügbarkeit hin optimiert. In diesem Zusammenhang wurde auch an allen Arbeitsplätzen im Digitalisierungszentrum ein Validierungstool installiert, mit dem in verschiedenen Szenarien, wie neuer Scanner, Softwareupdates oder zu Beginn von neuen Projekten die Validität der TIFF-Dateien überprüft wird, zusätzlich zur späteren Validierung vor der Archivierung.

Des Weiteren wurden in der AG Workflow der SBB Vorgaben entwickelt, ab wann Änderungen an den Digitalisaten zu einer neuen Version des digitalen Objekts führen und einen neuen Katalogeintrag zur Folge haben. Dies trägt wesentlich zur dauerhaften Zitierbarkeit bei.

Für die SPK wird und wurde, beginnend bei der SBB, an der eine Stabsstelle Langzeitverfügbarkeit digitaler Objekte existiert, ein umfangreiches Beratungsangebot aufgebaut. Dadurch soll die Sensibilisierung aller Beteiligten erreicht werden, um schon zum Entstehungszeitpunkt digitaler Objekte (z.B. Erwerb, Retrodigitalisierung, Projektanträge) auf Langzeitverfügbarkeit zu achten. Interessantes aus dem Bereich der Langzeitarchivierung, wie etwa Formatempfehlungen oder fachlich relevante Veranstaltungen, werden stiftungsweit veröffentlicht und erreichen so alle Mitarbeitenden. So wird das Bewusstsein für die Anforderungen an langfristige Verfügbarmachung digitaler Objekte stiftungsweit breit verankert.

Reinhard Altenhöner, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz, https://orcid.org/0000-0001-8274-780X

Doris Škarić, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz

Zitierfähiger Link (DOI): https://doi.org/10.5282/o-bib/6078

Dieses Werk steht unter der Lizenz Creative Commons Namensnennung 4.0 International.

1 Dieser Beitrag vertieft Inhalte des Vortrags „Verteiltes Langzeitarchivsystem für Kultureinrichtungen – das Konzept der Stiftung Preußischer Kulturbesitz (SPK)“ am 05.06.2024 auf der 112. BiblioCon in Hamburg.

2 Altenhöner, Reinhard; Berger, Andreas; Bracht, Christian u.a.: DFG-Praxisregeln „Digitalisierung“. Aktualisierte Fassung 2022, Zenodo, 2023, https://doi.org/10.5281/zenodo.7435724.

3 PDF Dateien existieren in den unterschiedlichen Versionen, mit einem steigenden Anteil von PDF/A-Dokumenten. Der größte Anteil der PDF-Dokumente eignet sich dabei für die langfristige Verfügbarkeit, nur ein geringer Anteil weist Herausforderungen wie nicht eingebettete Schriften auf.

4 o.A.: Digitales Manifest der Stiftung Preußischer Kulturbesitz, Stiftung Preußischer Kulturbesitz, 17.09.2018, https://www.preussischer-kulturbesitz.de/schwerpunkte/digitalisierung/digitales-manifest.html, Stand: 01.10.2024.

5 Bonte, Achim (Hg.): Wissen schafft Wandel. Stabi 2030: Strategie der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz), 13.03.2024, https://doi.org/10.58159/20240201-000, Stand: 01.10.2024, S. 17.

6 Das OAIS–Referenzmodell (ISO-Standard 14721:2012) gilt als wichtigster Standard für die elektronische Archivierung. Daher wurde es bei der Konzepterstellung für die SPK berücksichtigt.

7 Grafik erstellt und freundlicherweise bereitgestellt durch Felix F. Schäfer.

8 Grafik erstellt und freundlicherweise bereitgestellt durch Felix F. Schäfer.