aviDa: Entwicklung einer Forschungsdateninfrastruktur für audiovisuelle Daten der Qualitativen Sozialforschung

Ulrike Golas, Universitätsbibliothek der Technischen Universität Berlin

Martin Walk, Universitätsbibliothek der Technischen Universität Berlin

Zusammenfassung

Im Rahmen des DFG-Projekts aviDa entwickeln die Technische Universität Berlin und die Universität Bayreuth eine Forschungsdateninfrastruktur für die digitale Sicherung und Nachnutzung audiovisueller Forschungsdaten der Qualitativen Sozialforschung. Dieser Beitrag stellt die technischen Projektergebnisse vor, erörtert technische und konzeptionelle Herausforderungen und Lösungen und benennt grundlegende Fragestellungen im Umgang mit unterschiedlichen Publikationskulturen. Ein Schwerpunkt liegt dabei auf dem Zugriffsrechtemanagement und dem Umgang mit audiovisuellen Forschungsdaten im Repositorium.

Summary

As part of the DFG funded project aviDa, the Technical University of Berlin and the University of Bayreuth are developing a research data infrastructure for digital preservation and reuse of audio­visual research data in qualitative social research. This article presents the technical results of the first project phase, discusses technical and conceptual challenges and solutions, and identifies fundamental issues in dealing with different approaches to research data publications. A focus lies on access rights management and the handling of audiovisual research data in the repository.

Zitierfähiger Link (DOI): https://doi.org/10.5282/o-bib/5733

Autorenidentifikation: Ulrika Golas: ORCID: https://orcid.org/0000-0002-6567-0000

Schlagwörter: Forschungsdateninfrastruktur, Forschungsdatenmanagement, audiovisuelle Daten, Videographie, Qualitative Sozialforschung

Dieses Werk steht unter der Lizenz Creative Commons Namensnennung 4.0 International.

1 Eine Forschungsdateninfrastruktur für die Videographie

Das DFG-Projekt aviDa adressiert den speziellen Bedarf 1 von Forschenden in der Qualitativen Sozialforschung, die eine Infrastruktur zur Sicherung und Nachnutzung audiovisueller Forschungsdaten benötigen. Im Fokus von aviDa stehen dabei Daten aus der Videographie. Als videographische Daten werden audiovisuelle Forschungsdaten bezeichnet, die von Sozialwissenschaftler*innen im Laufe ethnografischer Feldaufenthalte zum Zweck der wissenschaftlichen Analyse erhoben wurden2. Technisch gesehen handelt es sich also um Videodateien, die in unterschiedlichen Dateiformaten vorliegen können.

Zwar gibt es deutschlandweit mehrere Datenrepositorien für qualitative Forschungsdaten (z.B. das Forschungsdatenzentrum Betriebs- und Organisationsdaten (FDZ-BO) am DIW Berlin3, das Forschungsdatenzentrum für qualitative sozialwissenschaftliche Forschungsdaten (Qualiservice)in Bremen4 und das Archiv „Deutsches Gedächtnis“ in Hagen5). Diese beschränken sich allerdings weitgehend auf ausgewählte Fachdisziplinen oder bestimmte Datensorten wie Interviews und Transkriptionen oder Audioaufzeichnungen.

aviDa will diese Lücke im Bereich videographischer Daten füllen, die nachhaltige Erschließung, Sicherung und Nachnutzung qualitativer audio-visueller Forschungsdaten ermöglichen, und spricht dabei als Datengeber*innen in erster Linie Primärforscher*innen deutschlandweit an. In diesem explorativen Pilotprojekt kooperieren das Fachgebiet Allgemeine Soziologie, insbesondere Theorie moderner Gesellschaften der Technischen Universität Berlin (TU) mit dem Lehrstuhl für Kultur- und Religionssoziologie der Universität Bayreuth sowie der Universitätsbibliothek (UB) und der Zentraleinrichtung Campusmanagement (ZECM) der TU Berlin.

Zum Abschluss der ersten Projektphase im Mai 2021 ist aviDa6 vorläufig als Forschungsdatenzentrum beim Rat für Sozial- und Wirtschaftsdaten (RatSWD) akkreditiert7.

2 Ein bestehendes Repositorium als Inkubator

Seit 2014 gibt es an der TU Berlin das institutionelle Repositorium DepositOnce8, in dem sowohl Publikationen als auch Forschungsdaten veröffentlicht werden können.

Wir haben aviDa von Projektbeginn an nicht als eigenständiges Repositorium konzipiert, sondern als Teil von DepositOnce. Diese Vorgehensweise, das vorhandene institutionelle Repositorium als Inkubator für aviDa zu nutzen, hat es uns erlaubt, mit wenig anfänglichem Overhead in einer sehr frühen Projektphase unverzüglich in einen produktiven Betrieb einzusteigen.

Technologisch verbirgt sich hinter DepositOnce die weit verbreitete Open Source Repositoriumssoftware DSpace9. DSpace unterstützt unsere Vorgehensweise dahingehend, dass viele relevante Eigenschaften der Software, wie Eingabeformulare, Metadatenfelder oder die Anwendung von automatisierten Wartungsroutinen (Curation-Tasks), auf Sammlungsebene differenziert werden können.

Das Forschungsdatenzentrum aviDa10 ist somit eine Sammlung im bestehenden Repositorium DepositOnce. Wir nehmen stetig Anpassungen an den Eigenschaften dieser Sammlung vor, während gleichzeitig bereits erste Datensätze aus den Pilotkorpora11 in der Sammlung publiziert werden.

3 Open Access Potential und Zugriffsrechtemanagement

3.1 Ausgangslage

DepositOnce war bisher ein reines Open Access-Repositorium. Es gibt zwar die Möglichkeit, Publikationen mit einem zeitlich begrenzten Embargo zu versehen, diese wurde aber sehr selten genutzt. Dabei handelt es sich in erster Linie um Zweitpublikationen von Textpublikationen und vereinzelte Veröffentlichungen von Forschungsdaten, die im Rahmen von Industriekooperationen entstanden sind.

Zu Beginn des aviDa-Projekts standen die Projektpartner*innen der Möglichkeit, Datenkorpora im aviDa-Projekt Open Access zu publizieren, sehr aufgeschlossen gegenüber. Im Projektverlauf kamen aber sukzessive Vorbehalte auf. Einerseits traten berechtigte rechtliche Bedenken auf, die eng mit der Datensorte „videographische Daten” zusammenhängen12. Andererseits sind die Datengeber*innen auch bei Korpora, bei denen keine rechtlichen Bedenken vorlagen, sehr vorsichtig geworden, die Daten Open Access zu veröffentlichen. Der Hauptaspekt dabei ist die fehlende Kontrolle darüber, wer Zugriff auf die Daten erhält, und die Bedenken, auch jenseits rechtlicher Fragen einer allgemeinen Öffentlichkeit Zugriff zu gewähren.

Ausdruck fanden diese unterschiedlichen Einstellungen auch im Sprachgebrauch der Projekt­partner*innen: Während die UB-Mitarbeiter*innen eher vom „Publizieren” sprechen, verwenden die Partner*innen aus der Soziologie bevorzugt den Begriff „Archivieren”.

3.2 Erweiterung des Zugriffsrechtemanagements

Die Metadaten einer Publikation bleiben in aviDa generell Open Access und werden, wie in Deposit­Once üblich, unter einer CC-0 Lizenz veröffentlicht. Darüber hinaus stellt aviDa den Nutzer*innen zunächst ein dreistufiges Zugriffsrechtemanagement zur Verfügung:

(1) Daten werden Open Access veröffentlicht. Für die Datenpublikation empfiehlt aviDa in diesem Fall eine geeignete Creative Commons-Lizenz, bevorzugt CC-BY, um bestimmte, über das deutsche Urheberrechtsgesetz hinaus gehende Nutzungsrechte an die Allgemeinheit zu übertragen.

(2) Daten sind nur innerhalb einer wissenschaftlichen Community frei zugänglich oder

(3) Daten sind generell unzugänglich, bzw. nur auf individuelle Anfrage hin zugänglich.

Um diese Anforderungen und die rechtlichen Rahmenbedingungen adressieren zu können, wurde das Zugriffsrechtemanagement der aviDa-Sammlung in DepositOnce erweitert. Die Open-Source Software DSpace erfüllt konzeptionell alle Voraussetzungen für ein feingranulares Zugriffsrechtemanagement. Allerdings mussten für die Umsetzung dieser Funktionen noch verschiedene Bedien­elemente implementiert werden. So wurde das Uploadformular in DepositOnce für Einreichungen im Rahmen von aviDa um Bedienelemente zur Auswahl dieser Zugriffsrechteoptionen erweitert.

Während die Optionen (1) (Open Access) und (2) (Access for Scientific Community) umgesetzt werden konnten, können Publikationen zwar in aviDa generell unzugänglich gemacht werden (3), die Anfrage nach Gewährung eines individuellen Zugangs für einzelne Personen zu einzelnen Publikationen oder Dateien bleibt in der ersten Projektphase jedoch ein Desiderat. Zwar existiert in DSpace ein „request a copy”-Mechanismus für genau diesen Fall; es ist allerdings lediglich der Versand kleiner Dateien per E-Mail vorgesehen. Hier zeigt sich die Herkunft von DSpace als primäres Textrepositorium; die großen audiovisuellen Daten von aviDa können mit diesem Mechanismus nicht ausgeliefert werden. Das Repositorium soll in der folgenden Projektphase noch um diese Funktionalität ergänzt werden.

Die Option (2) ist derzeit so umgesetzt, dass es genau eine aviDa-Community gibt, deren Mitglieder alle auf die innerhalb der Community frei zugänglichen Daten zugreifen können. Hier wünschen sich die Projektpartner*innen weitere Differenzierungsmöglichkeiten innerhalb der Community. Auch wenn sich das softwaretechnisch umsetzen lässt, bedarf ein derart umfangreiches Zugriffsmanagement vor allem auch einer administrativen Struktur. Die Mitarbeiter*innen der Bibliothek können weder fachlich entscheiden, wer Zugriff auf einen bestimmten Datensatz erhalten darf, noch ist diese Aufgabe vom Umfang her zu bewältigen. Die Implementierung einer Funktionalität, die es Mitarbeiter*innen aus der Soziologie oder den Datengeber*innen selbst ermöglicht, individuell Zugriff auf einzelne Publikationen zu erteilen, wird in der 2. Projektphase eine zentrale Rolle spielen.

Es gilt zu evaluieren, inwieweit es erstrebenswert ist, ein derart erweitertes Zugriffsmanagement auch allgemein auf Forschungsdatenpublikationen in DepositOnce zu übertragen. Das Servicezentrum Forschungsdatenmanagement (SZF) der TU erkennt diese Bedarfe für alle Forschungsdatenpublikationen an13. Die praktische Umsetzung dürfte sich allerdings organisatorisch schwierig gestalten. Insbesondere wenn die Datengeber*innen, wie an wissenschaftlichen Einrichtungen häufig, schon nach wenigen Jahren nicht mehr an der Institution sind, stellt sich die Frage, wer die Freigaben für Zugriffsrechte erteilen soll.

4 Umgang mit audiovisuellen Daten

4.1 Metadatenschema

Zwar war es auch schon vor dem aviDa-Projekt möglich, audiovisuelle Daten in DepositOnce zu publizieren, allerdings nur als allgemeiner, nicht weiter definierter Datentyp und ohne spezifische Metadaten.

Deshalb wurden in der aviDa-Sammlung weitere disziplinspezifische Anpassungen für die Metadaten vorgenommen. Neue Metadatenfelder wurden sehr zurückhaltend eingeführt, um die Komplexität der Eingabemasken für Einreichende so gering wie möglich zu halten.

Auf der Publikationsebene wurden zusätzlich zu den bestehenden Standardfeldern Felder für

aufgenommen. Auf Dateiebene werden neben einem freien Beschreibungstext ausschließlich automatisch generierte, technische Metadaten erhoben und gespeichert.

4.2 Extraktion technischer Metadaten

Aus audiovisuellen Dateien lassen sich eine Vielzahl technischer Metadaten extrahieren. Technische Metadaten wie Dauer, Seitenverhältnis und Bildgröße sind für Nutzer*innen von Interesse und sollen auf der Übersichtsseite einer Publikation zusammen mit Dateinamen und Dateibeschreibung dargestellt werden. Andere technische Metadaten wie Containerformate und Angaben zu Audio- und Videocodecs sind für die Erhaltungsplanung notwendig.

DSpace selbst bietet keine nennenswerte Formaterkennung oder die Extraktion technischer Metadaten an. Eine Annahme über Dateiformate wird ausschließlich anhand der Dateiendung getroffen. Dieses Vorgehen ist sowohl für Fehler als auch für Täuschungsversuche anfällig und liefert keine Informationen in ausreichendem Umfang.

Im Zuge von aviDa wurde deshalb in DSpace ein Mediafilter implementiert, der es erlaubt, relevante technische Metadaten automatisch aus Videodateien zu extrahieren und sowohl als Metadaten des jeweiligen Bitstreams in der DSpace-Datenbank als auch als separate Textdatei zu speichern. Obwohl technische Metadaten in den jeweiligen Videodateien eingebettet vorliegen und deshalb – im Gegensatz zu deskriptiven Metadaten – nicht zwingend separat erfasst werden müssten, erleichtert ein Vorhalten in der Datenbank den Zugriff und damit die Möglichkeit der Validierung. Diese Mediafilter können in festgelegten Intervallen, z.B. stündlich, täglich oder wöchentlich, ausgeführt werden.

Der Mediafilter integriert das Open Source-Framework FFmpeg/FFprobe. Zur automatischen Extraktion der technischen Metadaten haben wir die drei Softwaretools FFmpeg/FFprobe, MediaInfo und MediaConch evaluiert. Alle Tools erfüllen gleichermaßen unsere Anforderungen und lesen die für uns relevanten Metadaten aus. FFmpeg/FFprobe hat jedoch aufgrund seiner größeren Nutzer*innen- und Entwickler*innen-Community eine bessere Dokumentation und stellt eine größere Anzahl an Third-Party-Libraries für die Einbindung in relevante Programmiersprachen zur Verfügung, so dass mit diesen Tools ein besseres Ergebnis bei weniger Programmieraufwand erzielt werden konnte.

4.3 Formatvalidierung & Transkodierung

Zur Vereinfachung der Erhaltungsplanung und zur besseren Nachnutzbarkeit sollten für aviDa einige wenige Videoformate als Standardformate festgelegt werden. Diese Festlegung erfolgte unter Bezugnahme auf den „Leitfaden für die digitale Langzeitarchivierung audiovisueller Medien” der nestor-Arbeitsgruppe Media14 und unter Bezugnahme auf die Webseite „Sustainability of Digital Formats: Planning for Library of Congress Collections” der Library of Congress15.

Zum Ende der ersten Projektphase empfiehlt aviDa seinen Nutzer*innen, Videodateien als Matroska-Container mit den Videocodecs H.262, H.264 oder FFV1 und den Audiocodecs Wave Linear PCM 48 kHz, MP2 oder AC-3 einzureichen.

Für eine bessere Einschätzung, welche Arten audiovisueller Daten die Nutzer*innen in aviDa publizieren wollen, haben wir eine Analyse der 1244 Videodateien des Pilotkorpus durchgeführt. Die Extraktion der technischen Metadaten zeigt eine Vielzahl von Dateiendungen (MTS (437x), MP4 (503x), MOV (220x) und 5 weitere), Videoformaten (H.264 (832x), H.262 (369x) und 6 weitere) und Audioformaten (PCM (549x), AC-3 (450x), AAC (190x) und 3 weitere) auf.

Anhand dieser Metadaten lässt sich entscheiden, ob ein Dateiupload den Vorgaben entspricht. Da viele Publizierende aber nicht über die nötige technische Expertise verfügen, um Videoformate zu konvertieren, akzeptiert aviDa ein breites Spektrum an Uploadformaten und transkodiert die Uploads automatisch unter Verwendung der Open Source Software FFmpeg in das Standardformat. In vielen Fällen ist auch nur ein verlustfreies Umpacken in das Matroska-Containerformat nötig.

Die oben getroffene Wahl an Container-Formaten und Codecs muss in regelmäßigen Abständen reevaluiert und bei Bedarf angepasst werden.

Wenn für ein archiviertes Videoformat auf gängigen Plattformen keine kompatible Abspielsoftware mehr existiert, ist es nötig, die entsprechenden Dateien in ein aktuelles Format zu migrieren. Ist ein Format (Container oder Codec) für obsolet befunden, lassen sich die betreffenden Bitstreams mit einer Datenbankabfrage über die technischen Metadaten identifizieren und mit Hilfe von DSpace-Mediafiltern und FFmpeg in ein neues Format konvertieren.

Die zweite verbreitete Vorgehensweise in der Langzeitarchivierung, die Software-Emulation, d.h. die Ausführung der veralteten Software auf einem nachgebildeten System, ist in unserem Kontext kein zielführendes Vorgehen, da es sich bei aviDa um ein Download/Streaming-Angebot für Endnutzer*innen handelt.

4.4 Videostreaming

Um den Nutzer*innen einen adäquaten Bedienkomfort zu ermöglichen, ist es erforderlich, Video­dateien nicht nur zum Download anzubieten, sondern das Repositorium um eine Streaming-Funktionalität zu erweitern. Um Videostreaming zu ermöglichen, werden Videodateien in ein dafür kompatibles Ausgangsformat überführt.

Im aviDa-Projekt wurden zwei Streaming-Möglichkeiten implementiert, evaluiert und prototypisch umgesetzt: Zum einen die Möglichkeit, einen expliziten Media-Streaming-Server (Wowza Streaming Engine) zu nutzen als auch die Möglichkeit HTTP-Streaming, wie HTTP Live Streaming (HLS) oder Dynamic Adaptive Streaming over HTTP (DASH), über einen Standard-Webserver einzusetzen.

Parallel zur ersten aviDa-Projektphase fand und findet ein tiefgreifender Versionswechsel in der Repositoriumssoftware DSpace statt16. Besonders die zukünftige DSpace-Version 7 bietet sich für eine Lösung mit HTTP-Streaming an. Diese Option ist weniger komplex in der Umsetzung und im Betrieb und kommt ohne zusätzliche Lizenzgebühren für einen Streamingserver aus. Voraussetzung für eine solche Implementierung ist eine vertikal skalierbare Architektur für aviDa/DepositOnce, die mit dem Projektpartner ZECM realisiert werden soll.

5 Fazit & Ausblick

Bereits während der ersten Projektphase konnte aviDa beim RatSWD vorläufig als Forschungsdatenzentrum akkreditiert werden. Es wurden Pilotkorpora17 beider Projektpartner*innen sowie aus dem Projekt „Social Distancing und neue Raumformen der Interaktion”18 publiziert.

Die Entscheidung, aviDa vorerst nicht als eigenständiges Repositorium, sondern als Sammlung in DepositOnce, dem bestehenden institutionellen Repositorium der TU, zu implementieren, hat sich bewährt und ermöglichte einen schnellen Einstieg in den produktiven Betrieb. In der zweiten Projektphase wird zu entscheiden sein, ob aviDa auch für einen dauerhaften Betrieb besser als Teil von DepositOnce oder als eigenständiges Repositorium realisiert werden kann.

Im Spannungsfeld von „Archivieren” und „Publizieren” konnte mit Erweiterungen des Zugriffsrechte­managements gangbare Kompromisse gefunden werden.

In einer zweiten, dreijährigen Projektphase soll aviDa nun organisatorisch, finanziell und technisch auf einen dauerhaften Betrieb und die vollständige Akkreditierung als Forschungsdatenzentrum beim RatSWD vorbereitet werden.

Literaturverzeichnis

1 Bambey, Doris; Corti, Louise; Diepenbroek, Michael u.a.: Archivierung und Zugang zu Qualitativen Daten, in: RatSWD Working Paper Series, 2018., S 47–58. Online: <https://doi.org/10.17620/02671.35>.

2 Im Rahmen des Projekts wurde eine Videovignette zur Vorstellung der Videographie realisiert: Knoblauch, Hubert; Tuma, René; Wilke, René: Videovignette I: Videographie. Qualitative Videoanalyse sozialer Situationen. Online: <https://doi.org/10.14279/DEPOSITONCE-9138>.

3 Forschungsdatenzentrum Betriebs- und Organisationsdaten (FDZ-BO) am Deutschen Institut für Wirtschaftsforschung (DIW Berlin). Online: <https://portal.fdz-bo.diw.de/>.

4 Forschungsdatenzentrum für qualitative sozialwissenschaftliche Forschungsdaten (Qualiservice). Online: <https://www.qualiservice.org>.

5 Online-Archiv „Deutsches Gedächtnis“ im Institut für Geschichte und Biographie an der FernUniversität in Hagen. Online: <https://deutsches-gedaechtnis.fernuni-hagen.de>.

6 Das Akronym aviDa wird im Artikel gleichermaßen für das DFG-Projekt aviDa und für das Projektergebnis, das Forschungsdatenzentrum aviDa, verwendet.

7 KonsortSWD: Forschungsdatenzentrum für audio-visuelle Daten der qualitativen Sozialforschung (FDZ-aviDa). Online: <https://www.konsortswd.de/datenzentren/alle-datenzentren/avida>.

8 DepositOnce. Repository for Research Data and Publications. Online: <https://depositonce.tu-berlin.de>.

9 DSpace - A Turnkey Institutional Repository Application. Online: <https://duraspace.org/dspace>.

10 aviDa. Forschungsdatenzentrum für audio-visuelle Daten der qualitativen Sozialforschung. Online: <https://fdz-avida.tu-berlin.de>.

11 Knoblauch, Hubert; Haken, Meike; Wetzels, Michael: Publikumsemotionen in Sport und Religion. Teilkorpus Religion: „Celebrations”: Studie in drei Teilen, 09.09.2020, <https://doi.org/10.14279/DEPOSITONCE-10515>.

12 Da videographische Daten meist personenbezogen sind und teilweise auch in sensiblen Situationen gefilmt wird, ergeben sich zwingende Gründe, warum viele videographische Daten nicht für eine Open-Access-Veröffentlichung infrage kommen. Auch eine Anonymisierung ist bei dieser Datenart nur begrenzt möglich, da Informationsgehalt und Analysepotential leiden.

13 „Eine wesentliche Anforderung an eine geeignete Infrastruktur ist daher ein Werkzeug zur Rechteverwaltung, um sowohl den Anforderungen der Drittmittelgeber bzw. Auftraggeber als auch den Anforderungen der Wissenschaftler/innen gerecht zu werden. Während die Metadaten in der Regel frei verfügbar und recherchierbar sein sollten – und somit der Nachweis Open Access zugänglich ist, soll der Zugriff auf die verlinkten Datensets und Volltexte über eine Rechteverwaltung gesteuert werden: Jede/r Wissenschaftler/in soll entscheiden können, ob er den Zugriff auf die von ihm erstellten Forschungsdaten und -publikationen zum Lesen oder Download frei gibt oder nicht.” Kuberek, Monika: Organisatorisch-technisches Konzept für eine Forschungsdaten-Infrastruktur in der TU Berlin: Langfassung, Technische Universität Berlin, 15.03.2012, S. 8. Online: <https://doi.org/10.14279/DEPOSITONCE-6604>.

14 nestor-Arbeitsgruppe Media: Leitfaden für die digitale Langzeitarchivierung audiovisueller Medien, Nestor­materialien 19, 2016. Online: <http://nbn-resolving.de/urn:nbn:de:0008-2016102107>.

15 Sustainability of Digital Formats: Planning for Library of Congress Collections. Online: <https://www.loc.gov/preservation/digital/formats/index.html>.

16 DSpace war bis zu Version 6 eine klassische, rein serverseitige Webapplikation. Ab Version 7, die im August 2021 erscheint, wird DSpace als Rest-Server-Backend und browserseitiges Frontend implementiert.

17 Knoblauch, Hubert; Haken, Meike; Wetzels, Michael: Publikumsemotionen in Sport und Religion. Teilkorpus Religion: „Celebrations”: Studie in drei Teilen, 09.09.2020, <https://doi.org/10.14279/DEPOSITONCE-10515>, Birkner, Karin; Groß, Alexandra: Mahlzeiten. Eine Eyetracker-Studie, 03.2021, Online: <https://doi.org/10.14279/DEPOSITONCE-11549>.

18 Tuma, René; Knoblauch, Hubert; Flick, Uwe: Social Distancing und neue Raumformen der Interaktion, 26.01.2021, <https://doi.org/10.14279/DEPOSITONCE-11341>.