Zu Artikeldetails zurückkehren Vorschläge für eine Weiterentwicklung der Sacherschließung und Schritte zur fortgesetzten strukturellen Aufwertung der GND
TK6-Kasprzik-Kett

Themenkreis „Fokus Erschließen & Bewahren“

Vorschläge für eine Weiterentwicklung der Sacherschließung und Schritte zur fortgesetzten strukturellen Aufwertung der GND

Anna Kasprzik, ZBW Hamburg
Jürgen Kett, DNB Frankfurt

Zusammenfassung

Aufgrund der fortgesetzten Publikationsflut stellt sich immer dringender die Frage, wie die Schwellen für die Titel- und Normdatenpflege gesenkt werden können – sowohl für die intellektuelle als auch die automatisierte Sacherschließung. Zu einer Verbesserung der Daten- und Arbeitsqualität in der Sacherschließung kann beigetragen werden a) durch eine flexible Visualisierung der Gemeinsamen Normdatei (GND) und anderer Wissensorganisationssysteme, so dass deren Graphstruktur intuitiv erfassbar wird, und b) durch eine investigative Analyse ihrer aktuellen Struktur und die Entwicklung angepasster automatisierter Methoden zur Ermittlung und Korrektur fehlerhafter Muster. Die Deutsche Nationalbibliothek (DNB) prüft im Rahmen des GND-Entwicklungsprogramms 2017–2021, welche Bedingungen für eine fruchtbare community-getriebene Open-Source-Entwicklung entsprechender Werkzeuge gegeben sein müssen.

Weiteres Potential steckt in einem langfristigen Übergang zu einer Darstellung von Titel- und Normdaten in Beschreibungssprachen im Sinne des Semantic Web (RDF; OWL, SKOS). So profitiert die GND von der Interoperabilität mit anderen kontrollierten Vokabularen und von einer erleichterten Interaktion mit anderen Fach-Communities und kann umgekehrt auch außerhalb des Bibliothekswesens zu einem noch attraktiveren Wissensorganisationssystem werden. Darüber hinaus bieten die Ansätze aus dem Semantic Web die Möglichkeit, stärker formalisierte, strukturierende Satellitenvokabulare rund um die GND zu entwickeln. Daraus ergeben sich nicht zuletzt auch neue Perspektiven für die automatisierte Sacherschließung. Es wäre lohnend, näher auszuloten, wie und inwieweit semantisch-logische Verfahren den bestehenden Methodenmix bereichern können.

Summary

Due to the continued proliferation of publications the question of how to lower the barriers for the management of bibliographic and authority data – both intellectually and automatically – becomes ever more pressing. The quality of data and workflows can be improved by a) a flexible visualization of the Integrated Authority File (GND) and other knowledge organization systems in such a way that their graph structure can be comprehended intuitively, and b) by an investigative analysis of their current structure and the development of adequate automated methods for the diagnosis and correction of structural flaws. Based on the Development Program for the GND 2017–2021, the German National Library (DNB) is investigating optimal conditions for a fruitful, community-driven, open source development of corresponding tools for those tasks.

Additional potential is generated by a long-term transfer of bibliographic and authority data into Semantic Web description languages (RDF; OWL, SKOS). The GND could benefit from a facilitated interoperability with other vocabularies and interaction with other scientific communities and in turn can become an even more attractive knowledge organization system for reuse outside the library world as well. Moreover, the development of more formal satellite vocabularies adding structure to the GND based on those description languages opens up new perspectives in the domain of automated subject indexing. Therefore, an exploration of semantic-logical techniques within the mix of methods that is currently used should be pursued in more depth.

Zitierfähiger Link (DOI): https://doi.org/10.5282/o-bib/2018H4S127-140

Autorenidentifikation: Kasprzik, Anna: GND 1022595687; ORCID: http://orcid.org/0000-0002-1019-3606; Kett, Jürgen: GND 136596916

Schlagwörter: Sacherschließung; Normdaten; GND; Visualisierung; Wissensorganisationsysteme; Semantic Web

1. Ausgangslage

Die heutige Sacherschließung muss sich mehr denn je mit einem Zusammenspiel bedeutender Herausforderungen auseinandersetzen: der stark steigenden Zahl an Publikationen, der damit einhergehenden steigenden Heterogenität der Titeldaten, und der Tatsache, dass in der Struktur der historisch gewachsenen Wissensorganisationssysteme, die für die Sacherschließung herangezogen werden, diverse Unschärfen und Lücken bestehen. Große Aufmerksamkeit richtet sich in diesem Kontext im Moment auf das Potenzial von automatisierten Methoden in der Sacherschließung. Der Standardisierungsausschuss teilt die weit verbreitete Einschätzung, dass automatisierte Verfahren intellektuelle auf absehbare Zeit nicht vollkommen ersetzen werden, sondern eher ergänzend angewendet werden können.1 Wie beide Arten von Verfahren sinnvoll und produktiv ineinandergreifen können, ist eine komplexe konzeptionelle Frage, deren Beantwortung über ein „alles, was intellektuell mengenmäßig nicht bewältigbar ist“ hinausgehen sollte.

Generell lässt sich aus der aktuellen Situation jedenfalls die folgende Handlungsempfehlung ableiten: Die Schwellen für die Pflege von Titel- und Normdaten müssen gesenkt werden – sowohl für die intellektuelle als auch für die automatisierte Sacherschließung. Für beide Bereiche ist das Vorhandensein eines gut gepflegten, konsistenten Vokabulars eine entscheidende Voraussetzung.

Eine weitere erforderliche Zutat ist eine bessere Werkzeugunterstützung auf zwei Ebenen: Zunächst einmal auf der Titelebene, d.h. bei der tagtäglichen Erfassung von Ressourcen – hier wäre beispielsweise eine intelligente Vorschlagsfunktion für Schlagwörter aus verschiedenen Quellen (GND, Wiki­pedia, ... ) und eine direkte Übernahmemöglichkeit von gefundenen GND-Schlagwörtern ins eigene System nützlich. Eine Ebene darüber, auf der Normdatenebene, wird eine einfache Schlagwortansetzung und Korrektur von Datensätzen in der GND benötigt, um diese im für den eigenen Fachbereich relevanten Ausschnitt ausbauen und kontinuierlich weiterentwickeln zu können.

Eine Grundvoraussetzung für eine effizientere Pflege von Titel- und Normdaten mit dem Ziel einer möglichst hohen (Daten- und Arbeits)Qualität in beiden Bereichen ist jedoch eine möglichst gut strukturierte, informative Übersicht über das in der GND bereits bestehende Terminologiegut. Begleitend ist zu klären, wie die Diagnose und Korrektur von Strukturverwerfungen in der GND teilautomatisiert werden kann. Hierzu müssen die aktuelle Struktur und typische Fehler analysiert werden und potenziell geeignete (graphbasierte, logische) Methoden dafür identifiziert werden.

1.1. Die Weiterentwicklung der GND

Der Mehrwert der GND als Wissensorganisationssystem ist – insbesondere außerhalb der Bibliothekswelt – schwer zu vermitteln, aus verschiedenen Gründen:

  • Sie kommt naturgemäß im Hintergrund zum Einsatz, ist für Nutzer/innen in der Regel nicht sichtbar und wird auch selten explizit genannt.
  • Sie bildet teilweise Konzepte aus der aktuellen Forschung nicht ab oder verzeichnet diese nicht mit den in der Forschung verwendeten Termen, was zum Teil auch auf eine gewisse Verzögerung durch die strikten Regeln zur Ansetzung im Deutschen gebräuchlicher englischer Terme zurückzuführen ist.
  • Die in der GND verzeichneten Relationen zwischen Konzepten (siehe auch Abschnitt 2.2) sind schwer nachnutzbar (z.B. durch Entwickler von Recherchesystemen, und über Anwendungen auch durch Endnutzer),2 da sie weder niederschwellig zugänglich noch intuitiv dokumentiert sind.
  • Diese Relationen sind wiederum nicht einer solch strengen Kontrolle wie der redaktionellen Betreuung der Schlagwörter selbst unterworfen, bzw. ihnen ist bisher vergleichsweise weniger Aufmerksamkeit zuteilgeworden.
  • Traditionell ist die GND, wie andere Normdateien auch, intrinsisch bibliotheksbezogen (ein Schlagwort wird nur angelegt, wenn ausreichend Ressourcen dazu erfasst sind) und hatte daher bisher nicht den Anspruch einer vollumfänglichen Abbildung von Weltwissen.

Entsprechend wäre es leichter, die Weiterentwicklung der GND und von Werkzeugen rund um die GND voranzutreiben, wenn diese auch außerhalb der Bibliothekswelt als attraktives Wissensorganisationssystem und sozusagen als „Produkt“ sichtbar wäre.

Im Jahr 2017 hat der GND-Ausschuss ein Strategie- und Entwicklungsprogramm zur organisatorischen, technischen und fachlichen Modernisierung der GND veröffentlicht.3 Zu dessen Schwerpunkten gehört eine signifikante Steigerung der Vernetzung der GND mit anderen Daten, und, um dieses Ziel zu erreichen, eine Öffnung der Datenpflegeprozesse auf verschiedenen Ebenen für die teilnehmenden Institutionen, anderen Sparten und Communities. Insbesondere sollen unter Beteiligung einer interessierten Fachgemeinschaft in einer Open-Source-Umgebung Werkzeuge für die strukturelle Bereinigung, explorative Navigation und allgemeine qualitative Aufwertung der GND entwickelt und zur Nachnutzung bereitgestellt werden.

2. Aspekte einer erleichterten, verbesserten Sacherschließung

2.1. Visualisierung

Eine Grundvoraussetzung zur Verbesserung der Sacherschließung ist die Möglichkeit, die Struktur des zugrundeliegenden Normvokabulars intuitiv verstehen und erfassen zu können, d.h., eine hochqualitative Visualisierung davon. In den letzten Jahren sind mehrere Systeme zur Anzeige und Bearbeitung der GND entstanden. Neben der von der DNB bereitgestellten Katalogisierungsumgebung WinIBW, welche noch immer das Hauptsystem zum Anlegen, Korrigieren und Umlenken von GND-Datensätzen ist, ist eines der am häufigsten zur schnellen Recherche in der GND genutzten Systeme die Online-GND (OGND), welche allerdings nur die Datensätze verzeichnet, ohne darüber hinaus eine nennenswerte Visualisierung der ein Konzept umgebenden Struktur anzubieten.4

Ein öffentlich zugängliches System zur Anzeige von GND-Datensätzen, das auch eine Hierarchie­anzeige miteinschließt, ist die WebGND von Eurospider.5 Diese stellt bereits einige nützliche Zusatzanzeigemöglichkeiten bereit, aus Sicht des wissenschaftlichen Dienstes der TIB Hannover gibt es allerdings auch einige Kritikpunkte:

  • das Verhalten der Autovervollständigungsliste, die auf eine fixe Länge gekappt wird und bei Annahme eines Vorschlags diesen durch eine ID ersetzt, so dass keine Nachkorrektur möglich ist,
  • eine nicht ganz nachvollziehbare Aufteilung und Benennung der einzelnen Datensatzelemente („Varianten“ statt „Synonyme“; Trennung in Grunddaten und „Weitere Beziehungen“),
  • fehlende Zusatzangaben für bibliothekarische Fachleute (z.B. den Code einer GND-Relation6)
  • und das Kappen der einzelnen Teilbäume auf eine festgelegte Tiefe.

Die WebGND wurde im Kontext des Sacherschließungssystems Digitaler Assistent von Eurospider in Kooperation mit Schweizer und deutschen Bibliotheken entwickelt.7 Der Digitale Assistent unterstützt bei der Übernahme von Schlagwörtern aus Fremddaten und der Schlagwortrecherche. Die WebGND ist die freie Webversion der Recherchekomponente für alle diejenigen, die das kommerzielle System nicht nutzen, und bietet entsprechend auch keine direkte Übernahmemöglichkeit ins eigene System.

Zusätzlich geht die Hierarchieanzeige der WebGND davon aus, dass sich die GND als monohierarchische Baumstruktur visualisieren lässt, und ignoriert damit die Tatsache, dass ein Konzept in der GND auch mehrere Oberbegriffe haben kann, was dann zu irritierenden Artefakten und einem nicht vorhersehbaren Verhalten in der Anzeige führt, siehe beispielsweise Abbildung 1: Die eingetragenen Oberbegriffe von „Neurobiologie“ sind „Neurologie“ und „Biologie“. „Biologie“ hat als Oberbegriff „Biowissenschaften“, ordnet sich diesem aber nicht unter. Unterordnung wird nur durch Einrückung angezeigt, ansonsten ist „Biologie“ nicht als Oberbegriff von „Neurobiologie“ identifizierbar. „Ionenfalle“ hat die beiden eingetragenen Oberbegriffe „Teilchenfalle“ und „Elektronenröhre“, für „Teilchenfalle“ sind überhaupt keine Oberbegriffe eingetragen, trotzdem ordnet es sich „Elektronisches Bauelement“ unter und suggeriert damit eine Oberbegriffsbeziehung, die im GND-Datensatz nicht enthalten ist. Damit sind Oberbegriffe und Nicht-Oberbegriffe in dieser Anzeige nicht zweifelsfrei unterscheidbar.

Abb1.tif

Die an der DNB angesiedelte Darstellung der GND über den Webservice Melvil, die einige dieser Probleme auf eine niederschwellige Art bereits adressiert hatte (Baumdarstellung mit Hinweisen auf weitere Ober-, Unter- und verwandte Begriffe), ist leider momentan nicht online geschaltet. Es gibt außerdem zahlreiche weitere Werkzeuge rund um die Wissensorganisation und -darstellung auf dem Markt, so etwa iviews oder Yewno (Produkte: Discover, Unearth),8 diese sind aber in der Regel kommerziell und nicht öffentlich zugänglich, geschweige denn als Open-Source-Software verfügbar. Darüber hinaus ist es sehr fraglich, ob diese direkt auf die GND und ihre Anwendungen anwendbar sind – Yewno sieht beispielsweise die Verwendung eines kontrollierten Vokabulars wie der GND gar nicht vor, sondern repräsentiert mit Hilfe von Machine-Learning-Prozessen aus Volltexten (einschließlich der Wikipedia) extrahierte, nicht kontrollierte Konzepte.

Im Jahr 2010 wurde an der TIB Hannover von Jan Maas im Rahmen seines Referendariats ein Werkzeug namens SWD-Viewer entwickelt. Es erweiterte die trunkierte Suche in der WinIBW um eine komfortable Suche auf allen Ansetzungsformen der damaligen Schlagwortnormdatei und unterstützte die Recherche durch eine visuelle Darstellung mehrerer Schlagwörter gleichzeitig (siehe Abbildung 2) und eine mausgesteuerte Navigationsmöglichkeit entlang der Hierarchien, so dass typische hierarchiebasierte Fehler wie z.B. die überflüssige Vergabe von Schlagwörtern gleichzeitig mit ihren engeren Unterbegriffen und zyklische Strukturen auf einen Blick sichtbar werden. Beispiele für Strukturfehler finden sich in Abbildung 2 rechts („Strömungsmechanik“ sollte als Oberbegriff „Technische Mechanik“ haben, nicht „Mechanik“ allgemein) und in Fußnote 27 (in der GND ist „Flächennutzungsplan“ ein Oberbegriff von „Flächennutzung“). Zusätzlich gab es die Möglichkeit zur Ansetzung neuer Schlagwörter in Analogie zu vergleichbaren bestehenden durch eine parallele Darstellung und eine entsprechende Copy&Paste-Funktionalität. Obwohl vielversprechend, wurde dieses Werkzeug nach der Einführung der GND 2012 allerdings nicht weiterentwickelt.

Abb2a.tif

Das Beispiel mit der fehlgeleiteten Baumdarstellung zeigt, dass es somit vor der Entwicklung einer intelligenten, sinnvollen Visualisierung hilfreich sein kann, zunächst zu analysieren, welche theoretischen Prinzipien in Bezug auf formale Strukturen bzw. deren Missachtung ganz konkrete Auswirkungen auf die Anzeige haben können. Eine der Aufgabe angemessene Visualisierung sollte mindestens eine Darstellung als Graph erlauben, so dass man Schlagwörter sachgetreu mit ihrem Umfeld im Begriffsnetz sehen kann – mindestens zwei Schritte weit, idealerweise wäre die Umfeldgröße anpassbar („Zoom“). Einen exzellenten Baustein in diese Richtung liefert der im Juli 2018 gestartete Online-Dienst lobid-gnd mit einer Anzeige, die zumindest alle explizit eingetragenen Beziehungen für GND-Entitäten in Graphform darstellt, siehe Abbildung 3.9

Abb3a.tif

2.2. Struktur durch Relationen, Facetten und logische Mechanismen

Weiteres Verbesserungspotential für die Sacherschließung tritt zutage, wenn man die Struktur der GND einmal genauer in den Blick nimmt, also das Netz von Konzepten und der Relationen dazwischen, die semantische Ausdruckskraft dieser Relationen, und die Diagnose von zyklischen, unverbundenen oder anderweitig suboptimalen Unterstrukturen.

Ein hochwertiger Thesaurus zeichnet sich durch eine klare Struktur aus, ordnet Konzepte bei Bedarf verschiedenen Unterthesauri zu und etabliert auch Querbezüge, die sich für eine Facettierung auswerten lassen.10 Kommen zusätzlich zu den in Thesauri üblichen Beziehungen zwischen Konzepten und Termen (Oberbegriff, Synonym, Vorzugsbenennung, ...) weitere ausdruckskräftige inhaltliche Relationen hinzu, befindet man sich bereits im Bereich der Ontologien. Eine voll durchformalisierte Ontologie basiert auf einer strikt mengentheoretischen Monohierarchie („Ein Hund ist ein Säugetier ist ein Tier ist ein ... “) und enthält zusätzlich dazu logische Regeln und Beschränkungen, die maschinell verarbeitet werden können, so dass ein sogenannter Reasoner aus der Ontologie plus ggf. weiteren eingespeisten Fakten automatisiert neues Wissen ableiten kann.11

Seit 2001 haben sich in der Linked-Data-Community eine Reihe von Standards zur Darstellung von Ontologien und Thesauri durchgesetzt, mit dem Ziel einer höheren Interoperabilität von Daten durch ihre Annotation mit maschinenlesbaren semantischen Interpretationen. Das für Thesauri übliche Format ist das Simple Knowledge Organization System (SKOS), welches auch Erweiterungen erlaubt. Über die standardisierte Erweiterung SKOS-XL wird beispielsweise eine klare Trennung von Konzepten und Termen (die damit nicht mehr nur reine Zeichenketten sind) und eine Annotation von Termen mit weiteren Metadaten möglich.12 Konzepte lassen sich in SKOS über concept schemes zu thematisch zusammengehörenden Untergruppen (auch „Mikrothesauri“ genannt) zusammenfassen, und über collections lassen sich Querbezüge anhand bestimmter Aspekte herstellen, die aber nicht hierarchiebildend sein sollen (z.B. „Milch nach Spendertier“ oder auch „Alles zur Fotografie“ – „Fotograf“, „Stativ“, „Kamera“).13

Die TIB Hannover entwickelt seit 2013 zusammen mit der WTI-Frankfurt eG den Thesaurus „Technik und Management“ (TEMA) in einer Projektserie „Fachontologie Technik“ weiter.14 Eines der ursprünglichen Arbeitspakete umfasste ein erstes Experiment zur Transformation eines Ausschnitts des Thesaurus in eine formalere Ontologie. Dabei traten einige historisch gewachsene Unsauberkeiten in der Struktur des Thesaurus zutage. Um diese zu bereinigen, wird momentan zum einen eine „Dachstruktur“ entwickelt, die einen graduellen Abstieg vom Allgemeinen zum fachlich Spezifischen und damit einen besseren thematischen Zugang zu den Inhalten des Thesaurus erlaubt. Zum anderen werden Möglichkeiten geprüft, weitere Querbezüge zwischen seinen Konzepten herzustellen (ausdruckskräftigere Relationen, bzw. Facetten zur Extraktion von „Konzeptscheiben“ nach bestimmten, nicht-hierarchiebildenden Aspekten), die später für die Anzeige ausgewertet werden und eine gute Grundlage für das Entwickeln formalerer Ontologien aus dem Konzeptmaterial bilden können. Nach einer Übertragung des TEMA-Thesaurus in SKOS bieten sich hier die oben genannten SKOS concept schemes und collections an.15

Vor dem Hintergrund dieser Vorbemerkungen folgt hier der Versuch einer Umfeldanalyse für die GND. Hier ist zunächst einmal die GND-Systematik zu nennen, die „einen systematischen Zugang zu dem Vokabular [...] ermöglichen und fachliche Ausschnitte oder Teilausgaben [...] bilden“ soll.16 Einem GND-Konzept können bis zu fünf Notationen zugeordnet werden. Bei einer Darstellung der GND als SKOS-Thesaurus könnte die GND-Systematik als ein weiteres concept scheme eingebunden werden (das war der Ansatz bei einem Experiment der ZBW 2016),17 sie könnte darüber hinaus als Quelle für die Bildung von untergliedernden concept schemes innerhalb der GND unter Verwendung der einzelnen Notationen als top concepts für die concept schemes herangezogen werden, oder sie könnte als Anhaltspunkte für die Bildung von collections verwendet werden – in dem Fall dienten die Notationen als Namen für collections und bestünden nicht als eigene Konzepte. Mischformen sind denkbar, je nach Charakter der Notation („6.6 Hochschule“ – Konzept vs. „6.4p Personen zu Bildungswesen“ – Facette).

Was die Relationen angeht, ist festzustellen, dass es in der GND zwar durchaus möglich ist, mehrere Oberbegriffe für ein Konzept zu verzeichnen (siehe auch Abschnitt 2.1), dass aber aktuell für einige Konzepte auch gar keine Oberbegriffe eingetragen sind, und dass (laut Mitarbeitenden des wissenschaftlichen Dienstes der TIB) einige inhaltliche Unschärfen bestehen wie etwa Unterbegriffe, die nebengeordnet sein sollten, und Ähnliches. Für die Relationen in der GND gibt es Relationscodes (siehe Fußnote 6). Die Oberbegriffsrelation (allgemein: „obal“) kann prinzipiell ausdifferenziert werden in „generisch“ („obge“), „instanziell“ („obin“) und „partitiv“ („obpa“). Diese Möglichkeit ist aber in einer beträchtlichen Menge der Datensätze nicht umgesetzt, was größtenteils darauf zurückzuführen ist, dass bei Einführung dieser Unterscheidung aus pragmatischen Gründen alle bestehenden Oberbegriffsrelationen, die nicht maschinell zugeordnet werden konnten, in „obal“ umgewandelt werden mussten – teilweise aber auch darauf, dass die Erfassungshilfe zur Vergabe der Codes für Oberbegriffe weiterhin die Möglichkeit zulässt, bei strittigen Fällen oder Unsicherheit „obal“ zu vergeben.18 Die Liste der Relationscodes enthält auch Relationen, die über die Standardrelationen eines Thesaurus hinausgehen (etwa „Beruf“, „Beziehung familiär“, „Bauherr“). Diese sind allerdings ebenfalls festgelegt, können nicht frei erweitert werden und kommen nur für bestimmte Konzeptgruppen (als Subjekt hauptsächlich Personen) zum Tragen.

Als weiteres Instrument zur Strukturierung wurde 2012 im Rahmen der Zusammenführung der GND die GND-Ontologie (GNDO) entwickelt,19 mit dem Ziel, eine Repräsentation des GND-Datenmodells in der Beschreibungssprache OWL zu erschaffen und so für mehr Interoperabilität mit anderen Wissensorganisationssystemen im Sinne des Semantic Web zu sorgen.20 Die GNDO beschreibt den Inhalt der GND also auf einer Metaebene, indem sie Klassen von GND-Entitäten bildet, mögliche Relationen zwischen diesen und zu Datenwerten verzeichnet, und zusätzlich für die oberste Klassen­ebene (Werke, Geografika, Konferenzen/Veranstaltungen, Körperschaften, Personen, Familien, Sachbegriffe) ein Disjunktheitsaxiom formuliert – keine GND-Entität darf zu mehr als einer dieser Klassen gehören.21 Ergänzend zur GNDO sind Satellitenvokabulare entstanden, etwa die GND Value Vocabularies (SKOS concept schemes zur Abbildung kontrollierter Vokabulare wie der GND-Systematik oder Länder- und Sprachencodes)22 oder die DNB Metadata Terms.23

Die GNDO greift zwar die für die GND auf Basis der klassischen MARC-21-Darstellung definierten Entitäten- und Relationstypen auf, mittlerweile ist aber auch der Anspruch entstanden, diese weiter­zuentwickeln, z.B. durch ein Identifizieren von Kandidaten für weitere bzw. semantisch ausdifferenziertere Relationen,24 oder durch das Hinzufügen weiterer logischer Axiome, die es erlauben, Inkonsistenzen in der GND zu entdecken. Ein Beispiel für eine solche Inkonsistenz wäre die Verwendung ein und desselben Datensatzes für eine Körperschaft und deren Hauptsitz als Bauwerk, was das Disjunktheitsaxiom verletzt. Eine Vielzahl weiterer inhaltlicher Inkonsistenzen ist denkbar, etwa wenn eine verzeichnete Aktivität einer Person nicht in ihre Lebensspanne oder die Summe ihrer bekannten Wirkungsorte fällt, oder die Angabe zweier verschiedener Mütter für dieselbe Person, etc. Wohlgemerkt kann eine vermeintliche „Inkonsistenz“ in manchen Fällen auch einfach darauf hinweisen, dass weitere Informationen ergänzt werden könnten („open world assumption“).

Eine solche Weiterentwicklung der GNDO bietet perspektivisch interessante Potenziale für Methoden der automatisierten Sacherschließung, um maschinell vergebene Schlagwörter ebenfalls maschinell hinsichtlich ihrer Plausibilität zu prüfen. Darüber hinaus könnte sie Möglichkeiten zum Ableiten von in der GND enthaltenem Weltwissen über kulturelles Erbe und andere Themengebiete eröffnen25 und die GND so über die Bibliothekswelt hinaus (nicht nur für Museen und Archive, sondern allgemein für verschiedenste Semantic-Web-affine Fachgemeinschaften und Sparten) als attraktives Wissensorganisationssystem bekannt machen.26

Wir fassen kurz zusammen: GND und GND-Systematik haben bisher Thesauruscharakter, weshalb sich also eine Darstellung in SKOS anbietet. Die in OWL beschriebene GND-Ontologie teilt die Entitäten in der GND in Klassen ein, vernetzt sie durch formalisierte semantische Relationen und formuliert Regeln und Beschränkungen, die im Idealfall nicht verletzt werden dürfen, um die Qualität der Datensätze in der GND zu sichern und zu erhöhen.

3. Vorschläge für das Sacherschließungssystem der Zukunft

In diesem Abschnitt sollen einige Überlegungen dazu zusammengefasst werden, was ein ideales Sacherschließungssystem für das Fachreferat ausmacht. Folgende Aspekte sollten dabei berücksichtigt werden:

  • Modular und Open Source: Jede Funktionalität sollte in einem eigenen Modul implementiert werden, so dass die Module nach Wahl in bestehende Systeme eingefügt oder zu einer integrierten Plattform („One-Stop-Shop“) zusammengesetzt werden können.
  • Ergonomischer, intuitiver Workflow: Jede so entstehende Plattform sollte einen Arbeitsprozess ermöglichen, der möglichst wenige Klicks und/oder Wechsel zwischen Ansichten, keine Systemwechsel und keine Kenntnis von automatisierten Prozessen im Hintergrund erfordert.
  • Intelligente Visualisierung des verwendeten Wissensorganisationssystems (GND, Fachthesaurus): sachgetreu, graphbasiert (möglichst vollständige Anzeige der umgebenden Schlagwörter), Tiefe und Detailgrad individuell anpassbar, direkte Möglichkeit zur Übernahme und auch zum Editieren bei Navigation im Begriffsnetz – für Letzteres ist eine Echtzeit-Synchronisierung mit dem Master des Wissensorganisationssystems erforderlich.
  • Intelligente Vorschlagshilfen: Bei der Suche nach adäquaten Schlagwörtern sollten direkt Vorschläge aus Informationsquellen wie der GND, Wikipedia und weiteren externen Wissensbasen gegeben werden, außerdem sollten relevante Hinweise und Beispiele aus den einschlägigen Regelwerken für die Erschließung und für die Pflege des zugrundeliegenden Wissensorganisationssystems angezeigt werden.
  • Funktionalitäten für die Prüfung von Struktur und Plausibilität: Werkzeuge, um sowohl beim Anlegen einzelner Einträge im Wissensorganisationssystem potenzielle Ober- und Unterbegriffe angezeigt zu bekommen und strukturelle Fehler (Dubletten, zyklische Verweise, fehlende Relationen etc.) vermeiden zu können als auch bei größer angelegten Aufräum­arbeiten, die individuell oder automatisiert angestoßen werden, nach solchen strukturellen „Verwerfungen“ suchen und sie auflösen zu können.27

Selbstverständlich muss die Entwicklung eines solchen Systems stets in enger Abstimmung mit einem möglichst breiten Spektrum an im Fachreferat tätigen Mitarbeitern und Mitarbeiterinnen erfolgen, um sicherzustellen, dass es alltagstauglich ist und auch tatsächlich produktiv genutzt werden kann.

Es gibt aktuell bereits einige Open-Source-Software-Werkzeuge, die man für die entsprechenden Module heranziehen und weiterentwickeln könnte, so etwa den GND-Dienst von lobid mit diversen Funktionalitäten – facettierte Suche, Visualisierung von Beziehungen, Schnittstellen für Linked-Data-Anwendungen, Bulk-Downloads und OpenRefine-Integration – oder coli-conc zum Management und Austausch von Konkordanzen zwischen bibliothekarischen Wissensorganisationssystemen.28 Ein interessanter Kandidat für eine kooperative Datenpflege ist momentan auch Wikidata, der von verschiedenen Initiativen im In- und Ausland exploriert wird.29 Das Software-Gerüst von Wikidata Wikibase – kann auch ohne die in Wikidata enthaltenen Daten verwendet werden, erlaubt eine flexible Integration mit weiteren Software-Werkzeugen wie z.B. OpenRefine und stellt ein reichhaltiges Datenmodell bereit.

Auf dem Weg zu einer effizienteren Umgebung für die Normdatenpflege werden im Rahmen des GND-Entwicklungsprogramms zunächst die oben genannten technologischen Optionen ausgelotet. Darauf aufbauend wird man sich in Einzelmaßnahmen und Projekten den anderen in diesem Artikel genannten Aspekten zur Visualisierung und strukturellen Verbesserung widmen. Eine ganz entscheidende Rolle für den Erfolg dieses komplexen Programms spielt dabei auch die Fähigkeit der GND-Community, Entwicklungen kooperativ zu organisieren. Es ist zu klären, welche technologischen und organisatorischen Bedingungen und Strukturen (Schnittstellen, relevante Standards, Kommunikationskanäle etc.) gegeben sein müssen, damit sich eine rege, nachhaltige Kultur der community-getriebenen und bedarfsorientierten Entwicklung von frei nachnutzbaren Werkzeugen rund um die GND mit optimaler Beteiligung etablieren kann, und wie diese Strukturen so ausdifferenziert werden müssen, dass verschiedene Interessierte ihrem jeweiligen Expertisegrad entsprechend mit ihnen arbeiten können.

4. Zusammenfassung und Ausblick

Zu einer fortgesetzten Verbesserung der Daten- und Arbeitsqualität in der Sacherschließung kann beigetragen werden a) durch eine flexible visuelle Darstellung der zugrunde gelegten Wissensorganisationssysteme, so dass deren Graphstruktur intuitiv erfassbar und folglich das Risiko für strukturelle Fehler von vornherein reduziert wird,30 und b) durch eine investigative Analyse der aktuellen Struktur und die Entwicklung angepasster (teil-)automatisierter Methoden zur Prüfung. Hier wäre der nächste Schritt die Implementierung und Evaluierung diverser Graphalgorithmen und regelbasierter Mechanismen,31 um häufiger auftretende fehlerhafte Muster und Inkonsistenzen identifizieren und anschließend korrigieren zu können.

Weiteres Potential steckt in einem (teilweise bereits stattfindenden) langfristigen Übergang zu einer Darstellung der Titeldaten, der GND und begleitender Vokabulare in Beschreibungssprachen im Sinne des Semantic Web. Zunächst einmal kann die GND dadurch inhaltlich maximal profitieren von der Interoperabilität mit anderen Wissensorganisationssystemen und von einer erleichterten Interaktion mit Fach-Communities, um so noch enger an die aktuelle Forschung angeschlossen zu sein. Umgekehrt kann die GND so auch für Wissensingenieure außerhalb des Bibliothekswesens als Wissensorganisationssystem zur Nachnutzung noch attraktiver werden.

Und schließlich öffnet der Übergang zu universell interoperablen Formaten mit einer höheren logischen Ausdruckskraft und die Entwicklung formalisierter, strukturierender Satellitensysteme rund um die GND auch neue Perspektiven im Bereich der automatisierten Sacherschließung. Die gängigen Verfahren benötigen weiterhin Trainingsdaten mit einer hohen Qualität – welche bereits durch eine erleichterte intellektuelle Sacherschließung und Normdatenpflege und durch Graphprüfungsroutinen gesteigert werden kann – und können zusätzlich profitieren von einer höheren Ausdifferenzierung und Formalisierung in den Daten und von mehr Kontext für die einzelnen Konzepte und ihre Vorkommen durch aussagekräftige Relationen. Ein verstärktes Ausloten von semantisch-logischen Verfahren im Methodenmix der automatisierten Sacherschließung sollte daher auf jeden Fall weiterverfolgt werden.32

Literaturverzeichnis

- Allison-Cassin, Stacy; Scott, Dan: Wikidata: a platform for your library’s linked open data, in: code{4}lib 40, 2018. Online: <https://journal.code4lib.org/articles/13424>.

- DNB: GND-Systematik – Leitfaden zu ihrer Vergabe. Online: <https://d-nb.info/1018626042/34>, Stand: 06.08.2018.

- Gillitzer, Berthold: Der semantische Discovery-Service YEWNO – ein Pilotprojekt an der Bayerischen Staatsbibliothek. Vortragsfolien vom 106. Deutscher Bibliothekartag 2017 in Frankfurt am Main. Online: <https://opus4.kobv.de/opus4-bib-info/frontdoor/index/index/year/2017/docId/2918>.

- Haffner, Alexander: Internationalisierung der GND durch das Semantic Web. Frankfurt am Main, 16. Juli 2012. Online: <http://www.kim-forum.org/Subsites/kim/SharedDocs/Downloads/DE/Berichte/internationalisierungDerGndDurchDasSemanticWeb.pdf?__blob=publicationFile>.

- Hinrichs, Imma; Milmeister, Gérard; Schäuble, Peter; Steenweg, Helge. Computerunter­stützte Sacherschließung mit dem Digitalen Assistenten (DA-2), in: o-bib. Das offene Bibliotheksjournal / herausgegeben vom VDB, 3(4), Dezember 2016, S. 156–185. Online: <https://www.o-bib.de/article/view/2016H4S156-185>.

- Kasprzik, Anna: Cleaning up a legacy thesaurus to make it fit for transformation into a Semantic Web KOS, in: Proceedings of the NKOS Workshop at TPDL/DC 2018, 13.09.2018, Porto, Portugal. Online: <http://ceur-ws.org/Vol-2200/paper7.pdf>.

- Mader, Christian; Haslhofer, Bernhard; Isaac, Antoine. Finding Quality Issues in SKOS Vocabularies. In: Proceedings of the Second international conference on Theory and Practice of Digital Libraries (TPDL), 2012, S. 222–233. Online: <https://eprints.cs.univie.ac.at/3444/1/finding_skos_quality_issues.pdf>.

- Mader, Christian. Quality Issues. Online: <https://github.com/cmader/qSKOS/wiki/Quality-Issues>, Stand: 06.08.2018.

- Neubert, Joachim: Turning the GND subject headings into a SKOS thesaurus: an experiment, 30.03.2016, <http://zbw.eu/labs/de/blog/turning-the-gnd-subject-headings-into-a-skos-thesaurus-an-experiment>, Stand: 06.08.2018.

- Rocha Souza, Renato; Tudhope, Douglas; Barcellos Almeida, Maurício: Towards a taxo­nomy of KOS: Dimensions for classifying Knowledge Organization Systems, in: Knowledge Organization 39 (3), 2012, S. 179–192. Online: <http://mba.eci.ufmg.br/downloads/Souza_Tudhope_Almeida_-_KOS_Taxonomy.Submitted.pdf>.

- Standardisierungsausschuss: Stellungnahme zur Entwicklung der Inhaltserschließung im D-A-CH-Raum. Online: <http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/protokolle/stellungnahmeIEDachRaum.pdf?__blob=publicationFile>, Stand: 06.08.2018.

- Voß, Jakob; Bausch, Susanna; Schmitt, Julian u.a.: Normdaten in Wikidata – Handbuch Version 1.0, 2014. Online: <https://hshdb.github.io/normdaten-in-wikidata/>, Stand: 06.08.2018.

1 Standardisierungsausschuss: Stellungnahme zur Entwicklung der Inhaltserschließung im D-A-CH-Raum. Online: <http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/protokolle/stellungnahmeIEDachRaum.pdf?__blob=publicationFile>, Stand: 06.08.2018

2 Bzw. zwischen Termen (z.B. bei Angabe von Synonymen), und zwischen Konzepten und Termen, wenn man z.B. das Verzeichnen von bevorzugten und alternativen Benennungen als weitere Relation auffasst.

3 DNB: GND-Entwicklungsprogramm 2017-2021. Online: <https://wiki.dnb.de/display/GND/GND-Entwicklungsprogramm+2017-2021>, Stand: 06.08.2018

4 OGND, <https://wiki.bsz-bw.de/doku.php?id=v-team:recherche:ognd:start>, Stand: 06.08.2018. Die OGND wird bereitgestellt vom Bibliotheksservice-Zentrum Baden-Württemberg (BSZ).

5 WebGND, <gnd.eurospider.com>, Stand: 06.08.2018

6 DNB: GND: Liste der Codierungen im Unterfeld $4 – alphabetisch nach Code. Online: <http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/inhaltserschliessung/gndCodes.pdf>, Stand: 06.08.2018

7 Hinrichs, Imma; Milmeister, Gérard; Schäuble, Peter; Steenweg, Helge. Computerunterstützte Sacherschließung mit dem Digitalen Assistenten (DA-2), in: o-bib 3(4), 2016, S. 156–185. Online: <https://www.o-bib.de/article/view/2016H4S156-185>

8 https://i-views.com; https://yewno.com/products (Stand jeweils 06.08.2018). Yewno Discover wurde auch von der BSB im Kontext ihres Suchportals getestet, siehe Gillitzer, Berthold: Der semantische Discovery-Service YEWNO – ein Pilotprojekt an der Bayerischen Staatsbibliothek. Online: <https://opus4.kobv.de/opus4-bib-info/files/2918/BT2017_Yewno_4.pdf>

9 lobid-gnd, <https://lobid.org/gnd>, Stand: 06.08.2018. Ein nächster Schritt wäre beispielsweise noch die Integration aller Unterbegriffe, die auf das jeweilige Schlagwort als Oberbegriff verweisen, in die Anzeige.

10 Ein Beispiel für einen solchen Querbezug aus dem TEMA-Thesaurus wären „Anwendungen der Petrochemie“, die im Thesaurus über ganz unterschiedliche Industriezweige verstreut sind, siehe dazu auch die folgenden Abschnitte und Kasprzik, Anna: Cleaning up a legacy thesaurus to make it fit for transformation into a Semantic Web KOS, in: Proceedings of the NKOS Workshop at TPDL/DC 2018, 13.09.2018, Porto, Portugal. Online: <http://ceur-ws.org/Vol-2200/paper7.pdf>

11 Für eine Übersicht siehe auch: Rocha Souza, Renato; Tudhope, Douglas; Barcellos Almeida, Maurício: Towards a taxonomy of KOS: Dimensions for classifying Knowledge Organization Systems, in: Knowledge Organization 39 (3), 2012, S. 179–192. Online: <http://mba.eci.ufmg.br/downloads/Souza_Tudhope_Almeida_-_KOS_Taxonomy.Submitted.pdf>, Stand: 06.08.2018.

12 Eine weitere Standarderweiterung von SKOS, iso-thes <https://lov.linkeddata.es/dataset/lov/vocabs/iso-thes> (Stand: 06.08.2018), erlaubt Konformität mit ISO 25964 zum idealen Aufbau eines Thesaurus und dessen Vernetzung mit anderen, etwa zusammengesetzte Äquivalenz („pollution“ -> „Umwelt“ + „Verschmutzung“) oder eine Ausdifferenzierung der Oberbegriffsrelation in „generisch“, „instanziell“ und „partitiv“.

13 Prinzipiell lässt sich hier noch unterscheiden zwischen einer Untergruppierung von Konzepten mit demselben Oberkonzept („Milch nach Spendertier“, siehe das Beispiel im SKOS Primer: <https://www.w3.org/TR/skos-primer/#seccollections> (Stand: 06.08.2018), so dass eine hierarchische Anzeige weiterhin möglich ist, und einer Gruppierung von Konzepten, die diese Bedingung nicht erfüllen – beide lassen sich jedoch durch SKOS collections abdecken.

14 Zum Zeitpunkt der Erstellung dieses Beitrags war die Autorin noch Mitarbeiterin der TIB Hannover.

15 Kasprzik, Anna: Cleaning up a legacy thesaurus to make it fit for transformation into a Semantic Web KOS, in: Proceedings of the NKOS Workshop at TPDL/DC 2018, 13.09.2018, Porto, Portugal. Online: <http://ceur-ws.org/Vol-2200/paper7.pdf>

16 DNB: GND-Systematik – Leitfaden zu ihrer Vergabe. Online: <https://d-nb.info/1018626042/34>, Stand: 06.08.2018

17 Neubert, Joachim: Turning the GND subject headings into a SKOS thesaurus: an experiment, 30.03.2016, <http://zbw.eu/labs/de/blog/turning-the-gnd-subject-headings-into-a-skos-thesaurus-an-experiment>, Stand: 06.08.2018

18 DNB: Erfassungshilfe Oberbegriffe, EH-A-08, <https://wiki.dnb.de/download/attachments/90411369/AWB-A02-Oberbegriffe.pdf>, Stand: 06.08.2018. In der Praxis wird bei Neuerfassung in ca. 10–20% der Fälle auf „obal“ ausgewichen; 2017 enthielten von 1400 Datensätzen 180 „obal“ (Auskunft Esther Scheven, DNB). Eine Stichprobe: Unter dem Sachbegriff “Brettspiel” finden sich „Schach“ und 21 weitere mit der Relation „obal“, „Sugoroku“ und „Senet“ mit „obge“ und „Mensch ärgere dich nicht“ und vier weitere mit „obin“. (Anmerkung: Mit „obin“ verknüpfte Einträge werden in der OGND unter dem Link „Hierarchisch untergeordnete Sachbegriffe?“ gar nicht angezeigt.)

19 DNB: GND Ontology, <https://d-nb.info/standards/elementset/gnd>, Stand: 06.08.2018

20 Haffner, Alexander: Internationalisierung der GND durch das Semantic Web. Frankfurt am Main, 16. Juli 2012. Online: <http://www.kim-forum.org/Subsites/kim/SharedDocs/Downloads/DE/Berichte/internationalisierungDerGndDurchDasSemanticWeb.pdf?__blob=publicationFile>

21 Die Tatsache, dass die GNDO alle Entitäten in der GND als Individuen auffasst, bedeutet übrigens auch, dass die in der GND selbst bestehenden Thesaurusrelationen des Typs „obge“ und „obin“, die der Sache nach die Formalitätskriterien für die Unterklassen- und die Instanzbeziehung erfüllen würden, bisher nicht für logische Schlüsse herangezogen werden können – eine solche zusätzliche Interpretationsmöglichkeit lässt sich aber gegebenenfalls durch darübergelegte logische Axiome etablieren, die die nötige Formalität herstellen.

22 Ebd.

23 DNB Metadata Terms, <https://d-nb.info/standards/elementset/dnb>, Stand: 06.08.2018

24 Siehe hierzu auch die Ontologie AgRelOn der DNB, die aus diversen Wissenbasen extrahiert wurde: <https://d-nb.info/standards/elementset/agrelon>, Stand: 06.08.2018. Hier finden sich Relationen wie hasAdoptiveChild, hasColleague, hasEmployer, hasInfluenceOn, hasMurderer, hasMuse, und viele andere mehr

25 Abgeleitet werden könnten beispielsweise Aussagen wie „Jede Person, die als Architekt eines Gebäudes eingetragen ist, hat auch ‚Architekt‘ als Beruf oder Tätigkeit“. Das mag trivial scheinen, kann aber einen wertvollen Beitrag dazu leisten, das Netz von Relationen in der GND auszubauen und zu vervollständigen und sie so für Anwendungen aller Art und aus allen Fachgemeinschaften fit zu machen.

26 In dem im Mai 2018 gestarteten Projekt „GND4C: GND für Kulturdaten“ wird als ein Schritt in diese Richtung eine grundlegende konzeptionelle Weiterentwicklung des internen GND-Datenmodells selbst hin zu mehr Flexibilität und Ausdruckstärke in Angriff genommen, um die GND für die Anwendungen anderer Kultur- und Wissenseinrichtungen zu öffnen; siehe <https://wiki.dnb.de/x/dIf9Bw>, Stand: 06.08.2018

27 Solche Prüfungen könnten auf logischen Axiomen (GNDO) oder auf Graphalgorithmen aufsetzen. Siehe dazu auch die Liste von möglichen strukturellen Unsauberkeiten in (SKOS-)Thesauri und wie man sie identifizieren kann in den beiden untenstehenden Referenzen. Das dort beschriebene Werkzeug qSKOS findet beispielsweise anhand der SKOS-Version der GND (siehe Fußnote 17) das Problem, dass im Standard-Thesaurus Wirtschaft für das Konzept „Städtische Flächennutzung“ semantisch korrekt als externer Oberbegriff „Flächennutzung“ und als externer Unterbegriff „Flächennutzungsplan“ aus der GND eingetragen sind (siehe <http://zbw.eu/stw/version/latest/descriptor/19453-3/about>), in der GND ist aber „Flächennutzungsplan“ ein Oberbegriff von „Flächennutzung“. Mader, Christian. Quality Issues. Online: <https://github.com/cmader/qSKOS/wiki/Quality-Issues>, Stand: 06.08.2018, und Mader, Christian; Haslhofer, Bernhard; Isaac, Antoine. Finding Quality Issues in SKOS Vocabularies. In: Proceedings of the Second international conference on Theory and Practice of Digital Libraries (TPDL), 2012, S. 222–233. Online: <https://eprints.cs.univie.ac.at/3444/1/finding_skos_quality_issues.pdf>

28 lobid-gnd, <https://lobid.org/gnd/> und coli-conc, <https://coli-conc.gbv.de/>, Stand jeweils: 06.08.2018.
OpenRefine ist ein Werkzeug von Google zur Datensäuberung, Formatübertragung und zum Datenabgleich. <http://openrefine.org/>, Stand: 06.08.2018

29 Voß, Jakob; Bausch, Susanna; Schmitt, Julian u.a.: Normdaten in Wikidata – Handbuch Version 1.0, 2014. Online: <https://hshdb.github.io/normdaten-in-wikidata/>, Stand: 06.08.2018.
Allison-Cassin, Stacy; Scott, Dan: Wikidata: a platform for your library’s linked open data, in: code{4}lib 40, 2018. Online: <https://journal.code4lib.org/articles/13424>

30 Für Endnutzer könnten neben einer höheren Passgenauigkeit der Rechercheergebnisse durch eine verbesserte Erschließung als zusätzlicher Mehrwert aus den so entstehenden Werkzeugen attraktive, navigierbare Visualisierungen von Fachgebieten (mit Wikipedia-Anbindung, Diensten zur direkten Übernahme von Definitionen u.Ä.) und den damit assoziierten Beständen entwickelt werden.

31 „regelbasiert“ – also z.B. über in einer Ontologie wie der GNDO enthaltene Constraints

32 Danksagung: Großer Dank gebührt Esther Scheven, Lars Svensson, Jana Hentschke und Sarah Hartmann (alle DNB) für instruktive und anregende Gespräche während eines Besuches der Autorin an der DNB im Juli 2018 und dem darum herum gelagerten, regen Austausch per Email. Etwaige Fehldarstellungen bezüglich der Sachlage rund um die GND(O) wären allerdings allein der Autorin zuzuschreiben.