Englischsprachige Erweiterung des TIB|AV-Portals: Ein GND-DBpedia-Mapping zur Gewinnung eines englischen Begriffssystems

Sven Strobel

Abstract


Die Videos des TIB|AV-Portals werden mit insgesamt 63.356 GND-Sachbegriffen aus Naturwissenschaft und Technik automatisch verschlagwortet. Neben den deutschsprachigen Videos verfügt das TIB|AV-Portal auch über zahlreiche englischsprachige Videos. Die GND enthält zu den in der TIB|AV-Portal-Wissensbasis verwendeten Sachbegriffen nur sehr wenige englische Bezeichner. Es fehlt demnach ein englisches Indexierungsvokabular, mit dem die englischsprachigen Videos automatisch verschlagwortet werden können. Die Lösung dieses Problems sieht wie folgt aus: Die englischen Bezeichner sollen über ein Mapping der GND-Sachbegriffe auf andere Datensätze gewonnen werden, die eine englische Übersetzung der Begriffe enthalten. Die verwendeten Mappingstrategien nutzen die DBpedia, LCSH, MACS-Ergebnisse sowie den WTI-Thesaurus. Am Ende haben 35.025 GND-Sachbegriffe (mindestens) einen englischen Bezeichner ermittelt bekommen. Diese englischen Bezeichner können für die automatische Verschlagwortung der englischsprachigen Videos unmittelbar herangezogen werden. 11.694 GND-Sachbegriffe konnten zwar nicht ins Englische „übersetzt“, aber immerhin mit einem Oberbegriff assoziiert werden, der eine englische Übersetzung hat. Diese Assoziation dient der Erweiterung der Suchergebnisse.

 

The videos in the TIB|AV-Portal are automatically indexed with a total of 63,356 GND subject headings in the field of science and technology. Besides the German-language videos, the TIB|AVPortal also includes numerous English-language videos. However, the GND (Integrated Authority File) contains very few English labels for the subject headings used in the TIB|AV-Portal knowledge base. Thus, there is no English indexing vocabulary for the automatic indexing of English-language videos. The solution to this problem is as follows: English labels are determined by mapping the GND subject headings to other data sets which provide an English translation of these terms. The mapping strategies which have been applied make use of the DBpedia, LCSH, MACS results, and the WTI Thesaurus. As a result, (at least) one English label was determined for 35,025 GND subject headings. These English labels can be used directly for the automatic indexing of English-language videos. 11,694 GND subject headings could not be directly ‘translated’ into English, but at least it was possible to relate them to a broader term which has an English translation. This association helps to expand the search results.


Volltext:

PDF

Literaturhinweise


- Hentschel, Christian; Blümel, Ina; Sack, Harald: Automatic annotation of scientific video material based on visual concept detection. In: Lindstaedt, Stefanie (Hg.): Proceedings of the 13th International Conference on Knowledge Management and Knowledge Technologies, New York: ACM, 2013, Artikel Nr. 16, http://dx.doi.org/10.1145/2494188.2494213 (25.10.2014).




DOI: https://doi.org/10.5282/o-bib/2014H1S197-204

Refbacks

  • Im Moment gibt es keine Refbacks


Copyright (c) 2014 Sven Strobel

Creative-Commons-Lizenz
Dieses Werk steht unter der Lizenz Creative Commons Namensnennung 4.0 International.