Wenn Algorithmen Zeitschriften lesen
Vom Mehrwert automatisierter Textanreicherung
DOI:
https://doi.org/10.5282/o-bib/2018H4S181-192Schlagwörter:
Bibliothekswesen, Computerlinguistik, automatisierte Textanreicherung, Named Entity Recognition (NER), Named Entity Linking (NEL), OCR-OptimierungAbstract
In Zusammenarbeit mit dem Institut für Computerlinguistik der Universität Zürich (ICL UZH) lancierte die ETH-Bibliothek Zürich ein Pilotprojekt im Bereich automatisierter Textanreicherung. Grundlage für den Piloten bildeten Volltextdateien der Schweizer Zeitschriftenplattform E-Periodica. Anhand eines ausgewählten Korpus dieser OCR-Daten wurden mit automatisierten Verfahren Tests in den Bereichen OCR-Korrektur, Erkennung von Personen-, Orts- und Ländernamen sowie Verlinkung identifizierter Personen mit der Gemeinsamen Normdatei GND durchgeführt. Insgesamt wurden sehr positive Resultate erzielt. Das verwendete System dient nun als Grundlage für den weiteren Kompetenzausbau der ETH-Bibliothek auf diesem Gebiet. Das gesamte bestehende Angebot der Plattform E-Periodica soll automatisiert angereichert und um neue Funktionalitäten erweitert werden. Dies mit dem Ziel, Forschenden einen Mehrwert bei der Informationsbeschaffung zu bieten. Im vorliegenden Beitrag werden Projektinhalt, Methodik und Resultate erläutert sowie das weitere Vorgehen skizziert.
Literaturhinweise
- von Däniken, Pius; Cieliebak, Mark: Transfer Learning and Sentence Level Features for Named Entity Recognition on Tweets, in: The Association for Computational Linguistics (Hg.), Proceedings of the 3rd Workshop on Noisy User-generated Text, Copenhagen, Denmark, September 7, 2017, S. 166–171. Online: http://www.aclweb.org/anthology/W17-4422, Stand: 24.09.2018.
- Ebling, S; Sennrich, R; Klaper, D; Volk, Martin: Digging for names in the mountains: Combined person name recognition and reference resolution for German alpine texts, in: 5th Language & Technology Conference, Poznan, Poland, 25 November 2011 - 27 November 2011. Online: https://doi.org/10.5167/uzh-50451.
- ETH-Bibliothek Zürich (Hg.): ETH-Bibliothek Jahresbericht 2016, Zürich 2017. Online: https://doi.org/10.3929/ethz-a-004157606.
- Schmid, Helmut: TreeTagger – a part-of-speech tagger for many languages, http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/, Stand: 24.09.2018.
Veröffentlicht
Ausgabe
Rubrik
Lizenz
Copyright (c) 2018 Michael Gasser, Regina Wanger, Ismail Prada
Dieses Werk steht unter der Lizenz Creative Commons Namensnennung 4.0 International.