Wenn Algorithmen Zeitschriften lesen

Vom Mehrwert automatisierter Textanreicherung

Autor*innen

DOI:

https://doi.org/10.5282/o-bib/2018H4S181-192

Schlagwörter:

Bibliothekswesen, Computerlinguistik, automatisierte Textanreicherung, Named Entity Recognition (NER), Named Entity Linking (NEL), OCR-Optimierung

Abstract

In Zusammenarbeit mit dem Institut für Computerlinguistik der Universität Zürich (ICL UZH) lancierte die ETH-Bibliothek Zürich ein Pilotprojekt im Bereich automatisierter Textanreicherung. Grundlage für den Piloten bildeten Volltextdateien der Schweizer Zeitschriftenplattform E-Periodica. Anhand eines ausgewählten Korpus dieser OCR-Daten wurden mit automatisierten Verfahren Tests in den Bereichen OCR-Korrektur, Erkennung von Personen-, Orts- und Ländernamen sowie Verlinkung identifizierter Personen mit der Gemeinsamen Normdatei GND durchgeführt. Insgesamt wurden sehr positive Resultate erzielt. Das verwendete System dient nun als Grundlage für den weiteren Kompetenzausbau der ETH-Bibliothek auf diesem Gebiet. Das gesamte bestehende Angebot der Plattform E-Periodica soll automatisiert angereichert und um neue Funktionalitäten erweitert werden. Dies mit dem Ziel, Forschenden einen Mehrwert bei der Informationsbeschaffung zu bieten. Im vorliegenden Beitrag werden Projektinhalt, Methodik und Resultate erläutert sowie das weitere Vorgehen skizziert.

Autorenbiografien

  • Michael Gasser, ETH Zürich, ETH-Bibliothek

    Leitung Archive

  • Regina Wanger, ETH Zürich, ETH-Bibliothek

    Leitung DigiCenter

Literaturhinweise

- von Däniken, Pius; Cieliebak, Mark: Transfer Learning and Sentence Level Features for Named Entity Recognition on Tweets, in: The Association for Computational Linguistics (Hg.), Proceedings of the 3rd Workshop on Noisy User-generated Text, Copenhagen, Denmark, September 7, 2017, S. 166–171. Online: http://www.aclweb.org/anthology/W17-4422, Stand: 24.09.2018.

- Ebling, S; Sennrich, R; Klaper, D; Volk, Martin: Digging for names in the mountains: Combined person name recognition and reference resolution for German alpine texts, in: 5th Language & Technology Conference, Poznan, Poland, 25 November 2011 - 27 November 2011. Online: https://doi.org/10.5167/uzh-50451.

- ETH-Bibliothek Zürich (Hg.): ETH-Bibliothek Jahresbericht 2016, Zürich 2017. Online: https://doi.org/10.3929/ethz-a-004157606.

- Schmid, Helmut: TreeTagger – a part-of-speech tagger for many languages, http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/, Stand: 24.09.2018.

Downloads

Veröffentlicht

10.12.2018

Ausgabe

Rubrik

Kongressbeiträge

Zitationsvorschlag

Gasser, M., Wanger, R., & Prada, I. (2018). Wenn Algorithmen Zeitschriften lesen: Vom Mehrwert automatisierter Textanreicherung. O-Bib. Das Offene Bibliotheksjournal Herausgeber VDB, 5(4), 181-192. https://doi.org/10.5282/o-bib/2018H4S181-192