Wenn Algorithmen Zeitschriften lesen Vom Mehrwert automatisierter Textanreicherung

Hauptsächlicher Artikelinhalt

Michael Gasser
Regina Wanger
Ismail Prada

Abstract

In Zusammenarbeit mit dem Institut für Computerlinguistik der Universität Zürich (ICL UZH) lancierte die ETH-Bibliothek Zürich ein Pilotprojekt im Bereich automatisierter Textanreicherung. Grundlage für den Piloten bildeten Volltextdateien der Schweizer Zeitschriftenplattform E-Periodica. Anhand eines ausgewählten Korpus dieser OCR-Daten wurden mit automatisierten Verfahren Tests in den Bereichen OCR-Korrektur, Erkennung von Personen-, Orts- und Ländernamen sowie Verlinkung identifizierter Personen mit der Gemeinsamen Normdatei GND durchgeführt. Insgesamt wurden sehr positive Resultate erzielt. Das verwendete System dient nun als Grundlage für den weiteren Kompetenzausbau der ETH-Bibliothek auf diesem Gebiet. Das gesamte bestehende Angebot der Plattform E-Periodica soll automatisiert angereichert und um neue Funktionalitäten erweitert werden. Dies mit dem Ziel, Forschenden einen Mehrwert bei der Informationsbeschaffung zu bieten. Im vorliegenden Beitrag werden Projektinhalt, Methodik und Resultate erläutert sowie das weitere Vorgehen skizziert.

Artikel-Details

Zitationsvorschlag
Gasser, M., Wanger, R., & Prada, I. (2018). Wenn Algorithmen Zeitschriften lesen. O-Bib. Das Offene Bibliotheksjournal / Herausgeber VDB, 5(4), 181-192. https://doi.org/10.5282/o-bib/2018H4S181-192
Rubrik
Kongressbeiträge
Autor/innen-Biografien

Michael Gasser, ETH Zürich, ETH-Bibliothek

Leitung Archive

Regina Wanger, ETH Zürich, ETH-Bibliothek

Leitung DigiCenter

Literaturhinweise

- von Däniken, Pius; Cieliebak, Mark: Transfer Learning and Sentence Level Features for Named Entity Recognition on Tweets, in: The Association for Computational Linguistics (Hg.), Proceedings of the 3rd Workshop on Noisy User-generated Text, Copenhagen, Denmark, September 7, 2017, S. 166–171. Online: , Stand: 24.09.2018.

- Ebling, S; Sennrich, R; Klaper, D; Volk, Martin: Digging for names in the mountains: Combined person name recognition and reference resolution for German alpine texts, in: 5th Language & Technology Conference, Poznan, Poland, 25 November 2011 - 27 November 2011. Online: .

- ETH-Bibliothek Zürich (Hg.): ETH-Bibliothek Jahresbericht 2016, Zürich 2017. Online: .

- Schmid, Helmut: TreeTagger – a part-of-speech tagger for many languages, , Stand: 24.09.2018.