Automatische Qualitätsverbesserung von Fraktur-Volltexten aus der Retrodigitalisierung am Beispiel der Zeitschrift Die Grenzboten

Manfred Nölte; Jan Paul Bultmann; Maik Schünemann; Martin Blenkle

doi:10.5282/o-bib/2016H1S32-55

Autor*innen

Manfred Nölte Staats- und Universitätsbibliothek Bremen http://orcid.org/0000-0002-8029-4162
Jan Paul Bultmann Universität Bremen
Maik Schünemann Universität Bremen http://orcid.org/0000-0002-9238-9935
Martin Blenkle Staats- und Universitätsbibliothek Bremen http://orcid.org/0000-0003-0898-3753

DOI:

https://doi.org/10.5282/o-bib/2016H1S32-55

Schlagwörter:

Digitalisierung, Retrodigitalisierung, OCR

Abstract

Den Geisteswissenschaften stehen nach und nach mehr computerbasierte Werkzeuge und Infrastrukturen der Digital Humanities zur Verfügung, für die die Existenz und weitere Erstellung von Volltext mit guter Qualität eine unabdingbare Voraussetzung ist. Der Bedarf nach qualitativ hochwertigem Volltext aus Retrodigitalisierungsprojekten steigt daher ständig an. Der zu Frakturschrift berechnete OCR-Volltext hat eine deutlich schlechtere Qualität als von Antiqua-Schrift berechneter.
Daher ist für das wissenschaftliche Arbeiten unkorrigierter und unstrukturierter OCR-Volltext von Frakturschrift häufig wertlos. Da eine bedarfsgerechte Erzeugung von Volltext in der Größenordnung
von mehreren Millionen Seiten in Bezug auf Aufwand und Kosten effizient sein sollte, wird hier eine möglichst weitgehende Automatisierung der Nachbearbeitung von OCR-Volltext vorgestellt. An der Staats- und Universitätsbibliothek Bremen (SuUB) wurde dazu ein Ansatz entwickelt, der sich durch Einfachheit auszeichnet: Eine Liste historischer bzw. dialekt- oder fachspezifischer Wortformen – eine der Voraussetzungen dieses Ansatzes – ist verhältnismäßig leicht erstellbar. Ein
effizienter Algorithmus leistet den Abgleich von hier ca. 1,7 Millionen Wortformen gegen bei der Zeitschrift Die Grenzboten knapp 80 Millionen enthaltenen Wörtern und lässt sich auf verständliche und nachvollziehbare Art und Weise parametrisieren, d.h. auf die spezifischen Eigenschaften des jeweiligen Volltextprojektes einstellen. Die erreichbaren Ergebnisse sind stark abhängig von der Ausgangsqualität des Volltextes sowie von dem Umfang und der Qualität der Liste der historischen Wortformen und dem verwendeten Fehlermodell. So können beispielsweise bestimmte Fehler nur mit einem den Kontext berücksichtigenden Ansatz korrigiert werden. Weiterhin wurde zusammen mit der Firma ProjectComputing mit Sitz in Canberra, Australien, der cloud service overProof1 um
die Funktionalität der Nachkorrektur deutschsprachiger Frakturschrift erweitert. In einem Ausblick werden Bedarfe und Möglichkeiten für die Zukunft aufgezeigt.

Gradually, the humanities are provided with a number of computer based tools and scientific infrastructures of the digital humanities. As digital full text is strongly needed for these tools and infrastructures, the demand for high-quality full texts is constantly rising. OCRed full text from Gothic typeface texts is of considerably worse quality than OCRed full text from Antiqua. The value of uncorrected and unstructured OCR full text is fairly low. As multiple millions of pages need to be processed, the method should be efficient with respect to expenditure and costs. Therefore, we introduce an almost fully automated approach for the post correction of OCR full text. The approach developed at the Staats- und Universitätsbibliothek Bremen (SuUB) is a straightforward one. One of the requirements, a list of historical word forms, was easily generated. An efficient algorithm carries out the matching of 1,7 million word forms against almost 80 million words taken from the historical journal Die Grenzboten. The parametrization of the algorithm, i.e. the adaption to the specific requirements of the full text project, is comprehensible and easy to understand. The results which can be achieved strongly depend on the initial quality of the full text, the dimension and quality of the list of historical word forms and the error model applied. For example, specific types of errors can only be corrected by taking context information into account. Furthermore, the cloud service overProof was enhanced by the ability to correct German Gothic typeset. This was done in a cooperation with the Australian company ProjectComputing. In the discussion, requirements and options for the future are presented.

Autorenbiografien

Manfred Nölte, Staats- und Universitätsbibliothek Bremen

Dezernat Digitale Dienste
Abteilung Digitale Bibliothek
Martin Blenkle, Staats- und Universitätsbibliothek Bremen

Dezernat Digitale Dienste

Literaturhinweise

Evershed, John, Kent Fitch. "Correcting noisy OCR: context beats confusion". Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage (2014) 45-51. doi:10.1145/2595188.2595200

DFG-Praxisregeln Digitalisierung. http://www.dfg.de/formulare/12_151/12_151_de.pdf

Federbusch, Maria, Christian Polzin: "Volltext via OCR – Möglichkeiten und Grenzen". Beitra¨ge aus der Staatsbibliothek zu Berlin - Preußischer Kulturbesitz (2013). http://staatsbibliothek-berlin.de/fileadmin/user_upload/zentrale_Seiten/historische_drucke/pdf/SBB_OCR_STUDIE_WEBVERSION_Final.pdf

Furrer, Lenz, Martin Volk. "Reducing OCR Errors in Gothic-Scrip Documents". ERCIM News, 86 (2011): 29-30 doi: 10.5167/uzh-49203

Kann, Bettina, Michael Hintersonnleitner. "Volltextsuche in historischen Texten - Erfahrungen aus den Projekten der Österreichischen Nationalbibliothek" BIBLIOTHEK – Forschung und Praxis 39, no. 1 (2015): 73-79 doi: 10.1515/bfp-2015-0004

Kilner, Kerry, Kent Fitch. "Discovering and Rediscovering Full Text: Unearthing and Refactoring". http://dh2015.org/abstracts/xml/KILNER_Kerry_Discovering_and_Rediscovering_Full_T/KILNER_Kerry_Discovering_and_Rediscovering_Full_Text__U.html

Mühlberger, Günter. "Digitalisierung historischer Zeitungen aus dem Blickwinkel der automatisierten Text- und Strukturerkennung (OCR)" Zeitschrift für Bibliothekswesen und Bibliographie, no. 1 (2011): doi: 10.3196/186429501158135

Sommer, Dorothea, Kay Heiligenhaus, Carola Wippermann, Manfred Pankratz. "Zeitungsdigitalisierung: eine neue Herausforderung für die ULB Halle". ABI Technik 34, no 2 (July 2014): 75–85 doi: 10.1515/abitech-2014-0013

Stäcker, Thomas. "Konversion des kulturellen Erbes für die Forschung: Volltextbeschaffung und -bereitstellung als Aufgabe der Bibliotheken" o-bib 1, no. 1 (2014): doi: 10.5282/o-bib/2014H1S220-237

Wawra, Steffen, Silke Wu¨ndrich. "OCR fu¨r Frakturschriften?". Bibliotheksdienst 33 (1999): 2110-2117

Wernersson, Maria. "Evaluation von automatisch erzeugten OCR-Daten am Beispiel der Allgemeinen Zeitung". ABI Technik 35, no. 1 (2015): 23–35 doi: 10.1515/abitech-2015-0014

Automatische Qualitätsverbesserung von Fraktur-Volltexten aus der Retrodigitalisierung am Beispiel der Zeitschrift Die Grenzboten

Autor*innen

DOI:

Schlagwörter:

Abstract

Autorenbiografien

Literaturhinweise

Downloads

Veröffentlicht

Ausgabe

Rubrik

Lizenz

Beitrag einreichen

Social Media

Informationen

Sprache

News-Feed abonnieren

Herausgegeben von
Verein Deutscher
Bibliothekarinnen und
Bibliothekare

Gehostet von
Universitätsbibliothek der
Ludwig-Maximilians-Universität
München

Automatische Qualitätsverbesserung von Fraktur-Volltexten aus der Retrodigitalisierung am Beispiel der Zeitschrift Die Grenzboten

Autor*innen

DOI:

Schlagwörter:

Abstract

Autorenbiografien

Literaturhinweise

Downloads

Veröffentlicht

Ausgabe

Rubrik

Lizenz

Beitrag einreichen

Social Media

Informationen

Sprache

News-Feed abonnieren

Herausgegeben von Verein DeutscherBibliothekarinnen und Bibliothekare

Gehostet von Universitätsbibliothek derLudwig-Maximilians-Universität München

Herausgegeben von
Verein Deutscher
Bibliothekarinnen und
Bibliothekare

Gehostet von
Universitätsbibliothek der
Ludwig-Maximilians-Universität
München