OCR-D

Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR-D)

Information

Antragsteller:
  • PD Dr. Alexander Geyken, seit 12/2015
  • Professor Dr. Martin Grötschel, seit 12/2015
  • Professor Dr. Günter Stock, bis 12/2015
  • Professor Dr. Helwig Schmidt-Glintzer, bis 8/2016
  • Dr. Klaus Ceynowa, bis 11/2016
  • Professor Dr. Peter Burschel, seit 8/2016
  • Barbara Schneider-Kempf, seit 11/2016
  • Dr. Rainer Stotzka, bis 2020
Fachliche Zuordnung: Datenmanagement, OCR, Digitalisierung
Förderung: Förderung von 2015 bis 2024
Projektkennung: Deutsche Forschungsgemeinschaft (DFG) - Projektnummer: 274863866; 409784275; 460675868
Institution:
  • Bayerische Staatsbibliothek München
  • Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
  • Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen
  • Herzog August Bibliothek Wolfenbüttel
  • Karlsruher Institut für Technologie/Steinbuch Centre for Computing
  • Niedersächsische Staats- und Universitätsbibliothek Göttingen
  • Staatsbibliothek zu Berlin Preußischer Kulturbesitz

Beschreibung

Hauptziel des Projekt OCR-D ist die konzeptionelle und technische Vorbereitung der Volltexttransformation der VD. Die Aufgabe der automatischen Volltexterkennung wird in ihre einzelnen Prozessschritte zerlegt, die in der Open Source OCR-D-Software nachvollzogen werden können. Dies ermöglicht es, optimale Workflows für die zu prozessierenden alten Drucke zu erstellen und damit wissenschaftlich verwertbare Volltexte zu generieren.

Das Projekt OCR-D wurde in drei Projektphasen bearbeitet: Konzeptions-, Modul- und Stabilisierungsphase. In der ersten Phase wurden die Entwicklungsbedarfe erhoben, die in der zweiten Phase unter Anleitung des Koordinierungsprojekts von acht Modulprojekten bearbeitet wurden. In der Stabilisierungsphase ab April 2021 wurden die Ergebnisse der Modulprojekte konsolidiert und in einen produktiven Einsatz überführt. So soll die praktische und konzeptionelle Vorbereitung für die automatische Generierung von Volltexten für die Verzeichnisse der im deutschen Sprachraum erschienenen Drucke des 16., 17. und 18. Jahrhunderts realisiert werden.

Das Koordinierungsprojekt bietet:

  • eine dauerhafte Betreuung und Weiterentwicklung der OCR-D-Software,
  • die Ergebnisse der Implementierungsarbeiten, die stabilen für die Massendigitalisierung einsatzbereite OCR-D-Lösungen erarbeiteten,
  • die Vermittlung und Verfügbarkeit der Software für einen breiten Kreis von Nutzerinnen.

Beispiele

OCR-D Funktionsmodell und OCR-D GT-Guidelines