Matthias Boenig

Seit über zwanzig Jahren beschäftige ich mich mit der Digitalisierung von Bibliotheksbeständen, wissenschaftlichen Publikationen und Forschungsdaten für die Wissenschaft. Ich habe in einem breiten Spektrum von Projekten gearbeitet. Meine Arbeit umfasst die Entwicklung und Verbesserung des elektronischen Publizierens sowie die Verwendung von XML für digitale Editionen und Forschungsdaten. Zudem habe ich die OCR-Technologie weiterentwickelt und ihre Anwendung in verschiedenen Bereichen der Geisteswissenschaften und der Archivierung historischer Dokumente unterstützt. Einige Projekte sollen hier hervorgehoben werden.

OCR-D (2015-2024): In diesem Projekt arbeitete ich an der Standardisierung und Katalogisierung von Trainingsmaterial für die automatische Text- und Strukturerkennung. Das Hauptziel dieses Projekts ist die vollständige Digitalisierung historischer Drucke vom 16. bis zum 18. Jahrhundert und damit die Ermöglichung ihrer vollständigen Texttransformation, was einen wesentlichen Beitrag zur Erhaltung und Zugänglichkeit von Kulturgütern darstellt.

Deutsches Textarchiv (DTA) (2010-2017): Das DTA bietet heute eine umfangreiche Sammlung deutschsprachiger Texte, die als Grundlage für ein Referenzkorpus des Neuhochdeutschen dienen. Sie umfasst rund 1500 Titel und zeichnet sich durch eine ausgewogene Auswahl von Texten und die Verwendung von Erstausgaben für die Digitalisierung aus. Im DTA-Projekt habe ich an der verfahrenstechnischen und technischen Umsetzung der Volltextdigitalisierung gearbeitet.

AEDIT (2012-2015): AEDIT ist eine prototypische Archiv-, Editions- und Distributionsplattform für frühneuzeitliche Werke. In diesem Repositorium sollen die Datenbestände aus Digitalisierungs- und Editionsprojekten katalogisiert, verbreitet und langfristig verfügbar gemacht werden. In diesem Projekt habe ich zusammen mit der Forschungsstelle für Personalschriften an der Philipps-Universität Marburg (Arbeitsgemeinschaft der Akademie der Wissenschaften und der Literatur, Mainz) ein Korpus von 335 Leichenpredigten digitalisiert. Im Rahmen des Projekts wurde das DTA-Basisformat für diese Textsorte aktualisiert.

ProPrint (2000-2003): ProPrint ist ein prototypischer Print-on-demand-Dienstleister. Technologisch basiert er auf dem Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). ProPrint ermöglicht die Verknüpfung von Dokumenten- und Publikationsservern und bietet die Möglichkeit, vom Nutzer ausgewählte Publikationen als Print-on-Demand-Publikationen zu bestellen.

Dissonline (1997-2000): Dieses Projekt ist auf die Online-Veröffentlichung von Dissertationen und Habilitationen spezialisiert. Es bietet eine Plattform, auf der wissenschaftliche Arbeiten digital zugänglich gemacht werden können, was die Verbreitung von und den Zugang zu Forschungsergebnissen erheblich erleichtert.

Ausgewählte Publikationen

Auf dem Trainingsplatz der OCR, die OCR-D-GT-Guidelines

Matthias Boenig, Lena Hinrichsen, and Konstantin Baierer

2024
OCR-D für die Massendigitalisierung: Projektstand und Ausblick

Lena Hinrichsen, Konstantin Baierer, Clemens Neudecker, and 2 more authors

2023
Dokument, Transkription, Forschungsdatum

Konstantin Baierer, Matthias Boenig, Elisabeth Engl, and 5 more authors

2022
Das DTABf in der Edition: zusammenfassender Evaluationsbericht

Bernhard Fisseni, Simon Sendler, Daniela Schulz, and 3 more authors

2021
Volltexte–die Zukunft alter Drucke: Bericht zum Abschlussworkshop des OCR-D-Projekts

Elisabeth Engl, Konstantin Baierer, Matthias Boenig, and 2 more authors

o-bib. Das offene Bibliotheksjournal/Herausgeber VDB, 2020
OCR-D: An end-to-end open source OCR framework for historical printed documents

Clemens Neudecker, Konstantin Baierer, Maria Federbusch, and 4 more authors

2019
Ground Truth: Grundwahrheit oder Ad-Hoc-Lösung? Wo stehen die Digital Humanities?

Matthias Boenig, Maria Federbusch, Elisa Herrmann, and 2 more authors

2018
Über den Mehrwert der Vernetzung von OCR-Verfahren zur Erfassung von Texten des 17. Jahrhunderts.

Matthias Boenig, Kay-Michael Würzner, Arne Binder, and 1 more author

2016
Zeitliche Verlaufskurven in den DTA-und DWDS-Korpora: Wörter und Wortverbindungen über 400 Jahre (1600-2000).

Alexander Geyken, Matthias Boenig, Susanne Haaf, and 4 more authors

2015
Standardized Information on historical Proper Names in Digital Full Text Transcriptions. Crowdsourcing ref= s for< placeName> and< persName> tags in the corpora of the German Text Archive/Deutsches Textarchiv*

Christian Thomas, Matthias Boenig, Alexander Geyken, and 5 more authors

2015
Mehr als schmutzige OCR’: die Aufwertungen von historischen Volltextdigitalisaten zu Forschungsdaten

Matthias Boenig, and Alexander Geyken

2015
Historical newspapers & journals for the DTA

Susanne Haaf, and Matthias Schulz

Proceedings of the LREC Workshop on Language Resources and Technologies for Processing and Linking Historical Documents and Archives—Deploying Linked Open Data in Cultural Heritage (LRT4HDA), 2014