Matthias Boenig

Seit über zwanzig Jahren beschäftige ich mich mit der Digitalisierung von Bibliotheksbeständen, wissenschaftlichen Publikationen und Forschungsdaten für die Wissenschaft. Ich habe in einem breiten Spektrum von Projekten gearbeitet. Meine Arbeit umfasst die Entwicklung und Verbesserung des elektronischen Publizierens sowie die Verwendung von XML für digitale Editionen und Forschungsdaten. Zudem habe ich die OCR-Technologie weiterentwickelt und ihre Anwendung in verschiedenen Bereichen der Geisteswissenschaften und der Archivierung historischer Dokumente unterstützt. Einige Projekte sollen hier hervorgehoben werden.
OCR-D (2015-2024): In diesem Projekt arbeitete ich an der Standardisierung und Katalogisierung von Trainingsmaterial für die automatische Text- und Strukturerkennung. Das Hauptziel dieses Projekts ist die vollständige Digitalisierung historischer Drucke vom 16. bis zum 18. Jahrhundert und damit die Ermöglichung ihrer vollständigen Texttransformation, was einen wesentlichen Beitrag zur Erhaltung und Zugänglichkeit von Kulturgütern darstellt.
Deutsches Textarchiv (DTA) (2010-2017): Das DTA bietet heute eine umfangreiche Sammlung deutschsprachiger Texte, die als Grundlage für ein Referenzkorpus des Neuhochdeutschen dienen. Sie umfasst rund 1500 Titel und zeichnet sich durch eine ausgewogene Auswahl von Texten und die Verwendung von Erstausgaben für die Digitalisierung aus. Im DTA-Projekt habe ich an der verfahrenstechnischen und technischen Umsetzung der Volltextdigitalisierung gearbeitet.
AEDIT (2012-2015): AEDIT ist eine prototypische Archiv-, Editions- und Distributionsplattform für frühneuzeitliche Werke. In diesem Repositorium sollen die Datenbestände aus Digitalisierungs- und Editionsprojekten katalogisiert, verbreitet und langfristig verfügbar gemacht werden. In diesem Projekt habe ich zusammen mit der Forschungsstelle für Personalschriften an der Philipps-Universität Marburg (Arbeitsgemeinschaft der Akademie der Wissenschaften und der Literatur, Mainz) ein Korpus von 335 Leichenpredigten digitalisiert. Im Rahmen des Projekts wurde das DTA-Basisformat für diese Textsorte aktualisiert.
ProPrint (2000-2003): ProPrint ist ein prototypischer Print-on-demand-Dienstleister. Technologisch basiert er auf dem Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). ProPrint ermöglicht die Verknüpfung von Dokumenten- und Publikationsservern und bietet die Möglichkeit, vom Nutzer ausgewählte Publikationen als Print-on-Demand-Publikationen zu bestellen.
Dissonline (1997-2000): Dieses Projekt ist auf die Online-Veröffentlichung von Dissertationen und Habilitationen spezialisiert. Es bietet eine Plattform, auf der wissenschaftliche Arbeiten digital zugänglich gemacht werden können, was die Verbreitung von und den Zugang zu Forschungsergebnissen erheblich erleichtert.
Ausgewählte Publikationen
- OCR-D für die Massendigitalisierung: Projektstand und Ausblick2023
- Dokument, Transkription, Forschungsdatum2022
- Das DTABf in der Edition: zusammenfassender Evaluationsbericht2021
- Volltexte–die Zukunft alter Drucke: Bericht zum Abschlussworkshop des OCR-D-Projektso-bib. Das offene Bibliotheksjournal/Herausgeber VDB, 2020
- OCR-D: An end-to-end open source OCR framework for historical printed documents2019
- Ground Truth: Grundwahrheit oder Ad-Hoc-Lösung? Wo stehen die Digital Humanities?2018
- Über den Mehrwert der Vernetzung von OCR-Verfahren zur Erfassung von Texten des 17. Jahrhunderts.2016
- Zeitliche Verlaufskurven in den DTA-und DWDS-Korpora: Wörter und Wortverbindungen über 400 Jahre (1600-2000).2015
- Standardized Information on historical Proper Names in Digital Full Text Transcriptions. Crowdsourcing ref= s for< placeName> and< persName> tags in the corpora of the German Text Archive/Deutsches Textarchiv*2015
- Mehr als schmutzige OCR’: die Aufwertungen von historischen Volltextdigitalisaten zu Forschungsdaten2015
- Historical newspapers & journals for the DTAProceedings of the LREC Workshop on Language Resources and Technologies for Processing and Linking Historical Documents and Archives—Deploying Linked Open Data in Cultural Heritage (LRT4HDA), 2014