Matthias Boenig

Seit über zwanzig Jahren beschäftige ich mich mit der Digitalisierung von Bibliotheksbeständen, wissenschaftlichen Publikationen und Forschungsdaten für die Wissenschaft. Ich habe in einem breiten Spektrum von Projekten gearbeitet. Meine Arbeit umfasst die Entwicklung und Verbesserung des elektronischen Publizierens sowie die Verwendung von XML für digitale Editionen und Forschungsdaten. Zudem habe ich die OCR-Technologie weiterentwickelt und ihre Anwendung in verschiedenen Bereichen der Geisteswissenschaften und der Archivierung historischer Dokumente unterstützt. Einige Projekte sollen hier hervorgehoben werden.
OCR-D (2015-2024): In diesem Projekt arbeitete ich an der Standardisierung und Katalogisierung von Trainingsmaterial für die automatische Text- und Strukturerkennung. Das Hauptziel dieses Projekts ist die vollständige Digitalisierung historischer Drucke vom 16. bis zum 18. Jahrhundert und damit die Ermöglichung ihrer vollständigen Texttransformation, was einen wesentlichen Beitrag zur Erhaltung und Zugänglichkeit von Kulturgütern darstellt.
Deutsches Textarchiv (DTA) (2010-2017): Das DTA bietet heute eine umfangreiche Sammlung deutschsprachiger Texte, die als Grundlage für ein Referenzkorpus des Neuhochdeutschen dienen. Sie umfasst rund 1500 Titel und zeichnet sich durch eine ausgewogene Auswahl von Texten und die Verwendung von Erstausgaben für die Digitalisierung aus. Im DTA-Projekt habe ich an der verfahrenstechnischen und technischen Umsetzung der Volltextdigitalisierung gearbeitet.
AEDIT (2012-2015): AEDIT ist eine prototypische Archiv-, Editions- und Distributionsplattform für frühneuzeitliche Werke. In diesem Repositorium sollen die Datenbestände aus Digitalisierungs- und Editionsprojekten katalogisiert, verbreitet und langfristig verfügbar gemacht werden. In diesem Projekt habe ich zusammen mit der Forschungsstelle für Personalschriften an der Philipps-Universität Marburg (Arbeitsgemeinschaft der Akademie der Wissenschaften und der Literatur, Mainz) ein Korpus von 335 Leichenpredigten digitalisiert. Im Rahmen des Projekts wurde das DTA-Basisformat für diese Textsorte aktualisiert.
ProPrint (2000-2003): ProPrint ist ein prototypischer Print-on-demand-Dienstleister. Technologisch basiert er auf dem Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). ProPrint ermöglicht die Verknüpfung von Dokumenten- und Publikationsservern und bietet die Möglichkeit, vom Nutzer ausgewählte Publikationen als Print-on-Demand-Publikationen zu bestellen.
Dissonline (1997-2000): Dieses Projekt ist auf die Online-Veröffentlichung von Dissertationen und Habilitationen spezialisiert. Es bietet eine Plattform, auf der wissenschaftliche Arbeiten digital zugänglich gemacht werden können, was die Verbreitung von und den Zugang zu Forschungsergebnissen erheblich erleichtert.
Ausgewählte Publikationen
- Dokument, Transkription, Forschungsdatum2022
- Über den Mehrwert der Vernetzung von OCR-Verfahren zur Erfassung von Texten des 17. Jahrhunderts.2016
- Zeitliche Verlaufskurven in den DTA-und DWDS-Korpora: Wörter und Wortverbindungen über 400 Jahre (1600-2000).2015
- Standardized Information on historical Proper Names in Digital Full Text Transcriptions. Crowdsourcing ref= s for< placeName> and< persName> tags in the corpora of the German Text Archive/Deutsches Textarchiv*2015