Matthias Boenig

image.png

Seit über zwanzig Jahren beschäftige ich mich mit der Digitalisierung von Bibliotheksbeständen, wissenschaftlichen Publikationen und Forschungsdaten für die Wissenschaft. Ich habe in einem breiten Spektrum von Projekten gearbeitet. Meine Arbeit umfasst die Entwicklung und Verbesserung des elektronischen Publizierens sowie die Verwendung von XML für digitale Editionen und Forschungsdaten. Zudem habe ich die OCR-Technologie weiterentwickelt und ihre Anwendung in verschiedenen Bereichen der Geisteswissenschaften und der Archivierung historischer Dokumente unterstützt. Einige Projekte sollen hier hervorgehoben werden.

OCR-D (2015-2024): In diesem Projekt arbeitete ich an der Standardisierung und Katalogisierung von Trainingsmaterial für die automatische Text- und Strukturerkennung. Das Hauptziel dieses Projekts ist die vollständige Digitalisierung historischer Drucke vom 16. bis zum 18. Jahrhundert und damit die Ermöglichung ihrer vollständigen Texttransformation, was einen wesentlichen Beitrag zur Erhaltung und Zugänglichkeit von Kulturgütern darstellt.

Deutsches Textarchiv (DTA) (2010-2017): Das DTA bietet heute eine umfangreiche Sammlung deutschsprachiger Texte, die als Grundlage für ein Referenzkorpus des Neuhochdeutschen dienen. Sie umfasst rund 1500 Titel und zeichnet sich durch eine ausgewogene Auswahl von Texten und die Verwendung von Erstausgaben für die Digitalisierung aus. Im DTA-Projekt habe ich an der verfahrenstechnischen und technischen Umsetzung der Volltextdigitalisierung gearbeitet.

AEDIT (2012-2015): AEDIT ist eine prototypische Archiv-, Editions- und Distributionsplattform für frühneuzeitliche Werke. In diesem Repositorium sollen die Datenbestände aus Digitalisierungs- und Editionsprojekten katalogisiert, verbreitet und langfristig verfügbar gemacht werden. In diesem Projekt habe ich zusammen mit der Forschungsstelle für Personalschriften an der Philipps-Universität Marburg (Arbeitsgemeinschaft der Akademie der Wissenschaften und der Literatur, Mainz) ein Korpus von 335 Leichenpredigten digitalisiert. Im Rahmen des Projekts wurde das DTA-Basisformat für diese Textsorte aktualisiert.

ProPrint (2000-2003): ProPrint ist ein prototypischer Print-on-demand-Dienstleister. Technologisch basiert er auf dem Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). ProPrint ermöglicht die Verknüpfung von Dokumenten- und Publikationsservern und bietet die Möglichkeit, vom Nutzer ausgewählte Publikationen als Print-on-Demand-Publikationen zu bestellen.

Dissonline (1997-2000): Dieses Projekt ist auf die Online-Veröffentlichung von Dissertationen und Habilitationen spezialisiert. Es bietet eine Plattform, auf der wissenschaftliche Arbeiten digital zugänglich gemacht werden können, was die Verbreitung von und den Zugang zu Forschungsergebnissen erheblich erleichtert.

Ausgewählte Publikationen

  1. OCR-D für die Massendigitalisierung: Projektstand und Ausblick
    Lena Hinrichsen, Konstantin Baierer, Clemens Neudecker, and 2 more authors
    2023
  2. Dokument, Transkription, Forschungsdatum
    Konstantin Baierer, Matthias Boenig, Elisabeth Engl, and 5 more authors
    2022
  3. Das DTABf in der Edition: zusammenfassender Evaluationsbericht
    Bernhard Fisseni, Simon Sendler, Daniela Schulz, and 3 more authors
    2021
  4. Volltexte–die Zukunft alter Drucke: Bericht zum Abschlussworkshop des OCR-D-Projekts
    Elisabeth Engl, Konstantin Baierer, Matthias Boenig, and 2 more authors
    o-bib. Das offene Bibliotheksjournal/Herausgeber VDB, 2020
  5. OCR-D: An end-to-end open source OCR framework for historical printed documents
    Clemens Neudecker, Konstantin Baierer, Maria Federbusch, and 4 more authors
    2019
  6. Ground Truth: Grundwahrheit oder Ad-Hoc-Lösung? Wo stehen die Digital Humanities?
    Matthias Boenig, Maria Federbusch, Elisa Herrmann, and 2 more authors
    2018
  7. Über den Mehrwert der Vernetzung von OCR-Verfahren zur Erfassung von Texten des 17. Jahrhunderts.
    Matthias Boenig, Kay-Michael Würzner, Arne Binder, and 1 more author
    2016
  8. Zeitliche Verlaufskurven in den DTA-und DWDS-Korpora: Wörter und Wortverbindungen über 400 Jahre (1600-2000).
    Alexander Geyken, Matthias Boenig, Susanne Haaf, and 4 more authors
    2015
  9. Standardized Information on historical Proper Names in Digital Full Text Transcriptions. Crowdsourcing ref= s for< placeName> and< persName> tags in the corpora of the German Text Archive/Deutsches Textarchiv*
    Christian Thomas, Matthias Boenig, Alexander Geyken, and 5 more authors
    2015
  10. Mehr als schmutzige OCR’: die Aufwertungen von historischen Volltextdigitalisaten zu Forschungsdaten
    Matthias Boenig, and Alexander Geyken
    2015
  11. Historical newspapers & journals for the DTA
    Susanne Haaf, and Matthias Schulz
    Proceedings of the LREC Workshop on Language Resources and Technologies for Processing and Linking Historical Documents and Archives—Deploying Linked Open Data in Cultural Heritage (LRT4HDA), 2014