📜 OCR-D-GT-Ruleset

OCR-D-GT-Ruleset Transkription

Das OCR-D-GT-Ruleset Transkription ist ein Regelsatz, der verschiedene Schreibweisen von Buchstaben in verschiedenen Level der Transkription dokumentiert. Es sind drei Level vorgesehen:
  • Die erste Spalte enthält die Schreibweise, die spezifische drucktechnische Aspekte und typographischen Besonderheiten nicht beachten (Level 1).
  • die zweite Spalte enthält die Schreibweise, die Drucktechnischen Gegebenheiten wiedergeben und eine Interpretation von Zeichen orientiert sich am Gebrauch im Sprach- und Schriftsystem (Level 2).
  • die dritte Spalte enthält die Schreibweise, die eine Interpretation von Graphen vollständig unterlässt. Der Graph wird als ein Codepoint unter Nutzung von standardisierten Kodierungen (Unicode), communitynormierten Kodierungen (MUFI) und durch das Koordinierungsgremium festgelegten Kodierungen abgebildet (Level 3).
Das Ruleset im Json-Format:
{"ruleset":[
             {"rule": ["a","a","a"], "type": "level"},
             {"rule": ["aa","ã","ã"], "type": "level"},
             {"rule": ["e","e","e"], "type": "level"}
            ]
}
Das Ruleset im XML-Format:
<levelrules>
  <ruleset>
    <range>AlphPresForm</range>
    <rule>ff</rule>
    <rule>ff</rule>
    <rule></rule>
    <type>level</type>
  </ruleset>
</levelrules>
Das Element <range> ist ein optionales Element. In den Rulesets, die auf dem MUFI Datenset basieren ist dieses Element zu finden.