📜 OCR-D-GT-Ruleset
OCR-D-GT-Ruleset Transkription
Das OCR-D-GT-Ruleset Transkription ist ein Regelsatz, der verschiedene Schreibweisen
von Buchstaben
in verschiedenen Level der Transkription dokumentiert. Es sind drei Level
vorgesehen:
- Die erste Spalte enthält die Schreibweise, die spezifische drucktechnische Aspekte und typographischen Besonderheiten nicht beachten (Level 1).
- die zweite Spalte enthält die Schreibweise, die Drucktechnischen Gegebenheiten wiedergeben und eine Interpretation von Zeichen orientiert sich am Gebrauch im Sprach- und Schriftsystem (Level 2).
- die dritte Spalte enthält die Schreibweise, die eine Interpretation von Graphen vollständig unterlässt. Der Graph wird als ein Codepoint unter Nutzung von standardisierten Kodierungen (Unicode), communitynormierten Kodierungen (MUFI) und durch das Koordinierungsgremium festgelegten Kodierungen abgebildet (Level 3).
Das Ruleset im Json-Format:
{"ruleset":[
{"rule": ["a","a","a"], "type": "level"},
{"rule": ["aa","ã","ã"], "type": "level"},
{"rule": ["e","e","e"], "type": "level"}
]
}
Das Ruleset im XML-Format:
<levelrules>
<ruleset>
<range>AlphPresForm</range>
<rule>ff</rule>
<rule>ff</rule>
<rule>ff</rule>
<type>level</type>
</ruleset>
</levelrules>
Das Element <range>
ist ein optionales
Element. In den Rulesets, die auf dem MUFI Datenset basieren ist dieses Element zu
finden.Rulesets:
Rulesetformat: