Transkriptionsprobleme bei Inkunabeln
Unterscheidung Macron/Tilde
Unterscheidung Macron/Tilde -> wichtig, oft ist im Originaltext kaum zu erkennen, was von beiden verwendet wurde.

Lösung:
Es empfiehlt sich, die Transkription im Level zwei zu erstellen. Aus diesem Grund
wird in der Regel keine Unterscheidung vorgenommen, wenn das Zeichen mit der gleichen
Bedeutung verwendet wird. Es wird eine Zeichenkombination aus dem Graphem und in der
Regel aus einer übergestellte Tilde gebildet. Wenn eine Unterscheidung nicht möglich
ist sowie es sich in allen Fällen um ein Kürzungsstrich handelt, ist die übergestellte Tilde zu verwenden. Dazu wird der Unicode U+0303, COMBINING TILDE
genutzt
Guidelines:
Handschriftliche Anmerkungen
Sollen nachträglich angebrachte handschriftliche Anmerkungen (z. B. Seitenzahlen) aufgenommen werden?
Sollen handschriftliche Eintragungen/ neuzeitliche Seitenangaben mit aufgenommen werden?
Lösung:
Bei Druckwerken werden handschriftliche Anmerkungen als GraphicRegion type="handwritten-annotation"
gekennzeichnet.
Guidelines:
Handschriftliche Textkorrekturen
Handschriftliche Textkorrekturen mit transkribieren?
Lösung:
Bei Druckwerken werden handschriftliche Textkorrketuren in der Regel nicht transkribiert.
Zusammengesetzte Buchstaben im deutschen Text
Zusammengesetzte Buchstaben im deutschen Text (w: i+v, k: l+r-rotunda) wie transkribieren.
Lösung:
Transkription in unterschiedlichen Bedeutungszusammenhängen
Transkription, wenn ein Zeichen in unterschiedlichen Bedeutungszusammenhängen verwendet wird (z.B. z)
Lösung:
Bei der Erstellung von GT wird weitestgehend von Bedeutungszusammenhängen unabhängig transkribiert. Jedoch kann davon abgewichen werden, wenn das Trainingsmaterial:
- fĂĽr einen sehr spezielle Nutzung,
- fĂĽr eine sehr homogene Sammlung von Dokumenten/Vorlagen vorgesehen ist.
Für die Nutzung solch eines GT sollten Metadaten darauf hinweisen, dass Zeichen in unterschiedlichen Zusammenhängen transkribiert wurden.
Initiale
Initiale mit transkribieren?
Wenn Initiale Teil des ersten Wortes ist, ohne Spatium anschlieĂźen aber dennoch GroĂźbuchstabe?
Lösung
Eine Initiale ist ein Anfangsbuchstabe, der am Beginn eines Kapitels oder Abschnitts steht. Dieser Buchstaben zeichnet sich durch seinen Schmuck, Verzierung oder durch seine vollständige andersartige Gestaltung gegenüber der verwendeten Schriftart aus.

Die Initiale sollte in der Regel immer Teil des ersten Wortes sein, (Anfangsbuchstabe). Die Transkription der Initiale ist ohne Spatium anzuschlieĂźen.
Die Initiale ist mit einer spezifizierten TextRegion auszuzeichnen.
<TextRegion type="drop-capital">
Bei diesem Beispiel handelt es sich nicht um eine Initiale.

Guidelines:
Beschädigungen
Wie ist mit Wörtern umzugehen, die durch Beschädigungen der Vorlage (Löcher, Risse) unvollständig sind?
Wenn das Wort dadurch gar nicht mehr identifizierbar ist?
Lösung:
Beschädigungen der Vorlage (Löcher, Risse...) sind nicht die Regel, sondern eine Ausnahme. Damit mit dem Trainingsmaterial (GT) stabile und robust neuronale Netze trainiert werden können, ist dieses geringe Vorkommen zu beachten. Wenn Schäden transkribiert werden sollten diese wenn möglich als <NoiseRegion> ausgezeichnet werden.