Sprache

Die Angabe der Sprache ist auf folgenden Ebenen möglich, die durch entsprechende Elemente repräsentiert werden.

Tabelle 1. Möglichkeiten der Sprachangabe bezogen auf Ebenen oder PAGE-XML-Elemente
Ebene Element Attribute
Seite Page @primaryLanguage und @secondaryLanguage
Region TextRegion @primaryLanguage und @secondaryLanguage
Zeile TextLine @primaryLanguage
Wort Word @language

Unterschieden wird zwischen der language (Sprache), primary language (Erst- oder Hauptsprache) und der secondary language (Zweit- oder Nebensprache). Language, primary language und secondary language sind Attribute (siehe Tabelle).

Die Werte der Attribute werden vom PAGE-XML-Schema vorgegeben. Sie entsprechen der ISO 639 zur Kennzeichnung von Sprachen. Angegeben wird nicht ein Kürzel, sondern die von der ISO normierte Sprachbezeichnung.

Merke: Da die Sprachangaben auf verschiedenen Ebenen möglich sind, gilt folgende Regelung, untergeordnete Ebenen haben Vorrang vor der Angabe der höheren Ebenen.

Page : Seite

  • <Page primaryLanguage="German" secondaryLanguage="Latin">
    Abbildung 1. Beispielseite mit zwei Sprachen. nn_auszug_1701_061.xml
    Merke: Auf dieser Seite werden nur zwei Sprachen verwendet, aus diesem Grund kann die Haupt- und Nebensprache (@primaryLanguage, @secondaryLanguage) angegeben werden.
  • <Page primaryLanguage="German">
    Abbildung 2. Beispielseite mit vier Sprachen. zesen_assenat_1670_0382.xml
    Merke: Auf dieser Seite werden vier Sprachen (Deutsch, Latein, Griechisch, Hebräisch) verwendet. Die Hauptsprache ist Deutsch, sie wird angegeben. Die weiteren Sprachen werden auf der Wort-Ebene angegeben. Wenn keine Wortsegmentierung verfügbar ist, wird empfohlen, die Angabe der Sprache im METS-Datensatz (GT-labelling) anzugeben.

TextRegion : Region

  • <TextRegion primaryLanguage="Latin">
    Abbildung 3. Textregion mit einer Sprache. nn_auszug_1701_061.xml
  • <TextRegion primaryLanguage="German" secondaryLanguage="Latin">
    Abbildung 4. Textregion mit zwei Sprachen. nn_auszug_1701_061.xml

TextLine : Zeile

  • <TextLine primaryLanguage="Latin">
    Abbildung 5. TextLine mit einer Sprache. nn_auszug_1701_061.xml
  • <TextLine primaryLanguage="Latin">
    Abbildung 6. TextLine mit zwei Sprachen. nn_auszug_1701_061.xml
    Merke: Im Beispiel ist zu sehen, dass sowohl deutschsprachige als auch lateinischsprachige Worte in der Zeile vorhanden sind. Es wird nur die Hauptsprache primaryLanguage angegeben. Die Angabe einer secondaryLanguage ist nicht möglich.

Word : Wort

<Word language="Latin">

Abbildung 7. Wort in Latein. nn_auszug_1701_061.xml