Seitenregionen
Auf einer Seite befinden sich verschiedene strukturell sowie inhaltliche unterschiedliche Regionen. Nachdem der Satzspiegel betrachtet oder im Erfassungslevel 3 (Struktur-GT Level) ausgezeichnet wurde, wird das Layout analysiert. Hierbei sind verschiedene Regionen zu unterscheiden und als diese auszuzeichnen:
- Textregion : TextRegion,
- Abbildungen, Fotos : ImageRegion,
- Buchschmuck, Zeichnungen : GraphicRegion,
- Trennlinien, Separatoren : SeparatorRegion,
- Tabellen : TableRegion,
- Strichzeichnungen : LineDrawingRegion,
- Karten : MapRegion
- Mathematische Formeln : MathsRegion,
- Chemische Formeln : ChemRegion,
- Noten : MusicRegion,
- Werbung : AdvertRegion und
- Schmutz, Verfärbungen, Rauschen : NoiseRegion
Wie tief ein Text erfasst werden kann klären die Erfassungs-Level.
Wichtig: Es reicht nicht aus, den kompletten Satzspiegel als eine TextRegion zu
identifizieren, sondern die Lokalisierung einzeln abgrenzbarer Blöcke ist vorzunehmen.
Damit ist
auch eine Trennung von textuellen und nicht-textuellen Segmenten klar zu erkennen.