Tabellen
Die Erstellung und Einschätzung von GT der Tabellen umfasst, setzt voraus, dass vorhandene Tabellen als solche erkannt, definiert und zielorientiert transkribiert werden. Die Anwendung der Level soll helfen bedarfsgerechten GT zu erstellen oder vorhandenen GT in seiner Funktion und Anwendung einzuschätzen.
Merkmale
- an der Ausrichtung des Textes oder der Textblöcke in Zeilen (waagerecht) und Spalten (senkrecht).
- Zeilen und Spalten werden ausgerichtet.
- Zeilen und Spalten können durch Linien (Separatoren) voneinander getrennt werden, so ist ein Tabellen-Gitter sichtbar.
- der Inhalt der ersten Zeile einer Tabelle kann typographisch hervorgehoben sein und bezeichnet den Inhalt der Spalten, diese Zeile bildet in diesem Fall den Tabellenkopf und kann auch als Kopfzeile bezeichnet werden.
Zielvorstellungen und Level
Der GT mit Tabellen, kann sich nach unterschiedlichen Zielvorstellungen für den Gebrauch sowie die verwendeten Be- und Verarbeitungswerkzeuge des GT richten. Aus diesem Grund stehen unterschiedliche Level der Erfassung zur Verfügung.
Ziel | Kommentar | GT-Schwerpunkt | Separator | Level |
---|---|---|---|---|
nur Texterkennung,
|
sparse text | OCR-Training | ohne | 1 |
Texterkennung mit Kontext,
|
table detection | OCR-Training | global | 2 |
Texterkennung mit Kontext und Struktur
|
table structure | OLR-Evaluierung | global/lokal? | 3 |
Texterkennung mit Kontext und Struktur und Semantik, d.h. zus.
@header und rekursive Tabellen, sodaß jeweils
homogen (Grid ) |
full table structure | lokal-rekursiv | 4 |
Erfassung des Tabelleninhaltes
Grundsätzlich werden die Inhalte von Tabellen vorlagengetreu im Unicode-Format (Kodierung in UTF-8) des zum Zeitpunkt der Erfassung gültigen Unicode-Standards erfasst. Die Schreibung von Zeichen, die nicht auf der Tastatur abgebildet sind, erfolgt entweder
- als Unicode Hexadezimal-Entität oder Zeichen.
- ebenfalls sind die Transkriptions-Level zu beachten.
Eine Mischung von verschiedenen Unicode-Schreibungen ist zu vermeiden. Auf modernisierende Veränderungen ist zu verzichten, sowie Druckfehler sind zu übernehmen.