Update planung authored by Lena Schiffer's avatar Lena Schiffer
...@@ -39,6 +39,28 @@ u.g. priorisieren... ...@@ -39,6 +39,28 @@ u.g. priorisieren...
1. Reproduktion/Vergleich Asse-Toolchain und DTA-Toolchain 1. Reproduktion/Vergleich Asse-Toolchain und DTA-Toolchain
1. OCR-Toolchain(s) auf GT-Daten, damit weitere Fehlermodelle erzeugen 1. OCR-Toolchain(s) auf GT-Daten, damit weitere Fehlermodelle erzeugen
| | induktiv | transduktiv |
|-------------|----------------------|---------------------------------------------|
| überwacht | 1) mit FST | |
| | 2) mit RNN | |
| unüberwacht | 3) Denoising mit RNN | 4) Fehlermodell mittels EM |
Für jedes der Experimente Tests auf
1. den Asse-Daten
1. den DTA-Daten
durchführen und auch auf den jeweils anderen Daten testen.
1. erste Tests auf Asse-Daten durchgeführt, Verbesserung der Performanz notwendig
1. überwachtes Training mit echten Fehlerdaten, Umfang der Asse-Daten vermutlich zu gering für sinnvolle Ergebnisse
1. Erzeugung von künstlichen Trainingsdaten durch absichtliches Verrauschen, siehe D'hondt et al. (2017)
1. Fehlermodell pro Dokument mittels Expectation Maximization (EM) anpassen
zu 2. + 3. Versuche zu
1. Grapheingabe (Aggregation von Pfaden, Pruning von Pfaden)
1. Baumausgabe (Sequence-to-Sequence mit Beam Search)
## Erledigt ## Erledigt
1. im Antrag referenzierte Arbeiten 1. im Antrag referenzierte Arbeiten
... ...
......