Update planung authored by Maciej Sumalvico's avatar Maciej Sumalvico
......@@ -1015,7 +1015,7 @@ Metadaten auf Wortebene (also v.a. Schriftart und -form) wären nützlich, sind
Zeichensatz als zusätzlichen Parameter im OCR-Wrapper, den die OCR-Engine nutzen kann?
Richtlinie zur Kodierung mit Unicode ist Normalform für Kanonische Komposition (NFC), also keine Dekomposition
(z.B. "" vs "ü"), aber unklar ob auch Kompatibilität (NFKC), denn GT-Transkriptionsrichtlinien differenzieren dort (z.B. bei Ligaturen ja (Reproduktion durch Textsatzregeln), bei "ſ=s" nein, Blackletter und Superskript ja (Reproduktion durch Fontmerkmale)).
(z.B. "ü" vs "ü"), aber unklar ob auch Kompatibilität (NFKC), denn GT-Transkriptionsrichtlinien differenzieren dort (z.B. bei Ligaturen ja (Reproduktion durch Textsatzregeln), bei "ſ=s" nein, Blackletter und Superskript ja (Reproduktion durch Fontmerkmale)).
`char_blacklist` und `char_whitelist` bisher nur mit Modellen aus Tesseract 3 (nicht LSTMs), entweder in Tesseract nachholen oder in Wrapper realisieren (bei Wahl des Schriftmodells oder gezielt beim Decoding).
......@@ -1086,3 +1086,14 @@ Wir bauen zunächst einen echten Datensatz zu Demozwecken auf. Wir probieren dif
Für die Repos wird ein eindeutiger Maintainer bestimmt (`cor-asv-fst`: Maciej,
`cor-asv-ann`: Robert), der als einzige Person direkte Commits macht. Der
jeweils andere schlägt Änderungen über Pull Requests vor.
### 9. Mai (mit Prof. Heyer)
#### Aufgaben von Maciej (cor-asv-fst)
- PageXML-Schnittstelle zum Laufen bringen
- [Wikiseite](evaluierung-fst): aktuelle Evaluierung
- Anforderungen auf die Dokumentation erfüllen
- N-Gramm-Sprachmodell
- ST-Fehlermodell aktualisieren (Umstieg auf Pynini, Performanzoptimierung von Training, parameter tuning)
- ein besseres Modell für OOV-Wörter im Lexikon (statt fester Kosten pro Zeichen)
\ No newline at end of file