Changes

Maciej Sumalvico · abd12493
--- a/planung.md
+++ b/planung.md
@@ -1015,7 +1015,7 @@ Metadaten auf Wortebene (also v.a. Schriftart und -form) wären nützlich, sind
 Zeichensatz als zusätzlichen Parameter im OCR-Wrapper, den die OCR-Engine nutzen kann?

 Richtlinie zur Kodierung mit Unicode ist Normalform für Kanonische Komposition (NFC), also keine Dekomposition
-(z.B. "ü" vs "ü"), aber unklar ob auch Kompatibilität (NFKC), denn GT-Transkriptionsrichtlinien differenzieren dort (z.B. bei Ligaturen ja (Reproduktion durch Textsatzregeln), bei "ſ=s" nein, Blackletter und Superskript ja (Reproduktion durch Fontmerkmale)).
+(z.B. "ü" vs "ü"), aber unklar ob auch Kompatibilität (NFKC), denn GT-Transkriptionsrichtlinien differenzieren dort (z.B. bei Ligaturen ja (Reproduktion durch Textsatzregeln), bei "ſ=s" nein, Blackletter und Superskript ja (Reproduktion durch Fontmerkmale)).

 `char_blacklist` und `char_whitelist` bisher nur mit Modellen aus Tesseract 3 (nicht LSTMs), entweder in Tesseract nachholen oder in Wrapper realisieren (bei Wahl des Schriftmodells oder gezielt beim Decoding).

@@ -1086,3 +1086,14 @@ Wir bauen zunächst einen echten Datensatz zu Demozwecken auf. Wir probieren dif
 Für die Repos wird ein eindeutiger Maintainer bestimmt (`cor-asv-fst`: Maciej,
 `cor-asv-ann`: Robert), der als einzige Person direkte Commits macht. Der
 jeweils andere schlägt Änderungen über Pull Requests vor.
+
+### 9. Mai (mit Prof. Heyer)
+
+#### Aufgaben von Maciej (cor-asv-fst)
+
+- PageXML-Schnittstelle zum Laufen bringen
+- [Wikiseite](evaluierung-fst): aktuelle Evaluierung
+- Anforderungen auf die Dokumentation erfüllen
+- N-Gramm-Sprachmodell
+- ST-Fehlermodell aktualisieren (Umstieg auf Pynini, Performanzoptimierung von Training, parameter tuning)
+- ein besseres Modell für OOV-Wörter im Lexikon (statt fester Kosten pro Zeichen)
\ No newline at end of file