@@ -1015,7 +1015,7 @@ Metadaten auf Wortebene (also v.a. Schriftart und -form) wären nützlich, sind
Zeichensatz als zusätzlichen Parameter im OCR-Wrapper, den die OCR-Engine nutzen kann?
Richtlinie zur Kodierung mit Unicode ist Normalform für Kanonische Komposition (NFC), also keine Dekomposition
(z.B. "ü" vs "ü"), aber unklar ob auch Kompatibilität (NFKC), denn GT-Transkriptionsrichtlinien differenzieren dort (z.B. bei Ligaturen ja (Reproduktion durch Textsatzregeln), bei "ſ=s" nein, Blackletter und Superskript ja (Reproduktion durch Fontmerkmale)).
(z.B. "ü" vs "ü"), aber unklar ob auch Kompatibilität (NFKC), denn GT-Transkriptionsrichtlinien differenzieren dort (z.B. bei Ligaturen ja (Reproduktion durch Textsatzregeln), bei "ſ=s" nein, Blackletter und Superskript ja (Reproduktion durch Fontmerkmale)).
`char_blacklist` und `char_whitelist` bisher nur mit Modellen aus Tesseract 3 (nicht LSTMs), entweder in Tesseract nachholen oder in Wrapper realisieren (bei Wahl des Schriftmodells oder gezielt beim Decoding).
...
...
@@ -1086,3 +1086,14 @@ Wir bauen zunächst einen echten Datensatz zu Demozwecken auf. Wir probieren dif
Für die Repos wird ein eindeutiger Maintainer bestimmt (`cor-asv-fst`: Maciej,
`cor-asv-ann`: Robert), der als einzige Person direkte Commits macht. Der
jeweils andere schlägt Änderungen über Pull Requests vor.