@@ -1015,7 +1015,7 @@ Metadaten auf Wortebene (also v.a. Schriftart und -form) wären nützlich, sind
...
@@ -1015,7 +1015,7 @@ Metadaten auf Wortebene (also v.a. Schriftart und -form) wären nützlich, sind
Zeichensatz als zusätzlichen Parameter im OCR-Wrapper, den die OCR-Engine nutzen kann?
Zeichensatz als zusätzlichen Parameter im OCR-Wrapper, den die OCR-Engine nutzen kann?
Richtlinie zur Kodierung mit Unicode ist Normalform für Kanonische Komposition (NFC), also keine Dekomposition
Richtlinie zur Kodierung mit Unicode ist Normalform für Kanonische Komposition (NFC), also keine Dekomposition
(z.B. "ü" vs "ü"), aber unklar ob auch Kompatibilität (NFKC), denn GT-Transkriptionsrichtlinien differenzieren dort (z.B. bei Ligaturen ja (Reproduktion durch Textsatzregeln), bei "ſ=s" nein, Blackletter und Superskript ja (Reproduktion durch Fontmerkmale)).
(z.B. "ü" vs "ü"), aber unklar ob auch Kompatibilität (NFKC), denn GT-Transkriptionsrichtlinien differenzieren dort (z.B. bei Ligaturen ja (Reproduktion durch Textsatzregeln), bei "ſ=s" nein, Blackletter und Superskript ja (Reproduktion durch Fontmerkmale)).
`char_blacklist` und `char_whitelist` bisher nur mit Modellen aus Tesseract 3 (nicht LSTMs), entweder in Tesseract nachholen oder in Wrapper realisieren (bei Wahl des Schriftmodells oder gezielt beim Decoding).
`char_blacklist` und `char_whitelist` bisher nur mit Modellen aus Tesseract 3 (nicht LSTMs), entweder in Tesseract nachholen oder in Wrapper realisieren (bei Wahl des Schriftmodells oder gezielt beim Decoding).
...
@@ -1086,3 +1086,14 @@ Wir bauen zunächst einen echten Datensatz zu Demozwecken auf. Wir probieren dif
...
@@ -1086,3 +1086,14 @@ Wir bauen zunächst einen echten Datensatz zu Demozwecken auf. Wir probieren dif
Für die Repos wird ein eindeutiger Maintainer bestimmt (`cor-asv-fst`: Maciej,
Für die Repos wird ein eindeutiger Maintainer bestimmt (`cor-asv-fst`: Maciej,
`cor-asv-ann`: Robert), der als einzige Person direkte Commits macht. Der
`cor-asv-ann`: Robert), der als einzige Person direkte Commits macht. Der
jeweils andere schlägt Änderungen über Pull Requests vor.
jeweils andere schlägt Änderungen über Pull Requests vor.