Update planung authored by Lena Schiffer's avatar Lena Schiffer
......@@ -611,7 +611,7 @@ Teilaufgaben abgeschlossen:
- Lexikonerweiterung (Eigennamen)
- CLI-Unterstützung (OCR-D)
Teilaufgaben abgeschlossen:
Teilaufgaben nicht abgeschlossen:
- Reranking (also Sprachmodell) und Entscheider (gegen Überkorrektur)
- Protokollierung und Annotation
......@@ -648,7 +648,7 @@ Planung im [Github](https://github.com/tesseract-ocr/tesseract/wiki/Planning)
Verweis auf eine [Arbeit](https://arxiv.org/pdf/1802.05385.pdf) über Manipulation von Text-Scans, um (neuronale) OCR gezielt zu täuschen. Eventuell durch Training mit solchen manipulierten Bildern OCR robuster machen.
##### Entwicklung eines Modellrepositoriums für Schriftartenerkennung (Saskian Limbach, Vincent Christlein, Mathias Seuret)
##### Entwicklung eines Modellrepositoriums für Schriftartenerkennung (Saskia Limbach, Vincent Christlein, Mathias Seuret)
Stand:
- Suche nach optisch geeigneten guten Referenzdrucken läuft noch
......@@ -737,10 +737,6 @@ Außerdem war Thema, inwiefern wir ein gemeinsames (neuronales) großes *Sprachm
In PageXML in den `TextEquiv` kann man nicht mehrere alternative
Wortsegmentierungen angeben, da `Word` obligatorisch und XML hierarchisch ist.
_Würde man die Wortsegmentierung der Master-OCR übernehmen, hätte man noch
immer das Problem, dass man nicht einfach Whitespaces
innerhalb von Tags schreiben kann, da diese vom XML ignoriert werden._ (?)
Wir sind zum Schluss gekommen, dass das in PageXML nicht möglich ist, also ein anderes Format gewählt werden muß, am besten ein XML-basiertes unter Verweis auf die (Region-/Line-/Word-/Glyph-) IDs der PageXML-Annotation. Diese Annotationen könnten dann einfach zum METS hinzugefügt werden.
Alternativ könnte man stets mehrere PageXML-Dateien (eine pro OCR oder OCR-Modell) auf einmal
......
......