Changes

Lena Schiffer · 217ec635
--- a/planung.md
+++ b/planung.md
@@ -611,7 +611,7 @@ Teilaufgaben abgeschlossen:
 - Lexikonerweiterung (Eigennamen)
 - CLI-Unterstützung (OCR-D)

-Teilaufgaben abgeschlossen:
+Teilaufgaben nicht abgeschlossen:
 - Reranking (also Sprachmodell) und Entscheider (gegen Überkorrektur)
 - Protokollierung und Annotation

@@ -648,7 +648,7 @@ Planung im [Github](https://github.com/tesseract-ocr/tesseract/wiki/Planning)

 Verweis auf eine [Arbeit](https://arxiv.org/pdf/1802.05385.pdf) über Manipulation von Text-Scans, um (neuronale) OCR gezielt zu täuschen. Eventuell durch Training mit solchen manipulierten Bildern OCR robuster machen.

-##### Entwicklung eines Modellrepositoriums für Schriftartenerkennung (Saskian Limbach, Vincent Christlein, Mathias Seuret)
+##### Entwicklung eines Modellrepositoriums für Schriftartenerkennung (Saskia Limbach, Vincent Christlein, Mathias Seuret)

 Stand:
 - Suche nach optisch geeigneten guten Referenzdrucken läuft noch
@@ -737,10 +737,6 @@ Außerdem war Thema, inwiefern wir ein gemeinsames (neuronales) großes *Sprachm
 In PageXML in den `TextEquiv` kann man nicht mehrere alternative
 Wortsegmentierungen angeben, da `Word` obligatorisch und XML hierarchisch ist.

-_Würde man die Wortsegmentierung der Master-OCR übernehmen, hätte man noch
-immer das Problem, dass man nicht einfach Whitespaces
-innerhalb von Tags schreiben kann, da diese vom XML ignoriert werden._ (?)
-
 Wir sind zum Schluss gekommen, dass das in PageXML nicht möglich ist, also ein anderes Format gewählt werden muß, am besten ein XML-basiertes unter Verweis auf die (Region-/Line-/Word-/Glyph-) IDs der PageXML-Annotation. Diese Annotationen könnten dann einfach zum METS hinzugefügt werden.

 Alternativ könnte man stets mehrere PageXML-Dateien (eine pro OCR oder OCR-Modell) auf einmal