- Reranking (also Sprachmodell) und Entscheider (gegen Überkorrektur)
- Reranking (also Sprachmodell) und Entscheider (gegen Überkorrektur)
- Protokollierung und Annotation
- Protokollierung und Annotation
...
@@ -648,7 +648,7 @@ Planung im [Github](https://github.com/tesseract-ocr/tesseract/wiki/Planning)
...
@@ -648,7 +648,7 @@ Planung im [Github](https://github.com/tesseract-ocr/tesseract/wiki/Planning)
Verweis auf eine [Arbeit](https://arxiv.org/pdf/1802.05385.pdf) über Manipulation von Text-Scans, um (neuronale) OCR gezielt zu täuschen. Eventuell durch Training mit solchen manipulierten Bildern OCR robuster machen.
Verweis auf eine [Arbeit](https://arxiv.org/pdf/1802.05385.pdf) über Manipulation von Text-Scans, um (neuronale) OCR gezielt zu täuschen. Eventuell durch Training mit solchen manipulierten Bildern OCR robuster machen.
##### Entwicklung eines Modellrepositoriums für Schriftartenerkennung (Saskian Limbach, Vincent Christlein, Mathias Seuret)
##### Entwicklung eines Modellrepositoriums für Schriftartenerkennung (Saskia Limbach, Vincent Christlein, Mathias Seuret)
Stand:
Stand:
- Suche nach optisch geeigneten guten Referenzdrucken läuft noch
- Suche nach optisch geeigneten guten Referenzdrucken läuft noch
...
@@ -737,10 +737,6 @@ Außerdem war Thema, inwiefern wir ein gemeinsames (neuronales) großes *Sprachm
...
@@ -737,10 +737,6 @@ Außerdem war Thema, inwiefern wir ein gemeinsames (neuronales) großes *Sprachm
In PageXML in den `TextEquiv` kann man nicht mehrere alternative
In PageXML in den `TextEquiv` kann man nicht mehrere alternative
Wortsegmentierungen angeben, da `Word` obligatorisch und XML hierarchisch ist.
Wortsegmentierungen angeben, da `Word` obligatorisch und XML hierarchisch ist.
_Würde man die Wortsegmentierung der Master-OCR übernehmen, hätte man noch
immer das Problem, dass man nicht einfach Whitespaces
innerhalb von Tags schreiben kann, da diese vom XML ignoriert werden._ (?)
Wir sind zum Schluss gekommen, dass das in PageXML nicht möglich ist, also ein anderes Format gewählt werden muß, am besten ein XML-basiertes unter Verweis auf die (Region-/Line-/Word-/Glyph-) IDs der PageXML-Annotation. Diese Annotationen könnten dann einfach zum METS hinzugefügt werden.
Wir sind zum Schluss gekommen, dass das in PageXML nicht möglich ist, also ein anderes Format gewählt werden muß, am besten ein XML-basiertes unter Verweis auf die (Region-/Line-/Word-/Glyph-) IDs der PageXML-Annotation. Diese Annotationen könnten dann einfach zum METS hinzugefügt werden.
Alternativ könnte man stets mehrere PageXML-Dateien (eine pro OCR oder OCR-Modell) auf einmal
Alternativ könnte man stets mehrere PageXML-Dateien (eine pro OCR oder OCR-Modell) auf einmal