[OCR-D-Ground-Truth](http://ocr-d.de/sites/all/GTDaten/IndexGT.html) – in METS/ALTO und META/PAGE, siehe [Spezifikation für OCR-D](https://github.com/OCR-D/spec)
[OCR-D-Ground-Truth](http://ocr-d.de/sites/all/GTDaten/IndexGT.html) – in [METS](http://www.loc.gov/standards/mets)/[ALTO](https://www.loc.gov/standards/alto) und METS/[PAGE](https://github.com/OCR-D/PAGE-XML), siehe [Spezifikation für OCR-D](https://github.com/OCR-D/spec) mit weiteren Konventionen (v.a. für [METS](https://github.com/OCR-D/spec/blob/master/mets.md)) und Dateiformaten (v.a. [OCRD-ZIP](https://github.com/OCR-D/spec/blob/master/ocrd_zip.md), ein in sich geschlossenes ZIP-Archiv mit der METS-Datei als Manifest und relativen ``file://``-URLs)
historische Texte aus 16.-20. Jh. in der [TEI-P5](https://www.clarin-d.de/de/hilfe/benutzerhandbuch)-[Konkretisierung](http://www.deutschestextarchiv.de/doku/basisformat/uebersichtText.html)[DTABf](http://www.deutschestextarchiv.de/doku/basisformat/); als [Download](http://www.deutschestextarchiv.de/download) vollständige Annotation nur im [TCF-Exportformat](https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The_TCF_Format), also mit Tokenisierung, Kanonisierung, Lemmatisierung, PoS, Morphologie etc.; [Doku zu Software-Toolchain](http://www.deutsches-textarchiv.de/doku/software) und [Transkriptionsrichtlinien](http://www.deutsches-textarchiv.de/doku/basisformat/transkription.html)
...
...
@@ -57,9 +57,21 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
[fastText](https://github.com/facebookresearch/fastText) – ähnlich, aber nach [Bojanowski & Grave et al 2017](https://arxiv.org/pdf/1607.04606.pdf)
## OCR
[Tesseract](https://github.com/tesseract-ocr) und [dessen Wiki](https://github.com/tesseract-ocr/tesseract/wiki) und [dessen C++-API](https://github.com/tesseract-ocr/tesseract/tree/master/api), sowie ein [Python-Wrapper dafür](https://github.com/sirfz/tesserocr)
[Ocropy](https://github.com/tmbdev/ocropy) und [dessen Wiki](https://github.com/tmbdev/ocropy/wiki)
[PAGE-Konverter aus ALTO und FineReader Java](http://www.primaresearch.org/tools/PAGEConverterValidator) / [PAGEConverter-Repo](https://github.com/PRImA-Research-Lab/prima-page-converter)
[Empfehlungen zu Standards und Werkzeugen für laut- und schriftsprachliche Korpora (CLARIN/BBAW/IDS 2013)](http://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf)