[OCR-D-Ground-Truth](http://ocr-d.de/sites/all/GTDaten/IndexGT.html) – in METS/ALTO und META/PAGE, siehe [Spezifikation für OCR-D](https://github.com/OCR-D/spec)
historische Texte aus 16.-20. Jh. in der [TEI-P5](https://www.clarin-d.de/de/hilfe/benutzerhandbuch)-[Konkretisierung](http://www.deutschestextarchiv.de/doku/basisformat/uebersichtText.html)[DTABf](http://www.deutschestextarchiv.de/doku/basisformat/); als [Download](http://www.deutschestextarchiv.de/download) vollständige Annotation nur im [TCF-Exportformat](https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The_TCF_Format), also mit Tokenisierung, Kanonisierung, Lemmatisierung, PoS, Morphologie etc.; [Doku zu Software-Toolchain](http://www.deutsches-textarchiv.de/doku/software) und [Transkriptionsrichtlinien](http://www.deutsches-textarchiv.de/doku/basisformat/transkription.html)
Für sehr viele Sprachen verfügbar. Interessant sind hier vor allem Alt-Griechisch und Latein.
...
...
@@ -13,9 +15,11 @@ Daten im Treebank-Format.
[Penn Parsed Corpora of Historical English](https://www.ling.upenn.edu/hist-corpora/) – Leider nicht frei verfügbar.
[Asse-Projekt](https://git.informatik.uni-leipzig.de/groups/asse-projekt) – OCR-Nachkorrektur und Klassifikation/Merging (aber nicht historisch)
## Historische Schreibweisen
Die folgenden beiden Datenbanken kamen bei der Entwicklung von CAB zum Einsatz.
Die folgenden beiden Datenbanken kamen bei der Entwicklung von [CAB](http://odo.dwds.de/~moocow/software/DTA-CAB/) zum Einsatz.
Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/98d90d8ac577648601bb84e0bdd4b1f9/Canonicalizing_Historical_Text_with_CAB__Slides_.pdf) von Bryan Jurish.
[Alignment-based Corpus der DWDS]
...
...
@@ -25,3 +29,38 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
[Empfehlungen zu Standards und Werkzeugen für laut- und schriftsprachliche Korpora (CLARIN/BBAW/IDS 2013)](http://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf)
[CLARIN-Benutzerhandbuch](https://www.clarin-d.de/de/hilfe/benutzerhandbuch), v.a. Teil II zu Formaten und Werkzeugen