Update Ressourcen authored by Robert Sachunsky's avatar Robert Sachunsky
## Referenzkorpora
[OCR-D-Ground-Truth](http://ocr-d.de/sites/all/GTDaten/IndexGT.html) – in METS/ALTO und META/PAGE, siehe [Spezifikation für OCR-D](https://github.com/OCR-D/spec)
[Deutsches Textarchiv](http://www.deutschestextarchiv.de)
TEI/P5-XML-Format
historische Texte aus 16.-20. Jh. in der [TEI-P5](https://www.clarin-d.de/de/hilfe/benutzerhandbuch)-[Konkretisierung](http://www.deutschestextarchiv.de/doku/basisformat/uebersichtText.html) [DTABf](http://www.deutschestextarchiv.de/doku/basisformat/); als [Download](http://www.deutschestextarchiv.de/download) vollständige Annotation nur im [TCF-Exportformat](https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The_TCF_Format), also mit Tokenisierung, Kanonisierung, Lemmatisierung, PoS, Morphologie etc.; [Doku zu Software-Toolchain](http://www.deutsches-textarchiv.de/doku/software) und [Transkriptionsrichtlinien](http://www.deutsches-textarchiv.de/doku/basisformat/transkription.html)
[Universal Dependencies](http://universaldependencies.org/)
Für sehr viele Sprachen verfügbar. Interessant sind hier vor allem Alt-Griechisch und Latein.
......@@ -13,9 +15,11 @@ Daten im Treebank-Format.
[Penn Parsed Corpora of Historical English](https://www.ling.upenn.edu/hist-corpora/) – Leider nicht frei verfügbar.
[Asse-Projekt](https://git.informatik.uni-leipzig.de/groups/asse-projekt) – OCR-Nachkorrektur und Klassifikation/Merging (aber nicht historisch)
## Historische Schreibweisen
Die folgenden beiden Datenbanken kamen bei der Entwicklung von CAB zum Einsatz.
Die folgenden beiden Datenbanken kamen bei der Entwicklung von [CAB](http://odo.dwds.de/~moocow/software/DTA-CAB/) zum Einsatz.
Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/98d90d8ac577648601bb84e0bdd4b1f9/Canonicalizing_Historical_Text_with_CAB__Slides_.pdf) von Bryan Jurish.
[Alignment-based Corpus der DWDS]
......@@ -25,3 +29,38 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
[Online Error Database für CAB]
(http://kaskade.dwds.de/demo/caberr/)
[als Webdienst](http://www.deutschestextarchiv.de/cab/)
## Sonstige Werkzeuge
[Repos für OCR-D](https://github.com/OCR-D)
[Empfehlungen zu Standards und Werkzeugen für laut- und schriftsprachliche Korpora (CLARIN/BBAW/IDS 2013)](http://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf)
[CLARIN-Benutzerhandbuch](https://www.clarin-d.de/de/hilfe/benutzerhandbuch), v.a. Teil II zu Formaten und Werkzeugen
[ASV-Toolkit](https://www.inf.uni-hamburg.de/en/inst/ab/lt/resources/software/asvtoolbox.html)
[Wortschatz-Toolchain](https://git.informatik.uni-leipzig.de/wortschatz/toolchain)
[WASTE](http://kaskade.dwds.de/waste/) – HMM-Tokeniser für historische Texte (DTA)
[OpenGrm-Bibliothek](http://www.openfst.org/twiki/bin/view/GRM/NGramLibrary) – Polygramm-Modelle in OpenFST
[HMM-Toolkit](http://htk.eng.cam.ac.uk/) und [HTK-Tutorial](http://www.speech.kth.se/~matsb/speech_rec_course_2003/htk_tutorial.pdf)
[SRI Language-Modelling-Toolkit](http://www.speech.sri.com/projects/srilm/)
[Linguistica](https://github.com/linguistica-uchicago/lxa5) – stochastische (unüberwachte) morphologische Wortsegmentierung und Analyse (Allomorphie)
[Morfessor 2.0](https://github.com/aalto-speech/morfessor) – stochastische (semi-unüberwachte) morphologische Wortsegmentierung
[Morle](https://git.informatik.uni-leipzig.de/sumalvico/morle) – stochastische (semi-überwachte) morphologische Wortsegmentierung
[TAGH-Morphologie](http://www.tagh.de/) – linguistisch-grammatikalische morphologische Wortanalyse
[HOCR-Tools](https://code.google.com/p/hocr-tools/)
[Apache OpenNLP](http://opennlp.apache.org/)
[NLTK](http://nltk.org/)