Changes

Robert Sachunsky · 41a38bb1
--- a/Ressourcen.md
+++ b/Ressourcen.md
 ##  Referenzkorpora

+[OCR-D-Ground-Truth](http://ocr-d.de/sites/all/GTDaten/IndexGT.html) – in METS/ALTO und META/PAGE, siehe [Spezifikation für OCR-D](https://github.com/OCR-D/spec)
+
 [Deutsches Textarchiv](http://www.deutschestextarchiv.de) –
-TEI/P5-XML-Format
+historische Texte aus 16.-20. Jh. in der [TEI-P5](https://www.clarin-d.de/de/hilfe/benutzerhandbuch)-[Konkretisierung](http://www.deutschestextarchiv.de/doku/basisformat/uebersichtText.html) [DTABf](http://www.deutschestextarchiv.de/doku/basisformat/); als [Download](http://www.deutschestextarchiv.de/download) vollständige Annotation nur im [TCF-Exportformat](https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The_TCF_Format), also mit Tokenisierung, Kanonisierung, Lemmatisierung, PoS, Morphologie etc.; [Doku zu Software-Toolchain](http://www.deutsches-textarchiv.de/doku/software) und [Transkriptionsrichtlinien](http://www.deutsches-textarchiv.de/doku/basisformat/transkription.html)

 [Universal Dependencies](http://universaldependencies.org/) –
 Für sehr viele Sprachen verfügbar. Interessant sind hier vor allem Alt-Griechisch und Latein.
@@ -13,9 +15,11 @@ Daten im Treebank-Format.

 [Penn Parsed Corpora of Historical English](https://www.ling.upenn.edu/hist-corpora/) – Leider nicht frei verfügbar.

+[Asse-Projekt](https://git.informatik.uni-leipzig.de/groups/asse-projekt) – OCR-Nachkorrektur und Klassifikation/Merging (aber nicht historisch)
+
 ## Historische Schreibweisen

-Die folgenden beiden Datenbanken kamen bei der Entwicklung von CAB zum Einsatz.
+Die folgenden beiden Datenbanken kamen bei der Entwicklung von [CAB](http://odo.dwds.de/~moocow/software/DTA-CAB/) zum Einsatz.
 Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/98d90d8ac577648601bb84e0bdd4b1f9/Canonicalizing_Historical_Text_with_CAB__Slides_.pdf) von Bryan Jurish.

 [Alignment-based Corpus der DWDS]
@@ -25,3 +29,38 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
 [Online Error Database für CAB]
 (http://kaskade.dwds.de/demo/caberr/)

+[als Webdienst](http://www.deutschestextarchiv.de/cab/)
+
+## Sonstige Werkzeuge
+
+[Repos für OCR-D](https://github.com/OCR-D)
+
+[Empfehlungen zu Standards und Werkzeugen für laut- und schriftsprachliche Korpora (CLARIN/BBAW/IDS 2013)](http://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf)
+
+[CLARIN-Benutzerhandbuch](https://www.clarin-d.de/de/hilfe/benutzerhandbuch), v.a. Teil II zu Formaten und Werkzeugen
+
+[ASV-Toolkit](https://www.inf.uni-hamburg.de/en/inst/ab/lt/resources/software/asvtoolbox.html)
+
+[Wortschatz-Toolchain](https://git.informatik.uni-leipzig.de/wortschatz/toolchain)
+
+[WASTE](http://kaskade.dwds.de/waste/) – HMM-Tokeniser für historische Texte (DTA) 
+
+[OpenGrm-Bibliothek](http://www.openfst.org/twiki/bin/view/GRM/NGramLibrary) – Polygramm-Modelle in OpenFST
+
+[HMM-Toolkit](http://htk.eng.cam.ac.uk/) und [HTK-Tutorial](http://www.speech.kth.se/~matsb/speech_rec_course_2003/htk_tutorial.pdf)
+
+[SRI Language-Modelling-Toolkit](http://www.speech.sri.com/projects/srilm/)
+
+[Linguistica](https://github.com/linguistica-uchicago/lxa5) – stochastische (unüberwachte) morphologische Wortsegmentierung und Analyse (Allomorphie)
+
+[Morfessor 2.0](https://github.com/aalto-speech/morfessor) – stochastische (semi-unüberwachte) morphologische Wortsegmentierung
+
+[Morle](https://git.informatik.uni-leipzig.de/sumalvico/morle) – stochastische (semi-überwachte) morphologische Wortsegmentierung
+
+[TAGH-Morphologie](http://www.tagh.de/) – linguistisch-grammatikalische morphologische Wortanalyse
+
+[HOCR-Tools](https://code.google.com/p/hocr-tools/)
+
+[Apache OpenNLP](http://opennlp.apache.org/)
+
+[NLTK](http://nltk.org/)