Update Ressourcen authored by Robert Sachunsky's avatar Robert Sachunsky
......@@ -29,7 +29,27 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
[Online Error Database für CAB]
(http://kaskade.dwds.de/demo/caberr/)
[als Webdienst](http://www.deutschestextarchiv.de/cab/)
[CAB als Webdienst](http://www.deutschestextarchiv.de/cab/)
## Morphologie und Vektorraum-Repräsentation
[Linguistica](https://github.com/linguistica-uchicago/lxa5) – stochastische (unüberwachte) morphologische Wortsegmentierung und Analyse (Allomorphie)
[Morfessor 2.0](https://github.com/aalto-speech/morfessor) – stochastische (semi-unüberwachte) morphologische Wortsegmentierung
[Morle](https://git.informatik.uni-leipzig.de/sumalvico/morle) – stochastische (semi-überwachte) morphologische Wortsegmentierung
[TAGH-Morphologie](http://www.tagh.de/) – linguistisch-grammatikalische morphologische Wortanalyse
[word2vec](code.google.com/p/word2vec) – auf [Mikulov et al 2013](/Literatur) basierende Vektorraumtransformation für kompaktere (und algebraisch operationalisierbare) Repräsentation für Wörter:
* [Einführung](https://hackernoon.com/word2vec-part-1-fe2ec6514d70) mit Links zu den Implementierungen in [Gensim](https://radimrehurek.com/gensim/index.html) und in [Tensorflow](https://www.tensorflow.org/) und jeweiligen Tutorials, sowie 2 Erweiterungen (für Mehrwort-Token und Polysemie)
* Erweiterungen für Zerlegung von Komposita:
* [Ansatz 1](https://github.com/jodaiber/semantic_compound_splitting) nach [Daiber et al 2015](https://jodaiber.github.io/doc/compound_analogy.pdf)
* [Ansatz 2](https://github.com/L3viathan/compound-splitter) nach [Oberländer 2016](https://dspace.cuni.cz/bitstream/handle/20.500.11956/87420/DPTX_2015_2_11320_0_456650_0_189769.pdf)
[freie Implementierung](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) von [Soricut & Och-2015](http://www.aclweb.org/anthology/N15-1186) – auf SkipGram basierende stochastische (unüberwachte) morphologische Wortsegmentierung
[fastText](https://github.com/facebookresearch/fastText) – ähnlich, aber nach [Bojanovski & Grave et al 2017](https://arxiv.org/pdf/1607.04606.pdf)
## Sonstige Werkzeuge
......@@ -51,14 +71,6 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
[SRI Language-Modelling-Toolkit](http://www.speech.sri.com/projects/srilm/)
[Linguistica](https://github.com/linguistica-uchicago/lxa5) – stochastische (unüberwachte) morphologische Wortsegmentierung und Analyse (Allomorphie)
[Morfessor 2.0](https://github.com/aalto-speech/morfessor) – stochastische (semi-unüberwachte) morphologische Wortsegmentierung
[Morle](https://git.informatik.uni-leipzig.de/sumalvico/morle) – stochastische (semi-überwachte) morphologische Wortsegmentierung
[TAGH-Morphologie](http://www.tagh.de/) – linguistisch-grammatikalische morphologische Wortanalyse
[HOCR-Tools](https://code.google.com/p/hocr-tools/)
[Apache OpenNLP](http://opennlp.apache.org/)
......
......