[word2vec](code.google.com/p/word2vec) – auf [Mikulov et al 2013](/Literatur) basierende Vektorraumtransformation für kompaktere (und algebraisch operationalisierbare) Repräsentation für Wörter:
*[Einführung](https://hackernoon.com/word2vec-part-1-fe2ec6514d70) mit Links zu den Implementierungen in [Gensim](https://radimrehurek.com/gensim/index.html) und in [Tensorflow](https://www.tensorflow.org/) und jeweiligen Tutorials, sowie 2 Erweiterungen (für Mehrwort-Token und Polysemie)
* Erweiterungen für Zerlegung von Komposita:
*[Ansatz 1](https://github.com/jodaiber/semantic_compound_splitting) nach [Daiber et al 2015](https://jodaiber.github.io/doc/compound_analogy.pdf)
*[Ansatz 2](https://github.com/L3viathan/compound-splitter) nach [Oberländer 2016](https://dspace.cuni.cz/bitstream/handle/20.500.11956/87420/DPTX_2015_2_11320_0_456650_0_189769.pdf)
[freie Implementierung](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) von [Soricut & Och-2015](http://www.aclweb.org/anthology/N15-1186) – auf SkipGram basierende stochastische (unüberwachte) morphologische Wortsegmentierung
[fastText](https://github.com/facebookresearch/fastText) – ähnlich, aber nach [Bojanovski & Grave et al 2017](https://arxiv.org/pdf/1607.04606.pdf)
## Sonstige Werkzeuge
...
...
@@ -51,14 +71,6 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/