Update Ressourcen authored by Robert Sachunsky's avatar Robert Sachunsky
......@@ -45,17 +45,22 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
[TAGH-Morphologie](http://www.tagh.de/) – linguistisch-grammatikalische morphologische Wortanalyse
[word2vec](code.google.com/p/word2vec) – auf [Mikulov et al 2013](/Literatur) basierende Vektorraumtransformation für kompaktere (und algebraisch operationalisierbare) Repräsentation für Wörter:
[word2vec](https://web.archive.org/web/20170101013417/https://code.google.com/archive/p/word2vec/downloads) – auf [Mikulov et al 2013](/Literatur) basierende Vektorraumtransformation für kompaktere (und algebraisch operationalisierbare) Repräsentation für Wörter:
* [Einführung](https://hackernoon.com/word2vec-part-1-fe2ec6514d70) mit Links zu den Implementierungen in [Gensim](https://radimrehurek.com/gensim/index.html) und in [Tensorflow](https://www.tensorflow.org/) und jeweiligen Tutorials, sowie 2 Erweiterungen (für Mehrwort-Token und Polysemie)
* Erweiterungen für Zerlegung von Komposita:
* [Ansatz 1](https://github.com/jodaiber/semantic_compound_splitting) nach [Daiber et al 2015](https://jodaiber.github.io/doc/compound_analogy.pdf)
* [Ansatz 2](https://github.com/L3viathan/compound-splitter) nach [Oberländer 2016](https://dspace.cuni.cz/bitstream/handle/20.500.11956/87420/DPTX_2015_2_11320_0_456650_0_189769.pdf)
* (auf 100 Mrd Token Google-News-Text zu 3 Mio Types mit 300 Dimensionen) vorberechnetes Modell für [Englisch](https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz)
* (auf 650 Mio Token News- und Wikipedia-Text zu 600.000 Types mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://devmount.github.io/GermanWordEmbeddings/)
[freie Implementierung](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) von [Soricut & Och-2015](http://www.aclweb.org/anthology/N15-1186) – auf SkipGram basierende stochastische (unüberwachte) morphologische Wortsegmentierung
[fastText](https://github.com/facebookresearch/fastText) – ähnlich, aber nach [Bojanowski & Grave et al 2017](https://arxiv.org/pdf/1607.04606.pdf)
* (auf kompletter Wikipedia mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.de.vec)
[Morse](https://goo.gl/w4r7vP) – ähnlich, aber nach [Sakakini et al 2017](https://arxiv.org/abs/1702.02212)
[fastText](https://github.com/facebookresearch/fastText) – ähnlich, aber nach [Bojanowski & Grave et al 2017](https://arxiv.org/pdf/1607.04606.pdf)
[freie Implementierung](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) von [Soricut & Och-2015](http://www.aclweb.org/anthology/N15-1186) – auf SkipGram basierende stochastische (unüberwachte) morphologische Wortsegmentierung
## OCR
......
......