@@ -59,12 +59,18 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
* (auf 840 Mrd Token Webtext zu 2.2 Mio Types mit 300 Dimensionen) vorberechnetes Modell für [Englisch](http://nlp.stanford.edu/data/glove.840B.300d.zip)
[fastText](https://github.com/facebookresearch/fastText) – ähnlich, aber nach [Bojanowski & Grave et al 2017](https://arxiv.org/pdf/1607.04606.pdf)
* (auf kompletter Wikipedia mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.de.vec)
* (auf kompletter Wikipedia zu 2.2 Mio Types mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.de.vec)
* (auf 1 Mrd Token Wikipedia zu 50.000 Types mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://github.com/Kyubyong/wordvectors)
[Morse](https://goo.gl/w4r7vP) – ähnlich, aber nach [Sakakini et al 2017](https://arxiv.org/abs/1702.02212)
[Gensim-Abstraktion](https://radimrehurek.com/gensim/models/keyedvectors.html) für word2vec und fastText
[Mimick](https://www.github.com/yuvalpinter/mimick) – Zeichen-BLSTM-Encoder mit vortrainierten Wortvektoren trainieren, um auch Subwortebene zu lernen (für OOV und seltene Wortformen) ohne auf großem Korpus neu rechnen zu müssen
[HistWords](https://nlp.stanford.edu/projects/histwords/) – diachrone Analyse von Wortvektoren (als Vektor-Zeitverlauf und als Wortähnlichkeits-Zeitverlauf) zwischen 1800 und 2000 (mit [word2vecf](https://bitbucket.org/yoavgo/word2vecf) direkt auf Google-N-Gramm-Daten) mit vortrainierten Modellen für EN, FR, DE und CN.
[hyperwords](https://bitbucket.org/omerlevy/hyperwords) – auf [Levy et al 2015](https://levyomer.wordpress.com/2015/03/30/improving-distributional-similarity-with-lessons-learned-from-word-embeddings/) basierende Implementierung zum Training verschiedener Arten von Wortvektoren: nicht die Art sondern die Hyperparameter sind entscheidend
[Gensim-Abstraktion](https://radimrehurek.com/gensim/models/keyedvectors.html) für word2vec, fastText u.a.
[freie Implementierung](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) von [Soricut & Och-2015](http://www.aclweb.org/anthology/N15-1186) – auf SkipGram basierende stochastische (unüberwachte) morphologische Wortsegmentierung
...
...
@@ -82,6 +88,8 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
## RNN
[DyNet](https://github.com/clab/dynet) – mit [automatischem Minibatching](https://dynet.readthedocs.io/en/latest/minibatch.html), d.h. CPU/GPU-optimaler Gruppierung beim Training