Update Ressourcen authored by Robert Sachunsky's avatar Robert Sachunsky
...@@ -52,15 +52,20 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/ ...@@ -52,15 +52,20 @@ Siehe auch die Präsentation [Canonicalizing Historical Text with CAB](/uploads/
* [Ansatz 2](https://github.com/L3viathan/compound-splitter) nach [Oberländer 2016](https://dspace.cuni.cz/bitstream/handle/20.500.11956/87420/DPTX_2015_2_11320_0_456650_0_189769.pdf) * [Ansatz 2](https://github.com/L3viathan/compound-splitter) nach [Oberländer 2016](https://dspace.cuni.cz/bitstream/handle/20.500.11956/87420/DPTX_2015_2_11320_0_456650_0_189769.pdf)
* (auf 100 Mrd Token Google-News-Text zu 3 Mio Types mit 300 Dimensionen) vorberechnetes Modell für [Englisch](https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz) * (auf 100 Mrd Token Google-News-Text zu 3 Mio Types mit 300 Dimensionen) vorberechnetes Modell für [Englisch](https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz)
* (auf 650 Mio Token News- und Wikipedia-Text zu 600.000 Types mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://devmount.github.io/GermanWordEmbeddings/) * (auf 650 Mio Token News- und Wikipedia-Text zu 600.000 Types mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://devmount.github.io/GermanWordEmbeddings/)
* (auf 1 Mrd Token Wikipedia zu 50.000 Types mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://github.com/Kyubyong/wordvectors)
* weiteres (auf Wikipedia und OpenSubtitles) vorberechnetes Modell für [Deutsch in spaCy](https://explosion.ai/blog/german-model)
[GloVe](https://nlp.stanford.edu/projects/glove/) – ähnlich, aber nach [Pennington et al 2014](https://nlp.stanford.edu/pubs/glove.pdf) [GloVe](https://nlp.stanford.edu/projects/glove/) – ähnlich, aber nach [Pennington et al 2014](https://nlp.stanford.edu/pubs/glove.pdf)
* (auf 840 Mrd Token Webtext zu 2.2 Mio Types mit 300 Dimensionen) vorberechnetes Modell für [Englisch](http://nlp.stanford.edu/data/glove.840B.300d.zip) * (auf 840 Mrd Token Webtext zu 2.2 Mio Types mit 300 Dimensionen) vorberechnetes Modell für [Englisch](http://nlp.stanford.edu/data/glove.840B.300d.zip)
[fastText](https://github.com/facebookresearch/fastText) – ähnlich, aber nach [Bojanowski & Grave et al 2017](https://arxiv.org/pdf/1607.04606.pdf) [fastText](https://github.com/facebookresearch/fastText) – ähnlich, aber nach [Bojanowski & Grave et al 2017](https://arxiv.org/pdf/1607.04606.pdf)
* (auf kompletter Wikipedia mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.de.vec) * (auf kompletter Wikipedia mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.de.vec)
* (auf 1 Mrd Token Wikipedia zu 50.000 Types mit 300 Dimensionen) vorberechnetes Modell für [Deutsch](https://github.com/Kyubyong/wordvectors)
[Morse](https://goo.gl/w4r7vP) – ähnlich, aber nach [Sakakini et al 2017](https://arxiv.org/abs/1702.02212) [Morse](https://goo.gl/w4r7vP) – ähnlich, aber nach [Sakakini et al 2017](https://arxiv.org/abs/1702.02212)
[Gensim-Abstraktion](https://radimrehurek.com/gensim/models/keyedvectors.html) für word2vec und fastText
[freie Implementierung](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) von [Soricut & Och-2015](http://www.aclweb.org/anthology/N15-1186) – auf SkipGram basierende stochastische (unüberwachte) morphologische Wortsegmentierung [freie Implementierung](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) von [Soricut & Och-2015](http://www.aclweb.org/anthology/N15-1186) – auf SkipGram basierende stochastische (unüberwachte) morphologische Wortsegmentierung
... ...
......