Update planung authored by Lena Schiffer's avatar Lena Schiffer
...@@ -70,3 +70,26 @@ zu 2. + 3. Versuche zu ...@@ -70,3 +70,26 @@ zu 2. + 3. Versuche zu
1. ddc-concordance installieren 1. ddc-concordance installieren
1. DTA-Daten und GT-Daten ansehen 1. DTA-Daten und GT-Daten ansehen
## Besprechungen
### 3. Mai 2018
* EM (Expectation Maximization) als unüberwachter transduktiver Ansatz für das Fehlermodell wird zunächst nicht verfolgt (an der LMU schon vertreten).
* Der FST-Ansatz wird zurückgestellt wegen der Abhängigkeiten von Maciej und Performanz-Problemen (?)
* Wir konzentrieren uns als nächstes auf überwachte/unüberwachte Verfahren mit RNN.
* Nächster Schritt ist die Suche nach fertigen Implementierungen für RNN auf Grapheingabe.
Mit dem Koordinationsteam besprechen:
* Adaption des Fehlermodells mit kleinen Mengen handannotierter GT-Daten möglich?
* Rückkopplungsmöglichkeiten ganz weglassen?
Folgen für uns:
* Um eine klare Entscheidung zu FSTs und ihren Möglichkeiten sowie ihrer Performanz treffen zu können, sind folgende Versuche notwendig:
1. Komposition von Lexikon und Fehlermodell vorberechnen
1. Test verschiedener Wort-/Sprachmodelle:
1. Lexikon und Ganzwortmorphologie
1. nur Lexikon (Maciejs Lexikon mit 50k Wortformen, Asse-Lexikon)
1. Zeichen-ngram-Sprachmodell mit OpenGrm
1. Lazy Composition testen (OpenFST-Implementierung in C++)
1. Vergleich der Laufzeit mit WWMOCR