Update planung authored by Robert Sachunsky's avatar Robert Sachunsky
......@@ -4,7 +4,7 @@
### Theoretische Fragestellungen
...alles geklärt bis auf Normierung – einarbeiten, neue Seite zu Architektur anfangen!
:construction: Alles geklärt bis auf Normierung – einarbeiten, neue Seite zu Architektur anfangen!
1. Entwicklung Architektur:
1. Kombination von FST mit RNN (Alternativengraph vs Merkmalvektor, DP-Suche),
......@@ -22,6 +22,8 @@
### Organisatorische Fragen
:construction: Aktualisieren!
1. Ansatz und Arbeiten der LMU-Gruppe abgleichen
### Praktische Versuche
......@@ -42,16 +44,18 @@
## Erledigt
:construction: Aktualisieren!
1. Literatur: im Antrag referenzierte Arbeiten
1. Werkzeuge: keras-Tutorial
1. Literatur: Mächtigkeit und Trainierbarkeit von FNN/RNN
1. Werkzeuge: HFST und OpenFST installieren/benutzen
1. Werkzeuge: Gensim, Tesseract etc installieren
1. Werkzeuge: Gensim, Tensorflow, CUDA-Toolkit / CuDNN, Tesseract etc installieren
1. Recherche: Asse-Daten, DTA-Daten und GT-Daten ansehen
1. Ressourcen: im DTA gibt es definitiv keine unreinen/Fehler-Daten (aus OCR-Workflow) mehr
1. Literatur: RNN mit Folgen verschiedener Länge, mit Graphen als Eingabe und Ausgabe
1. Literatur...
1. Werkzeuge: weitere Ressourcen und Daten, etwa vorberechnete Wort-Vektorraumrepräsentationen; als Korpuswerkzeug (Textnormalisierung) nehmen wir die ASV-Toolbox
1. Werkzeuge: weitere Ressourcen und Daten, etwa vorberechnete Wort-Vektorraumrepräsentationen;
1. Experimente: (mit Asse-Fehlerdaten und Asse-Lexikon) erste Fehlermodelle erzeugen und ausprobieren, Einflüsse verschiedener Parameter auf Qualität und Rechenaufwand (1/2/3-Gramm-Kontext, Anzahl erlaubter Fehler pro Wort, mit/ohne Morle-Morphologie, volle vs Lazy-Komposition): Fehlerdaten zu klein, Performanz mit OpenFST fragwürdig (Profiling notwendig)
1. Experimente: (mit [1](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) und [2](https://github.com/jodaiber/semantic_compound_splitting):) Soricut&Och-Modell auf vorberechneten Wortvektoren trainieren
1. Architektur: Kanonisierung wird nicht versucht, wir erzeugen kontextbasierte Modelle über historischen *und* modernen Sprachdaten
......@@ -59,6 +63,14 @@
## Besprechungen
### 5.-6. März 2018 Auftakttreffen OCR-D in Wolfenbüttel
[offizielles Protokoll](https://wiki.de.dariah.eu/pages/viewpage.action?pageId=64949522)
### 20. April 2018 Videokonferenz OCR-D
[offizielles Protokoll](https://wiki.de.dariah.eu/display/OCR/2018-04-20+Besprechungsnotizen)
### 3. Mai 2018 (mit Prof. Heyer)
* EM (Expectation Maximization) als unüberwachter transduktiver Ansatz für das Fehlermodell wird zunächst nicht verfolgt (an der LMU schon vertreten).
......@@ -525,6 +537,7 @@ Planung:
### 26. - 27. Juni 2018 (1. Entwicklertreffen)
[offizielles Protokoll](https://wiki.de.dariah.eu/display/OCR/1.+Entwickler-Workshop)
#### Begrüßung (Elisa Herrmann)
......
......