Changes

Robert Sachunsky · 130da8ce
--- a/planung.md
+++ b/planung.md
@@ -4,7 +4,7 @@
 ### Theoretische Fragestellungen
-...alles geklärt bis auf Normierung – einarbeiten, neue Seite zu Architektur anfangen!
+:construction: Alles geklärt bis auf Normierung – einarbeiten, neue Seite zu Architektur anfangen!
 1. Entwicklung Architektur: 
   1. Kombination von FST mit RNN (Alternativengraph vs Merkmalvektor, DP-Suche),
@@ -22,6 +22,8 @@
 ### Organisatorische Fragen
+:construction: Aktualisieren!
 1. Ansatz und Arbeiten der LMU-Gruppe abgleichen
 ### Praktische Versuche
@@ -42,16 +44,18 @@
 ## Erledigt
+:construction: Aktualisieren!
 1. Literatur: im Antrag referenzierte Arbeiten
 1. Werkzeuge: keras-Tutorial
 1. Literatur: Mächtigkeit und Trainierbarkeit von FNN/RNN
 1. Werkzeuge: HFST und OpenFST installieren/benutzen
-1. Werkzeuge: Gensim, Tesseract etc installieren
+1. Werkzeuge: Gensim, Tensorflow, CUDA-Toolkit / CuDNN, Tesseract etc installieren
 1. Recherche: Asse-Daten, DTA-Daten und GT-Daten ansehen
 1. Ressourcen: im DTA gibt es definitiv keine unreinen/Fehler-Daten (aus OCR-Workflow) mehr
 1. Literatur: RNN mit Folgen verschiedener Länge, mit Graphen als Eingabe und Ausgabe
 1. Literatur...
-1. Werkzeuge: weitere Ressourcen und Daten, etwa vorberechnete Wort-Vektorraumrepräsentationen; als Korpuswerkzeug (Textnormalisierung) nehmen wir die ASV-Toolbox
+1. Werkzeuge: weitere Ressourcen und Daten, etwa vorberechnete Wort-Vektorraumrepräsentationen;
 1. Experimente: (mit Asse-Fehlerdaten und Asse-Lexikon) erste Fehlermodelle erzeugen und ausprobieren, Einflüsse verschiedener Parameter auf Qualität und Rechenaufwand (1/2/3-Gramm-Kontext, Anzahl erlaubter Fehler pro Wort, mit/ohne Morle-Morphologie, volle vs Lazy-Komposition): Fehlerdaten zu klein, Performanz mit OpenFST fragwürdig (Profiling notwendig)
 1. Experimente: (mit [1](https://github.com/Rj7/Unsupervised-morphology-induction-word2vec) und [2](https://github.com/jodaiber/semantic_compound_splitting):) Soricut&Och-Modell auf vorberechneten Wortvektoren trainieren
 1. Architektur: Kanonisierung wird nicht versucht, wir erzeugen kontextbasierte Modelle über historischen *und* modernen Sprachdaten
@@ -59,6 +63,14 @@
 ## Besprechungen
+### 5.-6. März 2018 Auftakttreffen OCR-D in Wolfenbüttel
+[offizielles Protokoll](https://wiki.de.dariah.eu/pages/viewpage.action?pageId=64949522)
+### 20. April 2018 Videokonferenz OCR-D
+[offizielles Protokoll](https://wiki.de.dariah.eu/display/OCR/2018-04-20+Besprechungsnotizen)
 ### 3. Mai 2018 (mit Prof. Heyer)
 * EM (Expectation Maximization) als unüberwachter transduktiver Ansatz für das Fehlermodell wird zunächst nicht verfolgt (an der LMU schon vertreten).
@@ -525,6 +537,7 @@ Planung:
 ### 26. - 27. Juni 2018 (1. Entwicklertreffen)
+[offizielles Protokoll](https://wiki.de.dariah.eu/display/OCR/1.+Entwickler-Workshop)
 #### Begrüßung (Elisa Herrmann)