Changes

Lena Schiffer · d35981e0
--- a/planung.md
+++ b/planung.md
@@ -443,3 +443,85 @@ abgrenzen würden.
 #### Grapheingabe für RNNs

 Was Graph-Input für RNNs angeht, so könnten wir Andreas Maletti fragen, was er noch an Kombinationsmöglichkeiten kennt.
+
+### 12. Juni 2018
+
+(Prof. Heyer, Thomas Efer)
+
+Die European Association for Digital Humanities (EADH)
+veranstaltet die Konferenz zum Thema "Data in Digital Humanities" an der
+National University of Ireland, Galway, 7-9 Dezember 2018.
+
+Deadline für die Einreichung eines Abstracts ist am 18. Juni 2018.
+
+Mögliche Einreichungen:
+- Poster (Abstract 500-750 Wörter, ca. 1,5 Seiten)
+- Short Paper (Abstract 750-1000 Wörter)
+
+Unser Vorgehen:
+1. Entwurf: Was wollen wir?
+2. sukzessives Auffüllen
+
+Mögliche Inhalte:
+- OCR ist ein wichtiges Thema
+- OCR-D beschreiben
+- unsere Arbeitsschwerpunkte
+- Anwendungsperspektive
+- historische Sprachmodelle im Rahmen von OCR-D
+- verschiedene Ansätze evaluieren
+- Architektur/Komponenten beschreiben
+- Standardmodelle bereitstellen
+- Testen mit DTA-Daten
+- Model Selection, Verbesserung auf verschiedenen Zeitperioden
+- Verallgemeinerung für andere Sprachen (Bibliotheca Arabica?)
+
+
+(Thomas Efer)
+
+Kontext:
+- Ausgabe der vorherigen Arbeitsschritte: Layout, Schriftart
+- dokumentspezifische Metadaten: Zeit, Herkunft, Autor, Textart, Region
+- Mini-Taxonomie der Kontexte beschreiben
+- Kontext kann für jede Zeile anders sein
+- Kontext-Embedding
+
+Verfahren:
+- Sprachmodell, das auf allen diesen Kontexten konditioniert ist, und diese
+  als Input bekommt
+- Sprachmodelle für verschiedene Sprachen gleichzeitig anwenden, die
+  Ausgabewerte dieser Sprachmodelle als zusätzliche Eingabe verwenden
+- für Wortmodell (falls verwendet) auch Kontext mittrainieren (wie bei
+  hist-words, Bedeutungsverschiebung über Zeit in Embeddings sichtbar)
+
+Mögliche Trainingsdaten:
+- sauber - sauber
+- fehlerhaft - sauber
+- künstlich fehlerhaft - sauber
+- jeweils historisch oder modern
+- inklusive jeweiliger Metainformationen
+- lege ein Schema (für Domänen) fest, auf das alle Domänen gemappt werden
+
+Sonstiges:
+- wie bettet sich das in den Bayes'schen Kontext ein?
+- Sliding-Window ist bei Sequence-to-Sequence-Ansatz schwierig, da wir bei
+  der Ausgabegenerierung einen Baum erhalten
+- aus dem RNN kann man Embeddings für Kontexte extrahieren, die in einer
+  diskretisierten Form für den FST-Ansatz benutzt werden könnten
+
+Weitere Ideen zum Inhalt:
+- breite Analyse von Ansätzen
+- Forschungsprojekt, nicht Tool-Bau-Projekt
+- Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet
+
+Mögliche Titel:
+- Towards Context-Aware Language Models for Historical OCR Post-Correction
+- Comprehensive Context-Aware Language Models for Historical OCR Post-Correction
+- Leveraging Document and Text Context in Language Models for
+  OCR-Postcorrection
+- Context-Aware OCR-Postcorrection for Historical Documents
+
+(Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten)
+
+Planung:
+- Mittwoch - erster Entwurf mit Notizen zu dem, was wir schreiben wollen
+- Montag - Letzte Verbesserungen, Einreichung