Changes

Robert Sachunsky · f403fe1c
--- a/planung.md
+++ b/planung.md
@@ -444,12 +444,12 @@ abgrenzen würden.

 Was Graph-Input für RNNs angeht, so könnten wir Andreas Maletti fragen, was er noch an Kombinationsmöglichkeiten kennt.

-### 12. Juni 2018
+### 12. Juni 2018 (mit Prof. Heyer und Thomas Efer)

-(Prof. Heyer, Thomas Efer)
+#### EADH2018

 Die European Association for Digital Humanities (EADH)
-veranstaltet die Konferenz zum Thema "Data in Digital Humanities" an der
+veranstaltet ihre [Jahreskonferenz zum Thema "Data in Digital Humanities"](https://eadh.org/news/2018/05/06/call-proposals-eadh-2018) an der
 National University of Ireland, Galway, 7-9 Dezember 2018.

 Deadline für die Einreichung eines Abstracts ist am 18. Juni 2018.
@@ -473,55 +473,52 @@ Mögliche Inhalte:
 - Standardmodelle bereitstellen
 - Testen mit DTA-Daten
 - Model Selection, Verbesserung auf verschiedenen Zeitperioden
- Verallgemeinerung für andere Sprachen (Bibliotheca Arabica?)
+- Anwendbarkeit auf andere Sprachen (Bibliotheca Arabica?)

+#### Diskussion

-(Thomas Efer)
-
-Kontext:
+Kontext/Metadaten:
 - Ausgabe der vorherigen Arbeitsschritte: Layout, Schriftart
 - dokumentspezifische Metadaten: Zeit, Herkunft, Autor, Textart, Region
- Mini-Taxonomie der Kontexte beschreiben
- Kontext kann für jede Zeile anders sein
- Kontext-Embedding
-
-Verfahren:
- Sprachmodell, das auf allen diesen Kontexten konditioniert ist, und diese
-  als Input bekommt
- Sprachmodelle für verschiedene Sprachen gleichzeitig anwenden, die
-  Ausgabewerte dieser Sprachmodelle als zusätzliche Eingabe verwenden
- für Wortmodell (falls verwendet) auch Kontext mittrainieren (wie bei
-  hist-words, Bedeutungsverschiebung über Zeit in Embeddings sichtbar)
+- unifizierte Genre-Klassifikation beschreiben (Mapping von allen relevanten Taxonomien) – oder großzügig in je eigene Dimensionen auslagern und das Beste hoffen
+- Metadaten können sich abschnittsweise ändern, Abschnittsgrößen von lokal bis global, Grenz(kandidat)en sind interesant 
+- Prinzip: Sprachmodell, das auf all diese Metadaten konditioniert ist; additive und multiplikative Beeinflussung der Hidden- und Ausgabelayer durch erlernte stetige niederdimensionale Kontextvektoren aus hochdimensionalen Metadaten-Merkmalen ("Kontext-Embedding"); 1 Modell für *alle* Daten (synchron/diachron, fehlerhaft/rein, hart/weich)
+- Byte-Ebene statt Zeichen-Ebene; Wort-Ebene nur optional-nachträglich
+- (falls Wortebene verwendet) auch für Wortvektoren solchen Kontext mittrainieren (wie bei
+  [HistWords](https://nlp.stanford.edu/projects/histwords/), Bedeutungsverschiebung über Zeit in Embeddings sichtbar)
+
+Sonderfall Sprachklassifikation:
+- das Sprachmodell mit verschiedenen Eingabewerten des Metadaten-Merkmals Muttersprache  gleichzeitig anwenden, die (Softmax-)Ausgabewerte dieser Modell-Hypothesen für den gesamten Abschnitt multiplizieren und nochmal mit dem Prior der Muttersprache wichten: die höchste Bewertung gewinnt (generative Klassifikation)
+- das geht auch mit Eigennamen als "Pseudo-Muttersprache"

 Mögliche Trainingsdaten:
- sauber - sauber
- fehlerhaft - sauber
- künstlich fehlerhaft - sauber
+- sauber / sauber, fehlerhaft / sauber, künstlich-fehlerhaft / sauber
+- fehlerhaft kann weich sein und Alternativen enthalten (Konfidenzen für jedes Zeichen/Byte)
 - jeweils historisch oder modern
- inklusive jeweiliger Metainformationen
- lege ein Schema (für Domänen) fest, auf das alle Domänen gemappt werden
+- inklusive jeweiliger Metadaten, soweit verfügbar (sonst entweder Unterspezifikation oder generative Klassifikation)

 Sonstiges:
- wie bettet sich das in den Bayes'schen Kontext ein?
+- Wie bettet sich das in das Bayes'schen Paradigma ein? (analytische und empirische Argumente für neuronale Lernverfahren)
 - Sliding-Window ist bei Sequence-to-Sequence-Ansatz schwierig, da wir bei
-  der Ausgabegenerierung einen Baum erhalten
+  der Ausgabegenerierung einen Baum erhalten – aber Attention könnte helfen
 - aus dem RNN kann man Embeddings für Kontexte extrahieren, die in einer
  diskretisierten Form für den FST-Ansatz benutzt werden könnten
+- oder umgekehrt das FST-Fehlermodell mit dem RNN-Fehlermodell koppeln (als dessen Eingabe oder als Ensemble)

 Weitere Ideen zum Inhalt:
 - breite Analyse von Ansätzen
- Forschungsprojekt, nicht Tool-Bau-Projekt
+- Forschungsprojekt, (zunächst) kein Produkt oder Nutzerwerkzeug mit dauerhafter Weiterentwicklung/Wartung
 - Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet

 Mögliche Titel:
- Towards Context-Aware Language Models for Historical OCR Post-Correction
- Comprehensive Context-Aware Language Models for Historical OCR Post-Correction
- Leveraging Document and Text Context in Language Models for
-  OCR-Postcorrection
- Context-Aware OCR-Postcorrection for Historical Documents
+- `Towards Context-Aware Language Models for Historical OCR Post-Correction`
+- `Comprehensive Context-Aware Language Models for Historical OCR Post-Correction`
+- `Leveraging Document and Text Context in Language Models for
+  OCR-Postcorrection`
+- `Context-Aware OCR-Postcorrection for Historical Documents`

 (Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten)

 Planung:
- Mittwoch - erster Entwurf mit Notizen zu dem, was wir schreiben wollen
- Montag - Letzte Verbesserungen, Einreichung
+- Mittwoch – erster Entwurf mit Notizen zu dem, was wir schreiben wollen
+- Montag – Letzte Verbesserungen, Einreichung