Changes

Robert Sachunsky · 335bc4bf
--- a/planung.md
+++ b/planung.md
@@ -5,30 +5,35 @@ u.g. priorisieren...
 ### Theoretische Fragestellungen

 1. Entwicklung Architektur: 
-   1. Kombination von FST mit RNN (Merkmalextraktion/Numerisierung, Wortklassen oder direkt, Schriftstandard/Tokenisierung/Textnormalisierung, DP-Suche etc.)
-   1. Kanonisierung oder rein historisches Lexikon/Sprachmodell oder "historisierte" Daten (NC-Modell)
-   1. (Ad-hoc-) Komposition vs DP-Suche (Hypothesen+Fehler, Fehler+Lexikon, Fehler+Zeichensprachmodell); Viterbi vs A* usw.
-   1. Normierung der einzelnen Konfidenzen, Möglichkeit zur Gewichtung der Modelle (und Modellalternativen) untereinander, Gesamtschwellwert; Schätzung sinnvoller Gewichte/Schwellwerte auf Lernstichprobe
-   1. Erkennung der Muttersprache und Domäne (Anfang+Ende) für Auswahl von Lexikon und Sprachmodell
-   1. Protokollierungsmöglichkeiten (ohne gesamten Suchraum exportieren zu müssen, etwa diskrete Ereignisse aus wertstetigen Graphen; mindestens Kandidaten mit Konfidenz, Lexikon-Ableitungsgraph, Fehler-Verwechslungsgraph, Sprachmodell-Bewertung/Domäne, Muttersprache)
-   1. Wortresegmentierung (Leerzeichen als Zeichen im Fehlermodell), Zeilenresegmentierung, auf welcher Einheitengröße arbeiten wir?
+   1. Kombination von FST mit RNN (Alternativengraph vs Merkmalvektor, DP-Suche),
+   1. wortbasierte Sprachmodelle (Merkmalextraktion/numerische Repräsentation bei RNN, Wortklassen oder direkt, Konvention der Tokenisierung/Textnormalisierung)
+   1. Kanonisierung oder rein historisches Lexikon/Sprachmodell oder "historisierte" Daten (NC-Modell)  
+      mit Koordinierungsprojekt (und mit LMU) abstimmen!
+   1. Wort-Resegmentierung (Worttrennzeichen im Fehlermodell), auf welcher Einheitengröße suchen vs modellieren wir? (z.B. ges. Dokument für Sprachmodell, aber nur Zeile oder nur 10-Zeichen-Fenster für Fehler)
+   1. (lazy/n-best) Komposition bzw DP-Suche (Hypothesen+Fehler, Fehler+Lexikon,  Fehler+Zeichensprachmodell); Viterbi/Beamsearch vs A* usw.
+   1. Normierung der einzelnen Konfidenzen, Möglichkeit zur Gewichtung der Modelle (und Varianten) untereinander (also Hypothesen/Fehler/Lexikon/Sprachmodell), Gesamtschwellwert; Schätzung sinnvoller Gewichte/Schwellwerte auf Lernstichprobe
+   1. Erkennung der Muttersprache und Domäne (Anfang+Ende) für Auswahl von Lexikon und Sprachmodell; Domäne als Textelement, Textgattung, Zeitraum, Dialekt, Textnormalisierungskonvention  
+      mit Koordinierungsprojekt (und mit LMU) abstimmen!
+   1. Protokollierungsmöglichkeiten (ohne gesamten Suchraum exportieren zu müssen, etwa diskrete Ereignisse aus wertstetigen Graphen; mindestens Ersetzungskandidaten mit Konfidenz, evtl Lexikon-Ableitungsgraph, Fehler-Verwechslungsgraph, Sprachmodell-Bewertung/Domäne, Muttersprache)  
+      optional?
 1. Morphologie: unüberwacht/datengetrieben vs regelbasiert (F+D+K) vs kombiniert; für verschiedene Sprachen, für Eigennamen/OOV (Zeichen-Polygramme)

 ### Organisatorische Fragen

 1. unreine/Fehler-Daten (aus OCR-Workflow) vom DTA anfordern – Antwort steht noch aus
-1. Korpus-Toolchains (ASV-Toolbox/Medusa/spaCy/ddc-concordance/Heartofgold): Lizenz, Support, Erweiterbarkeit (historische Texte / Textnormalisierung)
+1. Korpus-Toolchains (ASV-Toolbox/spaCy/ddc-concordance/Heartofgold): Lizenz, Support, Erweiterbarkeit (historische Texte / Textnormalisierung), Integration
 1. Kanonisierung/CAB/Profiler-Patterns
 1. Morphologie-Ressourcen/Werkzeuge (Morle/Morphix/Tagh/NetLex)
 1. Ansatz und Arbeiten der LMU-Gruppe abgleichen

 ### Praktische Versuche

-1. (mit DTA-Daten:) erste Fehlermodelle erzeugen und ausprobieren (Uni-, Trigramm-FST; regelbasiert vs datengetrieben)
+1. (mit DTA-Fehlerdaten:) erste Fehlermodelle erzeugen und ausprobieren (Uni-, Trigramm-FST; regelbasiert vs datengetrieben)
 1. Korpora aufbereiten: LCC, DTA, GT, Asse-Daten
-1. Lexika extrahieren (Lemmatisierung, Häufigkeit und Smoothing/OOV)
+1. Lexika extrahieren (Lemmatisierung/Morphologie, Häufigkeit und Smoothing/OOV)  
+   Maćiej würde für uns das Morle-Training durchführen (ideal: Wortformen + syntaktische + morphologische Merkmale + Lemmata)
 1. Lexikon-FST (Lemmas + Morphologie)
-1. (mit DTA-Daten:) Komposition/Suche für Fehlermodell+Lexikon erzeugen und ausprobieren
+1. (mit DTA-Fehlerdaten:) Komposition/Suche für Fehlermodell+Lexikon erzeugen und ausprobieren
 1. Sprachmodelle trainieren mit Polygrammen (klassenbasiert und cache-basiert?) und LSTM-RNN: OOV, Klassen und/oder Lemmatisierung, Eigennamen, Morphologie, künstliche Daten
 1. Rescoring
 1. Reproduktion/Vergleich Asse-Toolchain und DTA-Toolchain