sachunsky created page: planung authored by Robert Sachunsky's avatar Robert Sachunsky
## Offen
u.g. priorisieren...
### Theoretische Fragestellungen
1. Entwicklung Architektur:
1. Kombination von FST mit RNN (Merkmalextraktion/Numerisierung, Wortklassen oder direkt, Schriftstandard/Tokenisierung/Textnormalisierung, DP-Suche etc)
1. Kanonisierung oder rein historisches Lexikon/Sprachmodell oder "historisierte" Daten (NC-Modell)
1. (Ad-hoc-) Komposition vs DP-Suche (Hypothesen+Fehler, Fehler+Lexikon, Fehler+Zeichensprachmodell); Viterbi vs A* usw.
1. Normierung der einzelnen Konfidenzen, Möglichkeit zur Gewichtung der Modelle (und Modellalternativen) untereinander, Gesamtschwellwert; Schätzung sinnvoller Gewichte/Schwellwerte auf Lernstichprobe
1. Erkennung der Muttersprache und Domäne (Anfang+Ende) für Auswahl von Lexikon und Sprachmodell
1. Protokollierungsmöglichkeiten (ohne gesamten Suchraum exportieren zu müssen, etwa diskrete Ereignisse aus kontinuierlichen Skalarprodukten; mindestens Kandidaten mit Konfidenz, Lexikon-Ableitungsgraph, Fehler-Verwechslungsgraph, Sprachmodell-Bewertung/Domäne, Muttersprache)
1. Morphologie: unüberwacht/datengetrieben vs regelbasiert (F+D+K) vs kombiniert; für verschiedene Sprachen, für Eigennamen/OOV (Zeichen-Polygramme)
### Organisatorische Fragen
1. unreine/Fehler-Daten (aus OCR-Workflow) vom DTA anfordern – Antwort steht noch aus
1. Korpus-Toolchains (ASV-Toolbox/Medusa/spaCy/ddc-concordance/Heartofgold): Lizenz, Support, Erweiterbarkeit (historische Texte / Textnormalisierung)
1. Kanonisierung/CAB/Profiler-Patterns
1. Morphologie-Ressourcen/Werkzeuge (Morle/Morphix/Tagh/NetLex)
1. Ansatz und Arbeiten der LMU-Gruppe abgleichen
### Praktische Versuche
1. (mit DTA-Daten:) erste Fehlermodelle erzeugen und ausprobieren (Uni-, Trigramm-FST; regelbasiert vs datengetrieben)
1. Korpora aufbereiten: LCC, DTA, GT, Asse-Daten
1. Lexika extrahieren (Lemmatisierung, Häufigkeit und Smoothing/OOV)
1. Lexikon-FST (Lemmas + Morphologie)
1. (mit DTA-Daten:) Komposition/Suche für Fehlermodell+Lexikon erzeugen und ausprobieren
1. Sprachmodelle trainieren mit Polygrammen (klassenbasiert und cache-basiert?) und LSTM-RNN: OOV, Klassen und/oder Lemmatisierung, Eigennamen, Morphologie, künstliche Daten
1. Rescoring
1. Reproduktion/Vergleich Asse-Toolchain und DTA-Toolchain
1. OCR-Toolchain(s) auf GT-Daten, damit weitere Fehlermodelle erzeugen
## Erledigt
1. im Antrag referenzierte Arbeiten
1. keras-Tutorial
1. Mächtigkeit und Trainierbarkeit von FNN/RNN
1. HFST installieren/benutzen
1. ddc-concordance installieren
1. DTA-Daten und GT-Daten ansehen