Update planung authored by Robert Sachunsky's avatar Robert Sachunsky
......@@ -444,12 +444,12 @@ abgrenzen würden.
Was Graph-Input für RNNs angeht, so könnten wir Andreas Maletti fragen, was er noch an Kombinationsmöglichkeiten kennt.
### 12. Juni 2018
### 12. Juni 2018 (mit Prof. Heyer und Thomas Efer)
(Prof. Heyer, Thomas Efer)
#### EADH2018
Die European Association for Digital Humanities (EADH)
veranstaltet die Konferenz zum Thema "Data in Digital Humanities" an der
veranstaltet ihre [Jahreskonferenz zum Thema "Data in Digital Humanities"](https://eadh.org/news/2018/05/06/call-proposals-eadh-2018) an der
National University of Ireland, Galway, 7-9 Dezember 2018.
Deadline für die Einreichung eines Abstracts ist am 18. Juni 2018.
......@@ -473,55 +473,52 @@ Mögliche Inhalte:
- Standardmodelle bereitstellen
- Testen mit DTA-Daten
- Model Selection, Verbesserung auf verschiedenen Zeitperioden
- Verallgemeinerung für andere Sprachen (Bibliotheca Arabica?)
- Anwendbarkeit auf andere Sprachen (Bibliotheca Arabica?)
#### Diskussion
(Thomas Efer)
Kontext:
Kontext/Metadaten:
- Ausgabe der vorherigen Arbeitsschritte: Layout, Schriftart
- dokumentspezifische Metadaten: Zeit, Herkunft, Autor, Textart, Region
- Mini-Taxonomie der Kontexte beschreiben
- Kontext kann für jede Zeile anders sein
- Kontext-Embedding
Verfahren:
- Sprachmodell, das auf allen diesen Kontexten konditioniert ist, und diese
als Input bekommt
- Sprachmodelle für verschiedene Sprachen gleichzeitig anwenden, die
Ausgabewerte dieser Sprachmodelle als zusätzliche Eingabe verwenden
- für Wortmodell (falls verwendet) auch Kontext mittrainieren (wie bei
hist-words, Bedeutungsverschiebung über Zeit in Embeddings sichtbar)
- unifizierte Genre-Klassifikation beschreiben (Mapping von allen relevanten Taxonomien) – oder großzügig in je eigene Dimensionen auslagern und das Beste hoffen
- Metadaten können sich abschnittsweise ändern, Abschnittsgrößen von lokal bis global, Grenz(kandidat)en sind interesant
- Prinzip: Sprachmodell, das auf all diese Metadaten konditioniert ist; additive und multiplikative Beeinflussung der Hidden- und Ausgabelayer durch erlernte stetige niederdimensionale Kontextvektoren aus hochdimensionalen Metadaten-Merkmalen ("Kontext-Embedding"); 1 Modell für *alle* Daten (synchron/diachron, fehlerhaft/rein, hart/weich)
- Byte-Ebene statt Zeichen-Ebene; Wort-Ebene nur optional-nachträglich
- (falls Wortebene verwendet) auch für Wortvektoren solchen Kontext mittrainieren (wie bei
[HistWords](https://nlp.stanford.edu/projects/histwords/), Bedeutungsverschiebung über Zeit in Embeddings sichtbar)
Sonderfall Sprachklassifikation:
- das Sprachmodell mit verschiedenen Eingabewerten des Metadaten-Merkmals Muttersprache gleichzeitig anwenden, die (Softmax-)Ausgabewerte dieser Modell-Hypothesen für den gesamten Abschnitt multiplizieren und nochmal mit dem Prior der Muttersprache wichten: die höchste Bewertung gewinnt (generative Klassifikation)
- das geht auch mit Eigennamen als "Pseudo-Muttersprache"
Mögliche Trainingsdaten:
- sauber - sauber
- fehlerhaft - sauber
- künstlich fehlerhaft - sauber
- sauber / sauber, fehlerhaft / sauber, künstlich-fehlerhaft / sauber
- fehlerhaft kann weich sein und Alternativen enthalten (Konfidenzen für jedes Zeichen/Byte)
- jeweils historisch oder modern
- inklusive jeweiliger Metainformationen
- lege ein Schema (für Domänen) fest, auf das alle Domänen gemappt werden
- inklusive jeweiliger Metadaten, soweit verfügbar (sonst entweder Unterspezifikation oder generative Klassifikation)
Sonstiges:
- wie bettet sich das in den Bayes'schen Kontext ein?
- Wie bettet sich das in das Bayes'schen Paradigma ein? (analytische und empirische Argumente für neuronale Lernverfahren)
- Sliding-Window ist bei Sequence-to-Sequence-Ansatz schwierig, da wir bei
der Ausgabegenerierung einen Baum erhalten
der Ausgabegenerierung einen Baum erhalten – aber Attention könnte helfen
- aus dem RNN kann man Embeddings für Kontexte extrahieren, die in einer
diskretisierten Form für den FST-Ansatz benutzt werden könnten
- oder umgekehrt das FST-Fehlermodell mit dem RNN-Fehlermodell koppeln (als dessen Eingabe oder als Ensemble)
Weitere Ideen zum Inhalt:
- breite Analyse von Ansätzen
- Forschungsprojekt, nicht Tool-Bau-Projekt
- Forschungsprojekt, (zunächst) kein Produkt oder Nutzerwerkzeug mit dauerhafter Weiterentwicklung/Wartung
- Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet
Mögliche Titel:
- Towards Context-Aware Language Models for Historical OCR Post-Correction
- Comprehensive Context-Aware Language Models for Historical OCR Post-Correction
- Leveraging Document and Text Context in Language Models for
OCR-Postcorrection
- Context-Aware OCR-Postcorrection for Historical Documents
- `Towards Context-Aware Language Models for Historical OCR Post-Correction`
- `Comprehensive Context-Aware Language Models for Historical OCR Post-Correction`
- `Leveraging Document and Text Context in Language Models for
OCR-Postcorrection`
- `Context-Aware OCR-Postcorrection for Historical Documents`
(Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten)
Planung:
- Mittwoch - erster Entwurf mit Notizen zu dem, was wir schreiben wollen
- Montag - Letzte Verbesserungen, Einreichung
- Mittwoch erster Entwurf mit Notizen zu dem, was wir schreiben wollen
- Montag Letzte Verbesserungen, Einreichung