Update planung authored by Lena Schiffer's avatar Lena Schiffer
......@@ -443,3 +443,85 @@ abgrenzen würden.
#### Grapheingabe für RNNs
Was Graph-Input für RNNs angeht, so könnten wir Andreas Maletti fragen, was er noch an Kombinationsmöglichkeiten kennt.
### 12. Juni 2018
(Prof. Heyer, Thomas Efer)
Die European Association for Digital Humanities (EADH)
veranstaltet die Konferenz zum Thema "Data in Digital Humanities" an der
National University of Ireland, Galway, 7-9 Dezember 2018.
Deadline für die Einreichung eines Abstracts ist am 18. Juni 2018.
Mögliche Einreichungen:
- Poster (Abstract 500-750 Wörter, ca. 1,5 Seiten)
- Short Paper (Abstract 750-1000 Wörter)
Unser Vorgehen:
1. Entwurf: Was wollen wir?
2. sukzessives Auffüllen
Mögliche Inhalte:
- OCR ist ein wichtiges Thema
- OCR-D beschreiben
- unsere Arbeitsschwerpunkte
- Anwendungsperspektive
- historische Sprachmodelle im Rahmen von OCR-D
- verschiedene Ansätze evaluieren
- Architektur/Komponenten beschreiben
- Standardmodelle bereitstellen
- Testen mit DTA-Daten
- Model Selection, Verbesserung auf verschiedenen Zeitperioden
- Verallgemeinerung für andere Sprachen (Bibliotheca Arabica?)
(Thomas Efer)
Kontext:
- Ausgabe der vorherigen Arbeitsschritte: Layout, Schriftart
- dokumentspezifische Metadaten: Zeit, Herkunft, Autor, Textart, Region
- Mini-Taxonomie der Kontexte beschreiben
- Kontext kann für jede Zeile anders sein
- Kontext-Embedding
Verfahren:
- Sprachmodell, das auf allen diesen Kontexten konditioniert ist, und diese
als Input bekommt
- Sprachmodelle für verschiedene Sprachen gleichzeitig anwenden, die
Ausgabewerte dieser Sprachmodelle als zusätzliche Eingabe verwenden
- für Wortmodell (falls verwendet) auch Kontext mittrainieren (wie bei
hist-words, Bedeutungsverschiebung über Zeit in Embeddings sichtbar)
Mögliche Trainingsdaten:
- sauber - sauber
- fehlerhaft - sauber
- künstlich fehlerhaft - sauber
- jeweils historisch oder modern
- inklusive jeweiliger Metainformationen
- lege ein Schema (für Domänen) fest, auf das alle Domänen gemappt werden
Sonstiges:
- wie bettet sich das in den Bayes'schen Kontext ein?
- Sliding-Window ist bei Sequence-to-Sequence-Ansatz schwierig, da wir bei
der Ausgabegenerierung einen Baum erhalten
- aus dem RNN kann man Embeddings für Kontexte extrahieren, die in einer
diskretisierten Form für den FST-Ansatz benutzt werden könnten
Weitere Ideen zum Inhalt:
- breite Analyse von Ansätzen
- Forschungsprojekt, nicht Tool-Bau-Projekt
- Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet
Mögliche Titel:
- Towards Context-Aware Language Models for Historical OCR Post-Correction
- Comprehensive Context-Aware Language Models for Historical OCR Post-Correction
- Leveraging Document and Text Context in Language Models for
OCR-Postcorrection
- Context-Aware OCR-Postcorrection for Historical Documents
(Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten)
Planung:
- Mittwoch - erster Entwurf mit Notizen zu dem, was wir schreiben wollen
- Montag - Letzte Verbesserungen, Einreichung