Changes
Page history
Update planung
authored
Jun 12, 2018
by
Lena Schiffer
Show whitespace changes
Inline
Side-by-side
planung.md
View page @
d35981e0
...
...
@@ -443,3 +443,85 @@ abgrenzen würden.
#### Grapheingabe für RNNs
Was Graph-Input für RNNs angeht, so könnten wir Andreas Maletti fragen, was er noch an Kombinationsmöglichkeiten kennt.
### 12. Juni 2018
(Prof. Heyer, Thomas Efer)
Die European Association for Digital Humanities (EADH)
veranstaltet die Konferenz zum Thema "Data in Digital Humanities" an der
National University of Ireland, Galway, 7-9 Dezember 2018.
Deadline für die Einreichung eines Abstracts ist am 18. Juni 2018.
Mögliche Einreichungen:
-
Poster (Abstract 500-750 Wörter, ca. 1,5 Seiten)
-
Short Paper (Abstract 750-1000 Wörter)
Unser Vorgehen:
1.
Entwurf: Was wollen wir?
2.
sukzessives Auffüllen
Mögliche Inhalte:
-
OCR ist ein wichtiges Thema
-
OCR-D beschreiben
-
unsere Arbeitsschwerpunkte
-
Anwendungsperspektive
-
historische Sprachmodelle im Rahmen von OCR-D
-
verschiedene Ansätze evaluieren
-
Architektur/Komponenten beschreiben
-
Standardmodelle bereitstellen
-
Testen mit DTA-Daten
-
Model Selection, Verbesserung auf verschiedenen Zeitperioden
-
Verallgemeinerung für andere Sprachen (Bibliotheca Arabica?)
(Thomas Efer)
Kontext:
-
Ausgabe der vorherigen Arbeitsschritte: Layout, Schriftart
-
dokumentspezifische Metadaten: Zeit, Herkunft, Autor, Textart, Region
-
Mini-Taxonomie der Kontexte beschreiben
-
Kontext kann für jede Zeile anders sein
-
Kontext-Embedding
Verfahren:
-
Sprachmodell, das auf allen diesen Kontexten konditioniert ist, und diese
als Input bekommt
-
Sprachmodelle für verschiedene Sprachen gleichzeitig anwenden, die
Ausgabewerte dieser Sprachmodelle als zusätzliche Eingabe verwenden
-
für Wortmodell (falls verwendet) auch Kontext mittrainieren (wie bei
hist-words, Bedeutungsverschiebung über Zeit in Embeddings sichtbar)
Mögliche Trainingsdaten:
-
sauber - sauber
-
fehlerhaft - sauber
-
künstlich fehlerhaft - sauber
-
jeweils historisch oder modern
-
inklusive jeweiliger Metainformationen
-
lege ein Schema (für Domänen) fest, auf das alle Domänen gemappt werden
Sonstiges:
-
wie bettet sich das in den Bayes'schen Kontext ein?
-
Sliding-Window ist bei Sequence-to-Sequence-Ansatz schwierig, da wir bei
der Ausgabegenerierung einen Baum erhalten
-
aus dem RNN kann man Embeddings für Kontexte extrahieren, die in einer
diskretisierten Form für den FST-Ansatz benutzt werden könnten
Weitere Ideen zum Inhalt:
-
breite Analyse von Ansätzen
-
Forschungsprojekt, nicht Tool-Bau-Projekt
-
Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet
Mögliche Titel:
-
Towards Context-Aware Language Models for Historical OCR Post-Correction
-
Comprehensive Context-Aware Language Models for Historical OCR Post-Correction
-
Leveraging Document and Text Context in Language Models for
OCR-Postcorrection
-
Context-Aware OCR-Postcorrection for Historical Documents
(Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten)
Planung:
-
Mittwoch - erster Entwurf mit Notizen zu dem, was wir schreiben wollen
-
Montag - Letzte Verbesserungen, Einreichung