planung für pandoc formatiert (4 Leerzeichen bei verschachtelten Listen) authored by Robert Sachunsky's avatar Robert Sachunsky
......@@ -7,16 +7,16 @@
:construction: Alles geklärt bis auf Normierung – einarbeiten, neue Seite zu Architektur anfangen!
1. Entwicklung Architektur:
1. Kombination von FST mit RNN (Alternativengraph vs Merkmalvektor, DP-Suche),
1. wortbasierte Sprachmodelle (Merkmalextraktion/numerische Repräsentation bei RNN, Wortklassen oder direkt, Konvention der Tokenisierung/Textnormalisierung)
1. Kanonisierung oder rein historisches Lexikon/Sprachmodell oder "historisierte" Daten (NC-Modell)
1. Kombination von FST mit RNN (Alternativengraph vs Merkmalvektor, DP-Suche),
1. wortbasierte Sprachmodelle (Merkmalextraktion/numerische Repräsentation bei RNN, Wortklassen oder direkt, Konvention der Tokenisierung/Textnormalisierung)
1. Kanonisierung oder rein historisches Lexikon/Sprachmodell oder "historisierte" Daten (NC-Modell)
mit Koordinierungsprojekt (und mit LMU) abstimmen!
1. Wort-Resegmentierung (Worttrennzeichen im Fehlermodell), auf welcher Einheitengröße suchen vs modellieren wir? (z.B. ges. Dokument für Sprachmodell, aber nur Zeile oder nur 10-Zeichen-Fenster für Fehler)
1. (lazy/n-best) Komposition bzw DP-Suche (Hypothesen+Fehler, Fehler+Lexikon, Fehler+Zeichensprachmodell); Viterbi/Beamsearch vs A* usw.
1. Normierung der einzelnen Konfidenzen, Möglichkeit zur Gewichtung der Modelle (und Varianten) untereinander (also Hypothesen/Fehler/Lexikon/Sprachmodell), Gesamtschwellwert; Schätzung sinnvoller Gewichte/Schwellwerte auf Lernstichprobe
1. Erkennung der Muttersprache und Domäne (Anfang+Ende) für Auswahl von Lexikon und Sprachmodell; Domäne als Textelement, Textgattung, Zeitraum, Dialekt, Textnormalisierungskonvention
1. Wort-Resegmentierung (Worttrennzeichen im Fehlermodell), auf welcher Einheitengröße suchen vs modellieren wir? (z.B. ges. Dokument für Sprachmodell, aber nur Zeile oder nur 10-Zeichen-Fenster für Fehler)
1. (lazy/n-best) Komposition bzw DP-Suche (Hypothesen+Fehler, Fehler+Lexikon, Fehler+Zeichensprachmodell); Viterbi/Beamsearch vs A* usw.
1. Normierung der einzelnen Konfidenzen, Möglichkeit zur Gewichtung der Modelle (und Varianten) untereinander (also Hypothesen/Fehler/Lexikon/Sprachmodell), Gesamtschwellwert; Schätzung sinnvoller Gewichte/Schwellwerte auf Lernstichprobe
1. Erkennung der Muttersprache und Domäne (Anfang+Ende) für Auswahl von Lexikon und Sprachmodell; Domäne als Textelement, Textgattung, Zeitraum, Dialekt, Textnormalisierungskonvention
mit Koordinierungsprojekt (und mit LMU) abstimmen!
1. Protokollierungsmöglichkeiten (ohne gesamten Suchraum exportieren zu müssen, etwa diskrete Ereignisse aus wertstetigen Graphen; mindestens Ersetzungskandidaten mit Konfidenz, evtl Lexikon-Ableitungsgraph, Fehler-Verwechslungsgraph, Sprachmodell-Bewertung/Domäne, Muttersprache)
1. Protokollierungsmöglichkeiten (ohne gesamten Suchraum exportieren zu müssen, etwa diskrete Ereignisse aus wertstetigen Graphen; mindestens Ersetzungskandidaten mit Konfidenz, evtl Lexikon-Ableitungsgraph, Fehler-Verwechslungsgraph, Sprachmodell-Bewertung/Domäne, Muttersprache)
optional?
1. Morphologie: unüberwacht/datengetrieben vs regelbasiert (F+D+K) vs kombiniert; für verschiedene Sprachen, für Eigennamen/OOV (Zeichen-Polygramme)
......@@ -87,9 +87,9 @@ Folgen für uns:
1. Komposition von Lexikon und Fehlermodell vorberechnen
1. Test verschiedener Wort-/Sprachmodelle:
1. Lexikon und Ganzwortmorphologie
1. nur Lexikon (Maciejs Lexikon mit 50k Wortformen, Asse-Lexikon)
1. Zeichen-ngram-Sprachmodell mit OpenGrm
1. Lexikon und Ganzwortmorphologie
1. nur Lexikon (Maciejs Lexikon mit 50k Wortformen, Asse-Lexikon)
1. Zeichen-ngram-Sprachmodell mit OpenGrm
1. Lazy Composition testen (OpenFST-Implementierung in C++)
1. Vergleich der Laufzeit mit WWMOCR
......@@ -523,11 +523,13 @@ Weitere Ideen zum Inhalt:
- Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet
Mögliche Titel:
- `Towards Context-Aware Language Models for Historical OCR Post-Correction`
- `Comprehensive Context-Aware Language Models for Historical OCR Post-Correction`
- `Leveraging Document and Text Context in Language Models for
OCR-Postcorrection`
- `Context-Aware OCR-Postcorrection for Historical Documents`
> _Towards Context-Aware Language Models for Historical OCR Post-Correction_
> _Comprehensive Context-Aware Language Models for Historical OCR Post-Correction_
> _Leveraging Document and Text Context in Language Models for OCR-Postcorrection_
> _Context-Aware OCR-Postcorrection for Historical Documents_
(Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten)
......@@ -561,34 +563,32 @@ Rückmeldungen)
- PrintSpace nicht aus buchdrucktechnischer Sicht (d.h. alles was gesetzt werden muß), sondern abstrakter (alles was den fortlaufenden "Text" des Buches ausmacht)
- Unterscheidung zwischen Textflusselementen und Textfluss unterbrechenden
Elementen:
- Erfassung und Klassifizierung der Textfluß-Abfolge der Region-Elemente in `ReadingOrder`
- entweder als `OrderedGroup` oder `UnorderedGroup`
- Unterscheidung zwischen Textflusselementen und Textfluss unterbrechenden Elementen:
- Erfassung und Klassifizierung der Textfluß-Abfolge der Region-Elemente in `ReadingOrder`
- entweder als `OrderedGroup` oder `UnorderedGroup`
- neuer Struktur-GT (nur Zoning, kein Inhalt)
- Fonts werden grob eingeteilt in alle Antiqua-artigen und "Blackletter" (d.h. gebrochene und historische Schriften)
- mit Statistik zu Page-Typen (d.h. wieviele `content`, `title`, `index` und `other`) und Region-Typen (s.o.)
- Fonts werden grob eingeteilt in alle Antiqua-artigen und "Blackletter" (d.h. gebrochene und historische Schriften)
- mit Statistik zu Page-Typen (d.h. wieviele `content`, `title`, `index` und `other`) und Region-Typen (s.o.)
#### Eigenentwicklungen Koordinierungsprojekt (Konstantin Baierer, Kay-Michael Würzner)
- Konzept: Integration der Tools über die Kommandozeile, aber als spezialisierte, einheitliche CLI mit einer __Workspace__ genannten gekapselten persistenten Datenverwaltung auf Basis von METS/PAGE
- Arbeitsschwerpunkte:
- *Spezifikationen* (Richtlinien zu Datenformaten, Anforderungen an Schnittstellen, normativ und antizipativ aber diskutabel)
- *Werkzeuge* (Verifikation und Referenzimplementierungen)
- [*Glossar*](https://ocr-d.github.io/glossary) zur verbindlichen Festlegung kritischer Begriffe (Druckspiegel/Printspace, Zeichen/Glyph/Graphemcluster, ...)
- *Spezifikationen* (Richtlinien zu Datenformaten, Anforderungen an Schnittstellen, normativ und antizipativ aber diskutabel)
- *Werkzeuge* (Verifikation und Referenzimplementierungen)
- [*Glossar*](https://ocr-d.github.io/glossary) zur verbindlichen Festlegung kritischer Begriffe (Druckspiegel/Printspace, Zeichen/Glyph/Graphemcluster, ...)
- Erklärung der einzelnen Repositories auf Github:
- [spec](https://github.com/OCR-D/spec): Spezifikation von Ein-/Ausgabeformaten, Schnittstellenanforderungen
(später: Deployment)
- [docs](https://github.com/OCR-D/docs): Beispiele, Cookbook für die Dokumentation, Metadokumentation
- [core](https://github.com/OCR-D/core): eigentliches Framework, Implementation von *spec* als Python-Toolkit,
mit API für PageXML und METS, mit CLI für die Python-Schnittstelle (später: auch Wrapping
durch Web-Schnittstelle)
- [assets](https://github.com/OCR-D/assets): Testdaten, integrierter Webserver
- [ocrd_*](https://github.com/OCR-D/): Referenz-Implementierungen, Tests von Grundfunktionalitäten, Integrationskonzept
- Vorträge, Monorepo (alle Repos integrierende Arbeitsumgebung), OCR-D-Forks wichtiger anderer Projekte
- [spec](https://github.com/OCR-D/spec): Spezifikation von Ein-/Ausgabeformaten, Schnittstellenanforderungen (später: Deployment)
- [docs](https://github.com/OCR-D/docs): Beispiele, Cookbook für die Dokumentation, Metadokumentation
- [core](https://github.com/OCR-D/core): eigentliches Framework, Implementation von *spec* als Python-Toolkit,
mit API für PageXML und METS, mit CLI für die Python-Schnittstelle (später: auch Wrapping
durch Web-Schnittstelle)
- [assets](https://github.com/OCR-D/assets): Testdaten, integrierter Webserver
- [ocrd_*](https://github.com/OCR-D/): Referenz-Implementierungen, Tests von Grundfunktionalitäten, Integrationskonzept
- Vorträge, Monorepo (alle Repos integrierende Arbeitsumgebung), OCR-D-Forks wichtiger anderer Projekte
- Verweis auf [Gitter](https://gitter.im/OCR-D/Lobby) als angebotener Team-Chat (im Browser)
- Probleme und Vorschläge möglichst für alle transparent auf [Github](https://github.com/OCR-D/spec/issues) organisieren
......@@ -625,19 +625,19 @@ Neue studentische Hilfskraft wird ab August die Erzeugung von (PageXML-formatier
- [unser Vortrag](https://git.informatik.uni-leipzig.de/ls36hiqo/ocr-d/blob/master/entwicklertreffen/presentation.pdf/presentation.pdf)
- Diskussion:
- Metadaten, die wir bekommen können:
* Erscheinungsdatum (nicht normalisiert)
* Autorschaft (nicht normalisiert)
* Regalnummer (aber fragwürdig)
* Genre: wird noch geklärt
* Sprache: wurde sehr ungenau genutzt/annotiert
- Zustandshafte Integrationsschnittstelle zu verwenden, damit Kontext für uns über lange Passagen hinweg sichtbar ist, wäre technisch gesehen wohl nicht problematisch. Müsste man in der konkreten Anwendung sehen.
- Mögliche Evaluations-Tools (mit OCR-spezifischen Metriken):
* Java-Implementation von Steven Price für die Edit-Distance, wohl nicht auf OCR ausgerichtet
* Im Impact-Projekt sind 4 verschiedene Evaluations-Tools für OCR
entstanden (für verschiedene Teilprobleme). Ursprünglich sollte hiervon
ein Tool beim Entwickler-Workshop gewrappt werden, wurde wegen
technischer Probleme dann nicht gemacht.
- Metadaten, die wir bekommen können:
* Erscheinungsdatum (nicht normalisiert)
* Autorschaft (nicht normalisiert)
* Regalnummer (aber fragwürdig)
* Genre: wird noch geklärt
* Sprache: wurde sehr ungenau genutzt/annotiert
- Zustandshafte Integrationsschnittstelle zu verwenden, damit Kontext für uns über lange Passagen hinweg sichtbar ist, wäre technisch gesehen wohl nicht problematisch. Müsste man in der konkreten Anwendung sehen.
- Mögliche Evaluations-Tools (mit OCR-spezifischen Metriken):
* Java-Implementation von Steven Price für die Edit-Distance, wohl nicht auf OCR ausgerichtet
* Im Impact-Projekt sind 4 verschiedene Evaluations-Tools für OCR
entstanden (für verschiedene Teilprobleme). Ursprünglich sollte hiervon
ein Tool beim Entwickler-Workshop gewrappt werden, wurde wegen
technischer Probleme dann nicht gemacht.
##### Tesseract als Komponente in OCR-D (Stefan Weil, Noah Metzger)
......@@ -803,6 +803,8 @@ Organisatorisches:
- Da es keine erfolgreiche Einreichung für das Modul Qualitätssicherung
gab, wird die BBAW dieses Modul übernehmen.
- Zusammenarbeit mit CIS bei Alignierung und Sprachmodell
- Besuch des CIS in München ist geplant (vor dem 15. Oktober)
Inhalt:
......@@ -816,4 +818,3 @@ Inhalt:
- Vorstellung der Struktur-Ground-Truth und der Dokumentationsrichtlinien
- Zusammenarbeit mit CIS bei Alignierung und Sprachmodell