planung für pandoc formatiert (4 Leerzeichen bei verschachtelten Listen) authored by Robert Sachunsky's avatar Robert Sachunsky
......@@ -523,11 +523,13 @@ Weitere Ideen zum Inhalt:
- Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet
Mögliche Titel:
- `Towards Context-Aware Language Models for Historical OCR Post-Correction`
- `Comprehensive Context-Aware Language Models for Historical OCR Post-Correction`
- `Leveraging Document and Text Context in Language Models for
OCR-Postcorrection`
- `Context-Aware OCR-Postcorrection for Historical Documents`
> _Towards Context-Aware Language Models for Historical OCR Post-Correction_
> _Comprehensive Context-Aware Language Models for Historical OCR Post-Correction_
> _Leveraging Document and Text Context in Language Models for OCR-Postcorrection_
> _Context-Aware OCR-Postcorrection for Historical Documents_
(Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten)
......@@ -561,8 +563,7 @@ Rückmeldungen)
- PrintSpace nicht aus buchdrucktechnischer Sicht (d.h. alles was gesetzt werden muß), sondern abstrakter (alles was den fortlaufenden "Text" des Buches ausmacht)
- Unterscheidung zwischen Textflusselementen und Textfluss unterbrechenden
Elementen:
- Unterscheidung zwischen Textflusselementen und Textfluss unterbrechenden Elementen:
- Erfassung und Klassifizierung der Textfluß-Abfolge der Region-Elemente in `ReadingOrder`
- entweder als `OrderedGroup` oder `UnorderedGroup`
......@@ -580,8 +581,7 @@ Elementen:
- [*Glossar*](https://ocr-d.github.io/glossary) zur verbindlichen Festlegung kritischer Begriffe (Druckspiegel/Printspace, Zeichen/Glyph/Graphemcluster, ...)
- Erklärung der einzelnen Repositories auf Github:
- [spec](https://github.com/OCR-D/spec): Spezifikation von Ein-/Ausgabeformaten, Schnittstellenanforderungen
(später: Deployment)
- [spec](https://github.com/OCR-D/spec): Spezifikation von Ein-/Ausgabeformaten, Schnittstellenanforderungen (später: Deployment)
- [docs](https://github.com/OCR-D/docs): Beispiele, Cookbook für die Dokumentation, Metadokumentation
- [core](https://github.com/OCR-D/core): eigentliches Framework, Implementation von *spec* als Python-Toolkit,
mit API für PageXML und METS, mit CLI für die Python-Schnittstelle (später: auch Wrapping
......@@ -803,6 +803,8 @@ Organisatorisches:
- Da es keine erfolgreiche Einreichung für das Modul Qualitätssicherung
gab, wird die BBAW dieses Modul übernehmen.
- Zusammenarbeit mit CIS bei Alignierung und Sprachmodell
- Besuch des CIS in München ist geplant (vor dem 15. Oktober)
Inhalt:
......@@ -816,4 +818,3 @@ Inhalt:
- Vorstellung der Struktur-Ground-Truth und der Dokumentationsrichtlinien
- Zusammenarbeit mit CIS bei Alignierung und Sprachmodell