planung für pandoc formatiert (4 Leerzeichen bei verschachtelten Listen) authored by Robert Sachunsky's avatar Robert Sachunsky
...@@ -523,11 +523,13 @@ Weitere Ideen zum Inhalt: ...@@ -523,11 +523,13 @@ Weitere Ideen zum Inhalt:
- Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet - Formulierung so, dass es sich eher an den Geisteswissenschaftler wendet
Mögliche Titel: Mögliche Titel:
- `Towards Context-Aware Language Models for Historical OCR Post-Correction` > _Towards Context-Aware Language Models for Historical OCR Post-Correction_
- `Comprehensive Context-Aware Language Models for Historical OCR Post-Correction`
- `Leveraging Document and Text Context in Language Models for > _Comprehensive Context-Aware Language Models for Historical OCR Post-Correction_
OCR-Postcorrection`
- `Context-Aware OCR-Postcorrection for Historical Documents` > _Leveraging Document and Text Context in Language Models for OCR-Postcorrection_
> _Context-Aware OCR-Postcorrection for Historical Documents_
(Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten) (Wichtige Inhalte des Titels: Nachkorrektur, historische Korpora, Metadaten)
...@@ -561,8 +563,7 @@ Rückmeldungen) ...@@ -561,8 +563,7 @@ Rückmeldungen)
- PrintSpace nicht aus buchdrucktechnischer Sicht (d.h. alles was gesetzt werden muß), sondern abstrakter (alles was den fortlaufenden "Text" des Buches ausmacht) - PrintSpace nicht aus buchdrucktechnischer Sicht (d.h. alles was gesetzt werden muß), sondern abstrakter (alles was den fortlaufenden "Text" des Buches ausmacht)
- Unterscheidung zwischen Textflusselementen und Textfluss unterbrechenden - Unterscheidung zwischen Textflusselementen und Textfluss unterbrechenden Elementen:
Elementen:
- Erfassung und Klassifizierung der Textfluß-Abfolge der Region-Elemente in `ReadingOrder` - Erfassung und Klassifizierung der Textfluß-Abfolge der Region-Elemente in `ReadingOrder`
- entweder als `OrderedGroup` oder `UnorderedGroup` - entweder als `OrderedGroup` oder `UnorderedGroup`
...@@ -580,8 +581,7 @@ Elementen: ...@@ -580,8 +581,7 @@ Elementen:
- [*Glossar*](https://ocr-d.github.io/glossary) zur verbindlichen Festlegung kritischer Begriffe (Druckspiegel/Printspace, Zeichen/Glyph/Graphemcluster, ...) - [*Glossar*](https://ocr-d.github.io/glossary) zur verbindlichen Festlegung kritischer Begriffe (Druckspiegel/Printspace, Zeichen/Glyph/Graphemcluster, ...)
- Erklärung der einzelnen Repositories auf Github: - Erklärung der einzelnen Repositories auf Github:
- [spec](https://github.com/OCR-D/spec): Spezifikation von Ein-/Ausgabeformaten, Schnittstellenanforderungen - [spec](https://github.com/OCR-D/spec): Spezifikation von Ein-/Ausgabeformaten, Schnittstellenanforderungen (später: Deployment)
(später: Deployment)
- [docs](https://github.com/OCR-D/docs): Beispiele, Cookbook für die Dokumentation, Metadokumentation - [docs](https://github.com/OCR-D/docs): Beispiele, Cookbook für die Dokumentation, Metadokumentation
- [core](https://github.com/OCR-D/core): eigentliches Framework, Implementation von *spec* als Python-Toolkit, - [core](https://github.com/OCR-D/core): eigentliches Framework, Implementation von *spec* als Python-Toolkit,
mit API für PageXML und METS, mit CLI für die Python-Schnittstelle (später: auch Wrapping mit API für PageXML und METS, mit CLI für die Python-Schnittstelle (später: auch Wrapping
...@@ -803,6 +803,8 @@ Organisatorisches: ...@@ -803,6 +803,8 @@ Organisatorisches:
- Da es keine erfolgreiche Einreichung für das Modul Qualitätssicherung - Da es keine erfolgreiche Einreichung für das Modul Qualitätssicherung
gab, wird die BBAW dieses Modul übernehmen. gab, wird die BBAW dieses Modul übernehmen.
- Zusammenarbeit mit CIS bei Alignierung und Sprachmodell
- Besuch des CIS in München ist geplant (vor dem 15. Oktober) - Besuch des CIS in München ist geplant (vor dem 15. Oktober)
Inhalt: Inhalt:
...@@ -816,4 +818,3 @@ Inhalt: ...@@ -816,4 +818,3 @@ Inhalt:
- Vorstellung der Struktur-Ground-Truth und der Dokumentationsrichtlinien - Vorstellung der Struktur-Ground-Truth und der Dokumentationsrichtlinien
- Zusammenarbeit mit CIS bei Alignierung und Sprachmodell