Update planung authored by Lena Schiffer's avatar Lena Schiffer
......@@ -961,4 +961,111 @@ Ergebnisse:
### 4. - 5. Oktober ([Bibliotheca Baltica](https://www.bb2018.uni-rostock.de/) in Rostock)
#### ALTO
ALTO kann Whitespace repräsentieren.
Bibliotheken benutzen schon ALTO.
Die Verwendung von ALTO würde die Probleme mit PageXML lösen.
PageXML speichert viermal den gleichen Text auf verschiedenen Ebenen (hohe
Redundanz), ALTO nicht.
#### Transkribus
Transkribus wir definitiv nicht in die OCR-D-Pipeline eingebaut werden, da
es nicht Open-Source ist (bzw. nur das Desktop-Programm ist OPen-Source,
nicht aber die OCR).
Abgrenzung zum Transkribus-Ansatz:
Bei Transkribus führt ein einzelner Forscher eine
Spezialisierung für seinen Anwendungsfall durch.
Unser Auftrag ist die Massendigitalisierung.
#### Metadaten
Metadaten sind problematisch, da es hier sehr viel Varianz gibt und
Menschen nicht verlässlich sind. Nur die Kapiteleinteilung ist verlässlich.
#### Modellrepositorium
Das Modul aus Karlsruhe will bis Ende des Jahres ein System für die
Modellablage ausgesetzt haben.
#### Transfer Learning
Interessant wäre die Verwendung von Transfer Learning, also Training großer
Modelle mit synchronen Daten und eine Spezialisierung mit den DTA-Daten.
#### Tesseract und Modellierung von Font-Informationen
Man kann der OCR-Engine zwei Modelle übergeben, wenn man feststellt, dass auf
einer Zeile z.B. sowohl Antiqua als auch Fraktur vorkommen.
Tesseract kombiniert die Ergebnisse über die Konfidenzen.
Auf welcher Ebene möchte man die Metadaten annotieren?
Die Schriftarterkennung hängt von dem Modul aus Erlangen ab.
Sie müssen eine Schnittstelle bereitstellen
(Prozess-Metadaten sollten sagen, wohin mit den Workflow-Metadaten).
Zeichensatz als zusätzlichen Parameter im OCR-Wrapper, den die OCR-Engine
nutzen kann?
Es wird mittels einer Richtlinie festgelegt, welche Kodierung
konkurrierender Zeichen (ü als einzelnes Zeichen oder als u + Striche)
gewählt werden soll.
`char_blacklist` und `char_whitelist` nur in Tesseract 3? (nicht in Tesseract 4?)
Man kann die OCR-Engines so einstellen, dass sie NUR Zeichenerkennung
durchführen und kein Sprachmodell verwenden.
Nachkorrektur wird dann nur im Modul Nachkorrektur durchgeführt.
Bei Tesseract kann man Zeichen ins Modell nachtrainieren.
Metadaten auf Wortebene?
Wenn Wortsegmentierung unterschiedlich ist, können beide Metadaten nicht
zusammengebracht werden.
(z.B. bei Multi-OCR mit verschiedenen Segmentierungen)
Es wird vermutlich so sein, dass es die Font-Features erstmal nur auf
Zeilenebene gibt.
#### Multi-OCR-Alignierung
Was passiert mit den Koordinaten?
Was mit den Font-Metadaten?
Man kann diese Informationen nicht trivial wieder zusammensetzen.
Bezugseinheit zwischen den OCRs:
- feste Zeilensegmentierung
- die Koordianten sind eine verlässliche Bezugsgröße
- die Wortebene/Zeichenebene sind nur vage und nicht verlässlich
Wenn wir eine Alignierung in PageXML darstellen wollen, können wir
Möglichkeiten dafür schaffen, da wir über der Format die volle Freiheit
haben.
Wortebene der Eingabe wegwerfen?
Wenn die Zeichenebene auch Koordinaten hat, können wir die Wortebene aus
den Zeichen und deren Koordinaten herstellen.
Font-Feature-Konflikte werden über Mehrheitsentscheid gelöst.
Zum Teil wechselt die Font innerhalb eines einzelnen Wortes, daher müssten
die Font-Features auf Glyph-Ebene stehen.
Die Koordinaten werden nur für das Highlighting von Suchbegriffen
verwendet. Genauigkeit ist hier also nicht entscheidend.
Darstellung der Alignierung durch diff-Format?
Darstellugn als string in PageXML speichern?
Aber diff legt sich auf einen Master fest und beschreibt Editieroperationen
zu Master (wie wird das in der Biologie gelöst?)
### 17. Oktober (mit Prof. Heyer)