Changes

Lena Schiffer · e6fefcbe
--- a/planung.md
+++ b/planung.md
@@ -961,4 +961,111 @@ Ergebnisse:

 ### 4. - 5. Oktober ([Bibliotheca Baltica](https://www.bb2018.uni-rostock.de/) in Rostock)

+
+#### ALTO
+
+ALTO kann Whitespace repräsentieren.
+Bibliotheken benutzen schon ALTO.
+Die Verwendung von ALTO würde die Probleme mit PageXML lösen.
+PageXML speichert viermal den gleichen Text auf verschiedenen Ebenen (hohe
+Redundanz), ALTO nicht.
+
+#### Transkribus
+
+Transkribus wir definitiv nicht in die OCR-D-Pipeline eingebaut werden, da
+es nicht Open-Source ist (bzw. nur das Desktop-Programm ist OPen-Source,
+nicht aber die OCR).
+
+Abgrenzung zum Transkribus-Ansatz:
+Bei Transkribus führt ein einzelner Forscher eine
+Spezialisierung für seinen Anwendungsfall durch.
+Unser Auftrag ist die Massendigitalisierung.
+
+#### Metadaten
+
+Metadaten sind problematisch, da es hier sehr viel Varianz gibt und
+Menschen nicht verlässlich sind. Nur die Kapiteleinteilung ist verlässlich.
+
+#### Modellrepositorium
+
+Das Modul aus Karlsruhe will bis Ende des Jahres ein System für die
+Modellablage ausgesetzt haben.
+
+#### Transfer Learning
+
+Interessant wäre die Verwendung von Transfer Learning, also Training großer
+Modelle mit synchronen Daten und eine Spezialisierung mit den DTA-Daten.
+
+#### Tesseract und Modellierung von Font-Informationen
+
+Man kann der OCR-Engine zwei Modelle übergeben, wenn man feststellt, dass auf
+einer Zeile z.B. sowohl Antiqua als auch Fraktur vorkommen.
+Tesseract kombiniert die Ergebnisse über die Konfidenzen.
+
+Auf welcher Ebene möchte man die Metadaten annotieren?
+
+Die Schriftarterkennung hängt von dem Modul aus Erlangen ab.
+Sie müssen eine Schnittstelle bereitstellen
+(Prozess-Metadaten sollten sagen, wohin mit den Workflow-Metadaten).
+
+Zeichensatz als zusätzlichen Parameter im OCR-Wrapper, den die OCR-Engine
+nutzen kann?
+
+Es wird mittels einer Richtlinie festgelegt, welche Kodierung
+konkurrierender Zeichen (ü als einzelnes Zeichen oder als u + Striche)
+gewählt werden soll.
+
+`char_blacklist` und `char_whitelist` nur in Tesseract 3? (nicht in Tesseract 4?)
+
+Man kann die OCR-Engines so einstellen, dass sie NUR Zeichenerkennung
+durchführen und kein Sprachmodell verwenden.
+Nachkorrektur wird dann nur im Modul Nachkorrektur durchgeführt.
+
+Bei Tesseract kann man Zeichen ins Modell nachtrainieren.
+
+Metadaten auf Wortebene?
+Wenn Wortsegmentierung unterschiedlich ist, können beide Metadaten nicht
+zusammengebracht werden.
+(z.B. bei Multi-OCR mit verschiedenen Segmentierungen)
+
+Es wird vermutlich so sein, dass es die Font-Features erstmal nur auf
+Zeilenebene gibt.
+
+#### Multi-OCR-Alignierung
+
+Was passiert mit den Koordinaten?
+Was mit den Font-Metadaten?
+
+Man kann diese Informationen nicht trivial wieder zusammensetzen.
+
+Bezugseinheit zwischen den OCRs:
+- feste Zeilensegmentierung
+- die Koordianten sind eine verlässliche Bezugsgröße
+- die Wortebene/Zeichenebene sind nur vage und nicht verlässlich
+
+Wenn wir eine Alignierung in PageXML darstellen wollen, können wir
+Möglichkeiten dafür schaffen, da wir über der Format die volle Freiheit
+haben.
+
+Wortebene der Eingabe wegwerfen?
+Wenn die Zeichenebene auch Koordinaten hat, können wir die Wortebene aus
+den Zeichen und deren Koordinaten herstellen.
+
+Font-Feature-Konflikte werden über Mehrheitsentscheid gelöst.
+
+Zum Teil wechselt die Font innerhalb eines einzelnen Wortes, daher müssten
+die Font-Features auf Glyph-Ebene stehen.
+
+Die Koordinaten werden nur für das Highlighting von Suchbegriffen
+verwendet. Genauigkeit ist hier also nicht entscheidend.
+
+Darstellung der Alignierung durch diff-Format?
+Darstellugn als string in PageXML speichern?
+Aber diff legt sich auf einen Master fest und beschreibt Editieroperationen
+zu Master (wie wird das in der Biologie gelöst?)
+
+
+
+
+
 ### 17. Oktober (mit Prof. Heyer)