Report erstellen

Bericht - Allgemeines:

max. 10 Seiten laut Kick-off

A short report (max. 10 pages)
– Motivation for the domain; what makes the domain/documents special?
– Description of the search engine’s architecture and retrieval model.
– Evaluation of the search engine.

ToDo

Domäne (4 Seiten, davon 1 1/2 Seiten Grafiken)
- Motivation (1/4 Seite)
- Daten (1/4 Seite)
- Analyse¹ (2 1/2 Seiten) @js35jisu
Architektur (4 1/2 Seiten, davon 2 Seiten Grafiken)
- Visualisierung der Architektur, angelehnt an die VL-Slides (siehe #64 (closed)) (1/2 Seite)
- Tracking-Konzept (1/2 Seite; Verweise auf konkrete Stellen im Part Frontend und Backend)
- Visualisierung der PreProcessing Pipeline (siehe #65 (closed)) (1/2 Seite)
- Retrieval-Modell: Muss noch Rausgefunden werden - siehe ELK-Doku (1/2 Seite) @nr48bawy
- Technologie-Stack: Beschreibung von Aufbau und Interaktion des Frontends, Backends. Siehe Architektur-Schaubild ("Request-Response-Lifecycle") (1 Seite)
- Evtl. ein paar Worte zu Flask, bzw. Verweis auf Backend-Doku, siehe #69 (closed) (Auch Auslieferung des Frontend-Build) (1/2 Seite)
- Web-Interface: Beschreibung vom Vue-Frontend, Aufbau und Funktionalitäten, siehe Frontend-Readme (1 Seite) (Verweis Evaluation)
Evaluation (Ranking-Analyse) (2 1/2 Seiten Text + TREC-Report)
- Experimente Beschreiben (1 Seite) @lg58weky
- TREC-Report @ls80zyse
- Precision-Recall-Kurve (+F-Score)
- Ausblick (1/2 Seite)
Schlussbetrachtung (1/2 Seite)

Insgesamt 8 Seiten Text.

[1] Analyse

Numerische Werte

Wir brauchen jeweils die Verteilungen von skalaren Werten (Kibana, Version mit und ohne die 'Ausreißer'). Siehe #68 (closed)
beim Rating: Mittelwerte, '3.75' spricht dafür, dass ein Mittel aus nicht sehr vielen Ratings gebildet wurde. Daher wurden Ratings nicht für den Index berücksichtigt.

Grafiken

Textfelder: Die Verteilung mit plotten (Desc. oft nicht gesetzt etc, wieder zurückführen auf Crawling)

[3] Evalutation (Ideen @lg58weky)

Ausblick

Geringe Precision: Retrieval Tasks könnten weniger spezifisch formuliert werden
Rechtschreibfehler ('potatoe' - kein Ergebnis mit 'potato') in Retrieval Tasks haben großen Einfluss - Stemming optimieren
Man könnte eine Sammlung von Phrasen mit höhrerer Gewichtung erstellen (must-Anforderung) für Phrasen wie zB 'low carb' 'diet' 'vegan' ...
evtl zweiter Index

[4] Schlussbetrachtung (Ideen @lg58weky)

Ideen

Die Suchmaschine hat eine niedrige precision - Änderungspotenziale siehe Evaluation/Ausblick
Bilder zu den Rezepten wären schön - könnte man crawlen
evtl mehr Suchergebnisse anzeigen lassen
Korpus ist klein und hat viele Einträge mit schlechter Qualität

Fazit

Resultat ist zufriedenstellend
Information Needs (siehe Evaluation) können nicht unbedingt befriedigt werden, zu anspruchsvoll
Erstellung eines Index mit Elastic Search ist sehr einfach - nimmt viel Arbeit ab

Anhang

Grafiken, Source-Code-Doku, TREC-Eval-Report etc. können zur not in den Anhang, sodass die 10 Seiten sich nur auf Text beziehen.

Edited Sep 18, 2018 by Jonathan Schlue

Assignee Loading

Time tracking Loading