Report erstellen

Bericht - Allgemeines:

A short report (max. 10 pages)
– Motivation for the domain; what makes the domain/documents special?
– Description of the search engine’s architecture and retrieval model.
– Evaluation of the search engine.

ToDo

  • Domäne (4 Seiten, davon 1 1/2 Seiten Grafiken)

    • Motivation (1/4 Seite)
    • Daten (1/4 Seite)
    • Analyse1 (2 1/2 Seiten) @js35jisu
  • Architektur (4 1/2 Seiten, davon 2 Seiten Grafiken)

    • Visualisierung der Architektur, angelehnt an die VL-Slides (siehe #64 (closed)) (1/2 Seite)
    • Tracking-Konzept (1/2 Seite; Verweise auf konkrete Stellen im Part Frontend und Backend)
    • Visualisierung der PreProcessing Pipeline (siehe #65 (closed)) (1/2 Seite)
    • Retrieval-Modell: Muss noch Rausgefunden werden - siehe ELK-Doku (1/2 Seite) @nr48bawy
    • Technologie-Stack: Beschreibung von Aufbau und Interaktion des Frontends, Backends. Siehe Architektur-Schaubild ("Request-Response-Lifecycle") (1 Seite)
    • Evtl. ein paar Worte zu Flask, bzw. Verweis auf Backend-Doku, siehe #69 (closed) (Auch Auslieferung des Frontend-Build) (1/2 Seite)
    • Web-Interface: Beschreibung vom Vue-Frontend, Aufbau und Funktionalitäten, siehe Frontend-Readme (1 Seite) (Verweis Evaluation)
  • Evaluation (Ranking-Analyse) (2 1/2 Seiten Text + TREC-Report)

    • Experimente Beschreiben (1 Seite) @lg58weky
    • TREC-Report @ls80zyse
    • Precision-Recall-Kurve (+F-Score)
    • Ausblick (1/2 Seite)
  • Schlussbetrachtung (1/2 Seite)


Insgesamt 8 Seiten Text.


[1] Analyse

Numerische Werte

  • Wir brauchen jeweils die Verteilungen von skalaren Werten (Kibana, Version mit und ohne die 'Ausreißer'). Siehe #68 (closed)
  • beim Rating: Mittelwerte, '3.75' spricht dafür, dass ein Mittel aus nicht sehr vielen Ratings gebildet wurde. Daher wurden Ratings nicht für den Index berücksichtigt.

Grafiken

  • Textfelder: Die Verteilung mit plotten (Desc. oft nicht gesetzt etc, wieder zurückführen auf Crawling)

[3] Evalutation (Ideen @lg58weky)

Ausblick

  • Geringe Precision: Retrieval Tasks könnten weniger spezifisch formuliert werden
  • Rechtschreibfehler ('potatoe' - kein Ergebnis mit 'potato') in Retrieval Tasks haben großen Einfluss - Stemming optimieren
  • Man könnte eine Sammlung von Phrasen mit höhrerer Gewichtung erstellen (must-Anforderung) für Phrasen wie zB 'low carb' 'diet' 'vegan' ...
  • evtl zweiter Index

[4] Schlussbetrachtung (Ideen @lg58weky)

Ideen

  • Die Suchmaschine hat eine niedrige precision - Änderungspotenziale siehe Evaluation/Ausblick
  • Bilder zu den Rezepten wären schön - könnte man crawlen
  • evtl mehr Suchergebnisse anzeigen lassen
  • Korpus ist klein und hat viele Einträge mit schlechter Qualität

Fazit

  • Resultat ist zufriedenstellend
  • Information Needs (siehe Evaluation) können nicht unbedingt befriedigt werden, zu anspruchsvoll
  • Erstellung eines Index mit Elastic Search ist sehr einfach - nimmt viel Arbeit ab

Anhang

Grafiken, Source-Code-Doku, TREC-Eval-Report etc. können zur not in den Anhang, sodass die 10 Seiten sich nur auf Text beziehen.

Edited by Jonathan Schlue