Report erstellen

Bericht - Allgemeines:

A short report (max. 10 pages)
– Motivation for the domain; what makes the domain/documents special?
– Description of the search engine’s architecture and retrieval model.
– Evaluation of the search engine.

ToDo

  • Domäne (4 Seiten, davon 1 1/2 Seiten Grafiken)

    • Motivation (1/4 Seite)
    • Daten (1/4 Seite)
    • Analyse1 (2 1/2 Seiten) @js35jisu
  • Architektur (4 1/2 Seiten, davon 2 Seiten Grafiken)

    • Visualisierung der Architektur, angelehnt an die VL-Slides (siehe #64 (closed)) (1/2 Seite)
    • Tracking-Konzept (1/2 Seite; Verweise auf konkrete Stellen im Part Frontend und Backend)
    • Visualisierung der PreProcessing Pipeline (siehe #65 (closed)) (1/2 Seite)
    • Retrieval-Modell: Muss noch Rausgefunden werden - siehe ELK-Doku (1/2 Seite) @nr48bawy
    • Technologie-Stack: Beschreibung von Aufbau und Interaktion des Frontends, Backends. Siehe Architektur-Schaubild ("Request-Response-Lifecycle") (1 Seite)
    • Evtl. ein paar Worte zu Flask, bzw. Verweis auf Backend-Doku, siehe #69 (closed) (Auch Auslieferung des Frontend-Build) (1/2 Seite)
    • Web-Interface: Beschreibung vom Vue-Frontend, Aufbau und Funktionalitäten, siehe Frontend-Readme (1 Seite) (Verweis Evaluation)
  • Evaluation (Ranking-Analyse) (2 1/2 Seiten Text + TREC-Report)

    • Experimente Beschreiben (1 Seite) @lg58weky
    • TREC-Report @ls80zyse
    • Precision-Recall-Kurve (+F-Score)
    • Ausblick (1/2 Seite)
  • Schlussbetrachtung (1/2 Seite)


Insgesamt 8 Seiten Text.


[1] Analyse

Numerische Werte

  • Wir brauchen jeweils die Verteilungen von skalaren Werten (Kibana, Version mit und ohne die 'Ausreißer'). Siehe #68 (closed)
  • beim Rating: Mittelwerte, '3.75' spricht dafür, dass ein Mittel aus nicht sehr vielen Ratings gebildet wurde. Daher wurden Ratings nicht für den Index berücksichtigt.

Grafiken

  • Textfelder: Die Verteilung mit plotten (Desc. oft nicht gesetzt etc, wieder zurückführen auf Crawling)

[3] Evalutation (Ideen @lg58weky)

Ausblick

  • Geringe Precision: Retrieval Tasks könnten weniger spezifisch formuliert werden
  • Rechtschreibfehler ('potatoe' - kein Ergebnis mit 'potato') in Retrieval Tasks haben großen Einfluss - Stemming optimieren
  • Man könnte eine Sammlung von Phrasen mit höhrerer Gewichtung erstellen (must-Anforderung) für Phrasen wie zB 'low carb' 'diet' 'vegan' ...
  • evtl zweiter Index

[4] Schlussbetrachtung (Ideen @lg58weky)

Ideen

  • Die Suchmaschine hat eine niedrige precision - Änderungspotenziale siehe Evaluation/Ausblick
  • Bilder zu den Rezepten wären schön - könnte man crawlen
  • evtl mehr Suchergebnisse anzeigen lassen
  • Korpus ist klein und hat viele Einträge mit schlechter Qualität

Fazit

  • Resultat ist zufriedenstellend
  • Information Needs (siehe Evaluation) können nicht unbedingt befriedigt werden, zu anspruchsvoll
  • Erstellung eines Index mit Elastic Search ist sehr einfach - nimmt viel Arbeit ab

Anhang

Grafiken, Source-Code-Doku, TREC-Eval-Report etc. können zur not in den Anhang, sodass die 10 Seiten sich nur auf Text beziehen.

Edited by Jonathan Schlue
To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information