Skip to content

Rasa Trainingsdaten-Format

Wie müssen Daten aussehen, mit denen Rasa Core für seine Antwortgenerierung trainiert wird?

Vorbereitend für Issue #9 (closed) soll rausgefunden werden, wie Rasa-Trainingsdaten aussehen müssen.

Zu betrachten:

Rasa NLU Trainingsdaten: Der Bot soll verstehen:

  • Was der Intent ist - Bsp zunächst: noOfSpouses
  • Um welche Entitäten es geht (Bsp. Albert Einstein)

Ergebnis Mit der Tensorflow-Pipeline müssen alle Physikernamen in den Trainingsdaten mit auftauchen, damit sie als physicist Entität erkannt werden. spacy_sklearn als Pipeline könnte da Abhilfe schaffen, ich bekomme es aber nicht zum Laufen.. :(

Pay attention to the use of entity PERSON based on Spacy naming. For ner_crf you can use your own names and they will be passed as entities to the dialogue engine. Spacy actually works quite independently so it will recognize all entities regardless of their presence in the NLU data and pass them to Rasa Core.

Rasa Core Trainingsdaten: Der Bot soll:

  • Intent noOfSpouses und Entität physicist matchen und eine Antwort generieren
  • Als Antwort die jeweiligen Daten zu dem jeweiligen Physiker ausgeben

Ergebnis

  • Möglichkeit 1:
  • Damit zu allen Physikern noOfSpouses ausgegeben werden kann, muss der Bot eine Rasa-Custom-Action verwenden. Diese beinhaltet den Zugriff auf externe Daten (Datenbank, .csv File)
  • implementiert?

  • Möglichkeit 2:

  • Zu jedem potenziellen Physikernamen wird dessen noOfSpouses Wert trainiert.
  • implementiert?

  • Dazu sollen Beispieldateien erstellt werden, anhand derer @df15nocu R-Skripte erstellen kann, die Rasa-Trainingsdaten erzeugen

Edited by Lukas Gehrke