Rasa Trainingsdaten-Format
Wie müssen Daten aussehen, mit denen Rasa Core für seine Antwortgenerierung trainiert wird?
Vorbereitend für Issue #9 (closed) soll rausgefunden werden, wie Rasa-Trainingsdaten aussehen müssen.
Zu betrachten:
Rasa NLU Trainingsdaten: Der Bot soll verstehen:
-
Was der Intent ist - Bsp zunächst: noOfSpouses -
Um welche Entitäten es geht (Bsp. Albert Einstein)
Ergebnis Mit der Tensorflow-Pipeline müssen alle Physikernamen in den Trainingsdaten mit auftauchen, damit sie als physicist Entität erkannt werden. spacy_sklearn als Pipeline könnte da Abhilfe schaffen, ich bekomme es aber nicht zum Laufen.. :(
- Hier mal eine Meinung dazu:
Pay attention to the use of entity PERSON based on Spacy naming. For ner_crf you can use your own names and they will be passed as entities to the dialogue engine. Spacy actually works quite independently so it will recognize all entities regardless of their presence in the NLU data and pass them to Rasa Core.
Rasa Core Trainingsdaten: Der Bot soll:
-
Intent noOfSpousesund Entitätphysicistmatchen und eine Antwort generieren -
Als Antwort die jeweiligen Daten zu dem jeweiligen Physiker ausgeben
Ergebnis
- Möglichkeit 1:
- Damit zu allen Physikern
noOfSpousesausgegeben werden kann, muss der Bot eine Rasa-Custom-Action verwenden. Diese beinhaltet den Zugriff auf externe Daten (Datenbank,.csvFile)
-
implementiert? -
Möglichkeit 2:
- Zu jedem potenziellen Physikernamen wird dessen
noOfSpousesWert trainiert.
-
implementiert? -
Dazu sollen Beispieldateien erstellt werden, anhand derer @df15nocu R-Skripte erstellen kann, die Rasa-Trainingsdaten erzeugen
Edited by Lukas Gehrke