Datenumstrukturierung für ein Inhaltsbasiertes Empfehlungssystem
Angenommen wir haben den folgenden Datensatz gegeben:
movieID | title | genres | year |
---|---|---|---|
1 | Forrest Gump | Comedy|Drama|Romance|War | 1994 |
2 | Hangover | Comedy|Crime | 2009 |
3 | Honig im Kopf | Comedy|Drama | 2014 |
4 | Joker | Crime|Drama|Thriller | 2019 |
5 | Titanic | Drama|Romance | 1997 |
6 | Wolf of Wall Street | Comedy|Crime|Drama | 2013 |
userId | movieId | rating |
---|---|---|
1 | 1 | 4 |
1 | 2 | 5 |
1 | 3 | 3 |
1 | 4 | 5 |
1 | 5 | 2 |
1 | 6 | 5 |
2 | 2 | 5 |
2 | 3 | 5 |
2 | 4 | 2 |
2 | 6 | 3 |
Um inhaltsbasierte Filmempfehlungen zu geben, wird für jeden Nutzer ein Nutzerprofil erstellt. Dabei werden beispielsweise die Bewertungen für verschiedene Genres, Schauspieler und Regisseure beachtet. In unserem Fall haben wir nur Zugriff auf die Filminformationen Genres und Erscheinungsjahr. Unser Ziel ist es, ein Nutzerprofil zu erstellen, aus welchem wir die Bewertungen des Nutzers für die verschiedenen Genre gut entnehmen können. Mögliche Fragen sind zum Beispiel:
- Welche Bewertungen hat der Nutzer Filmen gegeben, die dem Genre Comedy angehören?
- Welche Genre wurden von dem Nutzer noch nie bewertet?
movieID | Comedy | Crime | Drama | Thriller | Romance | War | rating Nutzer 1 |
---|---|---|---|---|---|---|---|
1 | 1 | 0 | 1 | 0 | 1 | 1 | 4 |
... | ... | ... | ... | ... | ... | ... | ... |
Aufgabe 1- Tabellenschema vervollständigen
- Erläutere den Aufbau des Tabellenschemas. Für was stehen die einzelnen Tabelleneinträge?
- Vervollständige die Tabelle für den Nutzer mit userId 1.
- Fertige eine zweite Tabelle für den Nutzer mit der userId 2 an.
- Argumentiere, warum wir für Nutzer 2 eine eigene Tabelle anfertigen. Gehe dabei auf die Funktionsweise von inhaltsbasierten Empfehlungssystemen ein.
Aufgabe 2- Tabellenschema nutzen
- Beantworte die folgenden Fragen mit Hilfe der Tabelle:
- Welche Bewertung hat der Film mit movieId 4 von Nutzer 1 erhalten?
- Gibt es Genre, die von Nutzer 2 noch nicht bewertet wurden. Wenn ja, welche?
- Welche Bewertungen hat Nutzer 1 Filmen im Bereich Comedy vergeben?
- Durch die Umwandlung in das Tabellenformat sind Informationen verloren gegangen. Gib zwei Beispielfragen an, die du anhand des Datensatzes beantworten kannst, mit Hilfe der Tabelle allerdings nicht mehr.
- Ein Film der die Genre Crime und Romance besitzt kommt hinzu. Prognostiziere die Bewertung von Nutzer 1 für diesen Film.
- Diskutiere, von welchen Daten du mehr benötigen würdest, um deine inhaltsbasierten Filmempfehlungen zu verbessern.
Aufgabe 3- Übertragen auf unseren Datensatz
Lade dir das
Erläutere die einzelnen Schritte in eigenen Worten. Führe dafür den Code für verschiedene Nutzer aus.
- Jupyter-Notebook für die Datenumstrukturierung Variante 1
- Jupyter-Notebook für die Datenumstrukturierung Variante 2
Erläutere die einzelnen Schritte in eigenen Worten. Führe dafür den Code für verschiedene Nutzer aus.