i

Datenumstrukturierung für ein Kollaboratives Empfehlungssystem

Angenommen wir haben den folgenden Datensatz gegeben:

movieID title genres year
1 Forrest Gump Comedy|Drama|Romance|War 1994
2 Hangover Comedy|Crime 2009
3 Honig im Kopf Comedy|Drama 2014
4 Joker Crime|Drama|Thriller 2019
5 Titanic Drama|Romance 1997
6 Wolf of Wall Street Comedy|Crime|Drama 2013
userId movieId rating
1 1 4
1 2 5
1 3 5
1 4 3
1 5 5
1 6 3
2 1 3
2 2 5
2 3 5
2 4 3
2 5 5
2 6 2
3 1 3
3 2 1
3 3 1
3 4 3
3 5 1
3 6 4
4 1 4
4 2 1
4 3 1
4 4 4
4 5 5
4 6 3

Um kollaborative Filmempfehlungen zu geben, werden Ähnlichkeiten zwischen Nutzern betrachtet. Dabei werden die Bewertungen für verschiedene Filme miteinander verglichen. Unser Ziel ist es, möglichst ähnliche Nutzer zu finden. Mögliche Fragen sind zum Beispiel:

  • Welche Bewertungen hat der Film Wolf of Wallstreet bekommen?
  • Welche Bewertungen hat der Film, dem Nutzer 1 die Bewertung 4 gegeben hat, von anderen Nutzern bekommen?
  • Gibt es Nutzer, bei denen alle Filmbewertungen übereinstimmen, wenn sie beide eine Bewertung abgegeben haben?
Dazu bringen wir die Daten in eine dafür passende Form:
userID rating Film 1 rating Film 2 rating Film 3 rating Film 4 rating Film 5 rating Film 6
1 4 5 5 3 5 3
... ... ... ... ... ... ...

Aufgabe 1- Tabellenschema vervollständigen

  1. Erläutere den Aufbau des Tabellenschemas. Für was stehen die einzelnen Tabelleneinträge?
  2. Vervollständige die Tabelle mit dem gegebenen Datensatz.

Aufgabe 2- Tabellenschema nutzen

  1. Finde mindestens 2 Abhängigkeiten der Nutzerbewertungen.
    Betrachte dir Nutzer 2 und Nutzer 3 genauer.
    Betrachte dir die Filme 2 und 3 genauer.
  2. Durch die Umwandlung in das Tabellenformat sind Informationen verloren gegangen. Gib zwei Beispielfragen an, die du anhand des Datensatzes beantworten kannst, mit Hilfe der Tabelle allerdings nicht mehr.
  3. Ein Nutzer 5 kommt hinzu. Dieser hat Film 1 mit 4, Film 2 mit 2, Film 4 mit 4 und Film 5 mit 2 Sternen bewertet. Prognostiziere die Bewertungen von Nutzer 5 für Film 3 und Film 6.
  4. Ein weiterer Film (movieId 7) wurde von Nutzer 1 mit 4, von Nutzer 3 mit 5 und von Nutzer 4 mit 2 Sternen bewertet. Prognostiziere die Bewertung von Nutzer 2 für Film 7.
  5. Diskutiere, von welchen Daten du mehr benötigen würdest, um deine kollaborativen Filmempfehlungen zu verbessern.

Aufgabe 3- Übertragen auf unseren Datensatz

Lade dir das herunter und speichere es im gleichen Ordner wie den Filmdatensatz.

Führe den Code aus und diskutiere die Frage im Jupyter Notebook.

Suche

v
14.5.1.2.4
dev.inf-schule.de/projekte/datascience/projekt_empfehlungssysteme/datenvorbereitung/vorbereitung_kollaborativ
dev.inf-schule.de/14.5.1.2.4
dev.inf-schule.de/@/page/zNPMlZXqQvBKYI9i

Rückmeldung geben