# Bewertung inhaltsbasiertes Empfehlungssystem mit KNN-Klassifikation

## Schritt 1: Einschränken der Daten und Festlegen des Nutzers

Zunächst müssen wir den Datensatz auf eine Auswahl von Filmen einschränken, da die Berechnungen sonst zu lange dauern würden. Außerdem kannst du festlegen, für welchen Nutzer du Empfehlungen berechnen möchtest.

In [14]:
nutzer = 2
schranke = 1000

## Schritt 2: Datensatzvorbereitung 

Wie genau der Datensatz vorbereitet wird findest du in Kapitel 14.5.1.2.

<i>Falls du eine Warnmeldung erhälst, kannst du diese ignorieren.</i>

In [15]:
import pandas as pd
import re

ratings = pd.read_csv(r'ratings.csv',encoding='latin-1')
movies = pd.read_csv(r'movies.csv',encoding='latin-1')

movies_filter = movies[movies['movieId']<schranke]
for elem in movies_filter['genres'].str.split(pat = '|', expand = False).explode().unique():
    column = []
    for i in range(len(movies_filter)):
        if elem in movies_filter['genres'].str.split(pat = '|', expand = False)[i]:
            column.append(1)
        else:
            column.append(0)
    movies_filter[elem] = column
movies_filter = movies_filter.drop(['title','genres'], axis='columns')

ratings_user = ratings[ratings['userId']==nutzer]
total_user = pd.merge(movies_filter,ratings_user,left_on=['movieId'],
              right_on=['movieId'],
              how='inner').drop(['userId','timestamp'], axis='columns')
total_user

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  movies_filter[elem] = column


Unnamed: 0,movieId,Adventure,Animation,Children,Comedy,Fantasy,Romance,Drama,Action,Crime,...,Horror,Mystery,Sci-Fi,IMAX,Documentary,War,Musical,Western,Film-Noir,rating
0,1,1,1,1,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,3.5
1,62,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0.5
2,110,0,0,0,0,0,0,1,1,0,...,0,0,0,0,0,1,0,0,0,5.0
3,150,1,0,0,0,0,0,1,0,0,...,0,0,0,1,0,0,0,0,0,4.0
4,151,0,0,0,0,0,1,1,1,0,...,0,0,0,0,0,1,0,0,0,4.5
5,236,0,0,0,1,0,1,0,1,0,...,0,0,0,0,0,0,0,0,0,4.0
6,260,1,0,0,0,0,0,0,1,0,...,0,0,1,0,0,0,0,0,0,5.0
7,261,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0.5
8,266,0,0,0,0,0,1,1,0,0,...,0,0,0,0,0,1,0,1,0,1.0
9,318,0,0,0,0,0,0,1,0,1,...,0,0,0,0,0,0,0,0,0,5.0


## Schritt 3: Klassen und Attribute angeben

Um unser Modell zu trainieren, müssen wir dem Modell sagen, welches die Attribute und welches die Klassen sind, die es vorhersagen soll. Dafür trennen wir den DataFrame in die Attribute, d.h. alle Genre Spalten, und die Klasse, die Spalte ratings.

In [16]:
X = total_user.drop(['rating','movieId'], axis='columns')
y = total_user.rating
X

Unnamed: 0,Adventure,Animation,Children,Comedy,Fantasy,Romance,Drama,Action,Crime,Thriller,Horror,Mystery,Sci-Fi,IMAX,Documentary,War,Musical,Western,Film-Noir
0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,1,0,0,0
3,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0
4,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,1,0,0,0
5,0,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0
6,1,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0
7,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,1,0,1,0
9,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0


## Schritt 4: Diskretisieren

Wenn du dir die Spalte 'ratings' anzeigen lässt, siehst du, dass sie Bewertungen mit halben Sternen, d.h. 3.5 oder 4.5 enthält. Die Funktion der KNN-Klassifikation von python kann nur mit ganzzahligen Klassen arbeiten. Daher müssen wir Einträge der Spalte 'ratings' ganzzahligen Werten zuordnen. Wir können entweder runden, oder eine python-Funktion verwenden, die automatisch ganzzahlige Klassen zuordnet. Im zweiten Fall müssen wir die Vorhersagen wieder zurück interpretieren, also aus den ganzzahligen Klassen wieder die Bewertungen auslesen. Führe die Variante aus, die du nutzen möchtest.

### Achtung: Führe nur eine der beiden Varianten aus!

### Variante Runden

In [None]:
y_ganzzahlig = y.astype(int)

### Variante python Funktion

In [17]:
from sklearn import preprocessing
from sklearn import utils

lab = preprocessing.LabelEncoder()
y_transformed = lab.fit_transform(y)
print(y_transformed)
print(y.to_list())

[4 0 7 5 6 5 7 0 1 7 7 6 6 6 1 7 2 5 4 7 6 2 2 5 3 6 4 5 6]
[3.5, 0.5, 5.0, 4.0, 4.5, 4.0, 5.0, 0.5, 1.0, 5.0, 5.0, 4.5, 4.5, 4.5, 1.0, 5.0, 2.0, 4.0, 3.5, 5.0, 4.5, 2.0, 2.0, 4.0, 3.0, 4.5, 3.5, 4.0, 4.5]


## Schritt 5: Test-Train-Split

Python bietet eine Funktion, die den Datensatz automatisch in einen Trainings- und Testdatensatz teilt. Diese nutzen wir hier. Mit dem Parameter 'test_size' kannst du die Größe des Testdatensatzes beeinflussen: 0.3 steht für eine Größe von 30% des Gesamtdatensatzes.

In [18]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y_transformed, test_size=0.3, random_state=1)
X_test

Unnamed: 0,Adventure,Animation,Children,Comedy,Fantasy,Romance,Drama,Action,Crime,Thriller,Horror,Mystery,Sci-Fi,IMAX,Documentary,War,Musical,Western,Film-Noir
14,1,0,0,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,0
21,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,0
18,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
20,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0
25,1,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0
19,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0
3,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0
10,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
23,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0


## Schritt 6: Modell trainieren

Nun trainieren wir das Modell auf unserem Datensatz. Du kannst angeben, wie viele nächste Nachbarn das Modell berücksichtigen soll. Wenn das Modell trainiert ist erhälst du die Ausgabe 'KNeighborsClassifier(n_neighbors=3)'.

In [19]:
nachbarn_anzahl = 3

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=nachbarn_anzahl)
knn.fit(X, y_transformed)

KNeighborsClassifier(n_neighbors=3)

## Schritt 7: Modellevaluierung

Wir berechnen die Vorhersagen für den Testdatensatz.

In [20]:
y_prognose = knn.predict(X_test)

Beachte dass du die Klassen rückinterpretieren musst, wenn du die echten Bewertungen sehen möchtest und nicht gerundet, sondern die python Funktion verwendet hast. Führe dafür die passende Codezelle aus.

### Variante: Runden

In [None]:
y_prognose_re = y_prognose
y_test_re = y_test

### Variante: python Funktion

In [21]:
y_prognose_re = lab.inverse_transform(y_prognose)
y_test_re = lab.inverse_transform(y_test)

Hier kannst du dir die echten Klassen und die prognostizierten Klassen anzeigen lassen.

In [22]:
print('Prognostizierte Klassen: ' + str(y_prognose_re))
print('Echte Klassen: ' + str(y_test_re))

Prognostizierte Klassen: [1.  0.5 0.5 0.5 1.  5.  0.5 0.5 2. ]
Echte Klassen: [1.  2.  3.5 4.5 4.5 5.  4.  5.  4. ]


### Konfusionsmatrix

In [23]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_prognose)

array([[0, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0],
       [1, 0, 1, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 1]], dtype=int64)

### Mittlere Abweichung der vorhergesagen Bewertungen

In [25]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test_re,y_prognose_re)

2.4444444444444446

Mittlere quadrierte Abweichung der vorhergesagten Bewertungen

In [24]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test_re,y_prognose_re)

8.444444444444445