# Datenbereinigung und -formatierung

Zuerst laden wir den Datensatz und die notwendigen Pakete. Mit der Bibliothek 're' lassen sich bestimmte Muster aus strings ausfiltern.

In [1]:
import pandas as pd
import re

ratings = pd.read_csv(r'ratings.csv',encoding='latin-1')
movies = pd.read_csv(r'movies.csv',encoding='latin-1')
movies

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
62418,209157,We (2018),Drama
62419,209159,Window of the Soul (2001),Documentary
62420,209163,Bad Poems (2018),Comedy|Drama
62421,209169,A Girl Thing (2001),(no genres listed)


## Schritt 1: Datentypen anpassen

Mit dem Befehl dtypes kannst du dir anzeigen lassen, welche Spalte des Datentyps aktuell welchem Datentyp angehört. Welchen Datentyp hat die Spalte genres des DataFrames movies?

In [5]:
movies.dtypes

movieId     int64
title      object
genres     object
dtype: object

Wir wollen den Datentyp der Spalte genres und der Spalte title in einen String (eine Zeichenkette) umwandeln. Implementiert wurde das bereits für die Spalte title.
<ol>
    <li>Ergänze den Code, sodass auch die Spalte genres in eine Zeichenkette umgewandelt wird.</li>
    <li>Überprüfe dein Ergebnis mit dem Aufruf von dtypes.</li>
</ol>

In [6]:
movies['title'] = movies['title'].astype('string')

In [None]:
#trage hier deinen Code ein

In der README.txt steht, in welchem Format die Spalte timestamp genau angegeben ist. Für uns ist dieses Format allerdings schwer lesbar. Daher wandeln wir die Spalte in das uns bekannte Datum um. Aus welchen Jahren sind die Bewertungen?

In [7]:
ratings['timestamp'] = pd.to_datetime(ratings['timestamp'], unit = 's')

## Schritt 2: Spalten trennen

In der folgenden Codezelle werden die Daten einer Spalte auf zwei Spalten aufgeteilt.
<ol>
    <li>Welche Daten werden hier getrennt?</li>
    <li>Wie können neue Spalten eines DataFrames hinzugefügt werden?</li>
    <li>Untersuche was passiert, wenn du die folgende Codezelle zweimal ausfürst. Erkläre das Ergebnis.</li>
</ol>

In [8]:
movies['year'] = movies['title'].str.extract('\(([\d]{4})\)')
movies['title'] = movies['title'].str.replace(r'\([\d]*\)', '').str.strip()

## Schritt 3: NaN Werte

Wie du an der Ausgabe erkennen kannst, ist für manche Filme kein Erscheinungsjahr angegeben. NaN Werte führen bei der Weiterverarbeitung häufig zu Problemen. Daher setzt man entweder Lückenfüller für diese Werte ein oder man löscht die entsprechenden Datenzeilen komplett.
<ol>
    <li>Welcher der beiden folgenden Befehle macht was?</li>
    <li>Was wird als Lückenfüller eingesetzt? Ist dieser sinnvoll?</li>
</ol>

In [None]:
movies['year'] = movies['year'].fillna(0)

In [None]:
movies = movies.dropna()

## Schritt 4: Datensätze zusammenfügen

In diesem Schritt führen wir die beiden Datensätze zusammen.
<ol>
    <li>Erläutere mit der Hilfe von inf-schule 14.5.1.1.2.3 wie das geschieht.</li>
    <li>Verändere den Code, sodass die userId an zweiter Stelle steht, d.h. erst die Bewertungen und dann die Filminformationen angegeben werden.</li>
</ol>

In [9]:
total = pd.merge(movies,ratings,left_on=['movieId'],
              right_on=['movieId'],
              how='inner')
total

Unnamed: 0,movieId,title,genres,year,userId,rating,timestamp
0,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,1995,2,3.5,2006-03-03 19:57:00
1,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,1995,3,4.0,2015-08-13 13:23:35
2,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,1995,4,3.0,2019-11-16 22:44:12
3,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,1995,5,4.0,1997-03-17 19:12:29
4,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,1995,8,4.0,1998-03-21 15:01:57
...,...,...,...,...,...,...,...
25000090,209157,We,Drama,2018,119571,1.5,2019-11-20 20:12:28
25000091,209159,Window of the Soul,Documentary,2001,115835,3.0,2019-11-20 20:16:25
25000092,209163,Bad Poems,Comedy|Drama,2018,6964,4.5,2019-11-20 21:21:53
25000093,209169,A Girl Thing,(no genres listed),2001,119571,3.0,2019-11-20 23:17:06


## Schritt 5: Spalten löschen

Manchmal benötigen wir nicht alle Spalten des Datensatzes. Um eine Spalte zu löschen, verwenden wir den Befehl drop. Die Spalte year wird in der folgenden Codezelle gelöscht. Lösche auch die Spalte genres.

In [10]:
total = total.drop('year', axis = 1)

In [11]:
total

Unnamed: 0,movieId,title,genres,userId,rating,timestamp
0,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,2,3.5,2006-03-03 19:57:00
1,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,3,4.0,2015-08-13 13:23:35
2,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,4,3.0,2019-11-16 22:44:12
3,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,5,4.0,1997-03-17 19:12:29
4,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,8,4.0,1998-03-21 15:01:57
...,...,...,...,...,...,...
25000090,209157,We,Drama,119571,1.5,2019-11-20 20:12:28
25000091,209159,Window of the Soul,Documentary,115835,3.0,2019-11-20 20:16:25
25000092,209163,Bad Poems,Comedy|Drama,6964,4.5,2019-11-20 21:21:53
25000093,209169,A Girl Thing,(no genres listed),119571,3.0,2019-11-20 23:17:06
