# Jupyter Notebook zum Thema: Daten erkunden

Zunächst müssen wir die Bibliothek und den Datensatz laden.

In [2]:
import pandas as pd

movies = pd.read_csv(r'movies.csv',encoding='latin-1')
ratings = pd.read_csv(r'ratings.csv',encoding='latin-1')

## Datentypen

In allen Programmiersprachen gibt es viele unterschiedliche Datentypen. Eine Liste der Datentypen, die wir verwenden, findest du auf <a href="https://inf-schule.de/imperative-programmierung/python/konzepte/datentypen/konzept_datentyp">inf-schule</a>.<nr/>

Mit dem Befehl dtypes kannst du dir anzeigen lassen, welchen Datentyp die Einträge in den Spalten des DataFrames haben.

In [3]:
movies.dtypes

movieId     int64
title      object
genres     object
dtype: object

<i>Anmerkung: Der Datentyp object kann Daten eines beliebigen Datentyps enthalten und wird meist als Platzhalter verwendet, wenn der Datentyp nict feststeht.</i>

## Daten beschreiben

Mittels des Befehls describe() werden verschiedene Informationen über alle numerischen Daten des DataFrame abgerufen. Numerische Daten sind alles, was du unter Zahlen verstehst. Du kannst beispielsweise den minimalen (*min*) und maximalen (*max*) Wert einer Spalte, den <a href="https://de.statista.com/statistik/lexikon/definition/85/median/">Median</a> (*50%*) und den <a href="https://de.statista.com/statistik/lexikon/definition/91/mittelwert_und_arithmetisches_mittel/#:~:text=Der%20Mittelwert%20beschreibt%20den%20statistischen,durch%20die%20Anzahl%20aller%20Werte.">Durchschnitt</a> (*mean*) ablesen.<br/><br/>
*Für was könnten die anderen Abkürzungen in der Ausgabe stehen?*

In [27]:
ratings.describe()

Unnamed: 0,userId,movieId,rating,timestamp
count,25000100.0,25000100.0,25000100.0,25000100.0
mean,81189.28,21387.98,3.533854,1215601000.0
std,46791.72,39198.86,1.060744,226875800.0
min,1.0,1.0,0.5,789652000.0
25%,40510.0,1196.0,3.0,1011747000.0
50%,80914.0,2947.0,3.5,1198868000.0
75%,121557.0,8623.0,4.0,1447205000.0
max,162541.0,209171.0,5.0,1574328000.0


Das Minimum, das Maximum, die Gesamtanzahl der Einträge und den Mittelwert kannst du auch für jede Spalte direkt abrufen:

In [28]:
ratings['userId'].min()

1

Du kannst dir eine ganze Spalte in Form einer Liste mit dem Befehl values ausgeben lassen:

In [5]:
ratings['userId'].values

array([     1,      1,      1, ..., 162541, 162541, 162541], dtype=int64)

Möchtest du eine Liste aller Einträge einer Spalte verwende den Befehl unique(). Dann kommt in der Liste jeder Eintrag, den es in der Spalte gibt nur einmal vor.

In [6]:
ratings['userId'].unique()

array([     1,      2,      3, ..., 162539, 162540, 162541], dtype=int64)

Mit dem Befehl len() kannst du dir die Länge einer Liste ausgeben lassen.

In [8]:
len(ratings['userId'].unique())

162541

Für jedes Element dieser Liste kannst du zählen, wie viele Zeilen es im DataFrame gibt. In diesem Beispiel wurde gezählt, wie viele Bewertungen die einzelnen Nutzer abgegeben haben.

In [7]:
ratings['userId'].value_counts()

72315     32202
80974      9178
137293     8913
33844      7919
20055      7488
          ...  
52927        20
43931        20
27547        20
27546        20
39653        20
Name: userId, Length: 162541, dtype: int64

### Aufgabe: Was wird hier berechnet?

In [11]:
print(len(ratings)/(len(ratings['userId'].unique())*(len(ratings['movieId'].unique()))))

0.002604839052572928


## Daten sortieren

Gerade wenn die Datensätze sehr groß sind, kann die Tabelle häufig nicht vollständig angezeigt werden. An dieser Stelle helfen die Befehle head() und tail(). Wie der Name vermuten lässt, werden jeweils nur die ersten oder letzten Einträge der Tabelle angezeigt.

In [32]:
movies.tail(5)

Unnamed: 0,movieId,title,genres
62418,209157,We (2018),Drama
62419,209159,Window of the Soul (2001),Documentary
62420,209163,Bad Poems (2018),Comedy|Drama
62421,209169,A Girl Thing (2001),(no genres listed)
62422,209171,Women of Devil's Island (1962),Action|Adventure|Drama


In [33]:
movies.head(10)

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
5,6,Heat (1995),Action|Crime|Thriller
6,7,Sabrina (1995),Comedy|Romance
7,8,Tom and Huck (1995),Adventure|Children
8,9,Sudden Death (1995),Action
9,10,GoldenEye (1995),Action|Adventure|Thriller


Wollen wir die Reihenfolge der Einträge verändern, zum Beispiel die niedrigsten Bewertungen ausgeben, so können wir den DataFrame vor der Anwendung von head() oder tail() mittels des Befehls sort_values(by=???) sortieren. Die Spalte nach der wir sortieren übergeben an der Stelle der drei Fragezeichen. Mit ascending=True geben wir an, dass wir an, dass wir aufsteigend sortieren wollen, mit ascending=False aufsteigend. 

In [12]:
ratings.sort_values(by='rating', ascending=True).tail(7)

Unnamed: 0,userId,movieId,rating,timestamp
14555303,94232,2858,5.0,993546700
14555300,94232,2762,5.0,993547559
14555297,94232,2706,5.0,993546700
14555294,94232,2683,5.0,993546729
14555287,94232,2533,5.0,993546300
14554789,94226,2248,5.0,943300836
25000094,162541,63876,5.0,1240952515
