Häufigkeiten

Kategoriale Variablen werden in Häufigkeitstabellen zusammengefasst. Dabei wird für jede Ausprägung die Anzahl der Beobachtungen gezählt:

import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv")
df['Age Range'].value_counts()

Mit der Funktion value_counts() können Sie sich absolute Häufigkeitstabellen ausgeben lassen. Mit dem zusätzlichen Argumentaufruf normalize=True werden relative Häufigkeiten berechnet:

df['Age Range'].value_counts(normalize=True)

Der Modus sind dabei die Merkmalsausprägungen, die die meisten Beobachtungen besitzen:

age_mode = df['Age Range'].mode()
age_mode[0]

Häufigkeiten (20 Min)

  1. Erstellen Sie eine Häufigkeitsverteilung für die Variable 'Year Patron Registered'. Wie viel Prozent der Kunden wurden 2013 im System registriert? Wie viele in den kommenden Jahren? Was fällt Ihnen auf?
  2. Wie viel Prozent der Kunden sind zwischen 25 und 34 Jahren?
  3. Ersetzen Sie die fehlenden Werte in der Spalte Age Range durch den Modus dieser Spalte. Nutzen Sie dazu die Funktion DataFrame.fillna (siehe hier für die Dokumentation).
  4. Denken Sie, es handelt sich dabei um eine gute Methode, fehlende Werte zu ersetzen? Welche anderen Strategien fallen Ihnen ein?