Für metrische Variablen beschreiben Lagemaße die Zentralität einer Verteilung.
Das bekannteste Lagemaß ist der empirische Mittelwert:
$$ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i = \frac{x_1 + x_2 + \dots + x_n}{n} $$
import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv")
df['Total Checkouts'].mean()
Eine zweite wichtige Statistik ist der Median. Er ergibt sich aus dem Wert der Beobachtung, die die nach der Größe geordnete Messreihe in genau zwei gleich große Teile teilt. Für eine gerade Anzahl an Beobachtung wird der Mittelwert der zwei Beobachtungen an den Stellen $n/2$ und $n/2+1$ genommen:
$$
x_{0.5} =
\begin{cases}
x_{(n+1)/2}~, \text{ n ungerade} \\
\frac{x_{n/2} + x_{n/2+1}}{2}~, \text{ n gerade}
\end{cases}
$$
für $x_1 < x_2 < \dots < x_n$.
Beispiel: Für $x=[8, 10, 11, 30]$ ist die Anzahl der Beobachtungen $n=4$ gerade und der Median wird berechnet mit $\frac{x_2 + x_3}{2} = \frac{10+11}{2} = 10.5$.
df['Total Checkouts'].median()
Total Checkouts
an. Warum sind die beiden Werte so unterschiedlich?Sie haben schon den Median $x_{0.5}$ als Lageparameter kennengelernt. Er teilt die geordnete Verteilung in zwei genau gleich große Teile. Allgemeiner lassen sich dazu die Quantile definieren: $x_{0.75}$ teil die geordnete Verteilung im Verhältnis 3:1. Das heißt, dass 75% der Beobachtungen kleiner als $x_{0.75}$ und 25% größer sind. Das $x_{0.25}$ Quantil teilt die Reihe im Verhältnis 1:3. Hier sind 25% der Beobachtungen kleiner und 75% größer.
df['Total Checkouts'].quantile(q=[0.25, 0.5, 0.75])
Um Ausreißer in einer Variablen zu entfernen/ zu ersetzen, bietet es sich manchmal an, die größten (und/ oder kleinsten) $\alpha\%$ Beobachtungen zu identifizieren:
# identifies 1% of the data at both ends of the distribution
alpha = 0.01
df['Total Checkouts'].quantile([alpha/2, 1-alpha/2])
Total Checkouts
. Definieren Sie diese Werte als Ausreißer.