Univariate Verteilungen

In der Statistik geben Verteilungen an, wie wahrscheinlich oder häufig eine bestimmte Merkmausausprägung oder eine Kombination von Merkmausausprägungen ist. Univariate Verteilung beschreiben dabei die Wahrscheinlichkeiten einer einzelnen statischen Variablen, während bivariate oder multivariate Verteilungen sich auf zwei oder mehr Variablen beziehen.

Empirische Verteilungen beziehen sich dabei auf die Häufigkeiten in beobachtbaren Daten während theoretische Verteilungen mathematische Funktionen sind, die meist von einigen wenigen Parametern abhängen.

Beispielsweise kann die Normalverteilung über die beiden Parameter Erwartungswert (loc) und Varianz (scale) beschrieben werden. Zufällig generierte Zahlen aus dieser Verteilung können Sie beispielsweise mit numpy erhalten:

import numpy as np

np.random.normal(loc=3, scale=3, size=10)

Statistiken, wie der Mittelwert, die Varianz oder der Modus dienen zur Beschreibungen und Charakterisierung von Verteilungen mittels einiger weniger aussagekräftigen Kennzahlen. Dabei gibt es Statistiken, die oft nur auf Variablen eines bestimmten Skalenniveaus anwendbar sind.

Kategoriale (nominale und ordinale) Variablen werden typischerweise in Häufigkeitstabellen zusammengefasst. Wichtige Kennzahlen für metrische Variablen sind die zentrale Lage, Modalität, Streuung und die Symmetrie.

Nach dieser Einheit sollten Sie die folgenden Fragen beantworten können:

  • Wie erstelle und interpretiere ich eine (relative) Häufigkeitstabelle?
  • Welche grundlegenden Statistiken kann ich mit pandas-Funktionen ausrechnen?
  • Was ist der Unterschied zwischen dem Median und dem arithmetischem Mittel?
  • Welche Funktionen gibt es, um die Streuung einer Variablen zu messen?
  • Welche univariaten Verteilungstypen gibt es?

Im Folgenden werden mit $x = x_1, \dots, x_n$ eine univariate Reihe von Beobachtungen beschrieben, mit $n$ die Anzahl der Beobachtungen. $x_i$ beschreibt die Beobachtung an der i-ten Stelle.