In der Statistik geben Verteilungen an, wie wahrscheinlich oder häufig eine bestimmte Merkmausausprägung oder eine Kombination von Merkmausausprägungen ist. Univariate Verteilung beschreiben dabei die Wahrscheinlichkeiten einer einzelnen statischen Variablen, während bivariate oder multivariate Verteilungen sich auf zwei oder mehr Variablen beziehen.
Empirische Verteilungen beziehen sich dabei auf die Häufigkeiten in beobachtbaren Daten während theoretische Verteilungen mathematische Funktionen sind, die meist von einigen wenigen Parametern abhängen.
Beispielsweise kann die Normalverteilung über die beiden Parameter Erwartungswert (loc
) und Varianz (scale
) beschrieben werden. Zufällig generierte Zahlen aus dieser Verteilung können Sie beispielsweise mit numpy
erhalten:
import numpy as np
np.random.normal(loc=3, scale=3, size=10)
Statistiken, wie der Mittelwert, die Varianz oder der Modus dienen zur Beschreibungen und Charakterisierung von Verteilungen mittels einiger weniger aussagekräftigen Kennzahlen. Dabei gibt es Statistiken, die oft nur auf Variablen eines bestimmten Skalenniveaus anwendbar sind.
Kategoriale (nominale und ordinale) Variablen werden typischerweise in Häufigkeitstabellen zusammengefasst. Wichtige Kennzahlen für metrische Variablen sind die zentrale Lage, Modalität, Streuung und die Symmetrie.
Nach dieser Einheit sollten Sie die folgenden Fragen beantworten können:
pandas
-Funktionen ausrechnen?Im Folgenden werden mit $x = x_1, \dots, x_n$ eine univariate Reihe von Beobachtungen beschrieben, mit $n$ die Anzahl der Beobachtungen. $x_i$ beschreibt die Beobachtung an der i-ten Stelle.