Praktische Einführung in Pandas

Grundlage der statistischen Analyse sind Datentabellen: Jede Zeile der Tabelle entspricht einer Beobachtung. Jede Spalte entspricht einer statistischen Variable. Neue Beobachtungen und Variablen können dadurch einfach an die schon bestehende Tabelle angefügt werden.

Wenn es um Statistik und Programmierung geht werden mit “Variable” oft zwei unterschiedliche Dinge benannt:

  1. Variable im Kontext eines statistischen Merkmals, das in der Regel als Spalte eines Datensatzes vorliegt.
  2. Variablen im Kontext von Programmiersprachen beschreiben benannte Referenzen auf bestimmte Datenstrukturen oder Objekte (z.B. numbers = [1, 2, 3]).

Am Beginn jeder statistischen Analyse steht die Aufbereitung und Bereinigung der Daten. Damit ist die Behandlung von fehlenden oder falsch kodierten Werten, die Umkodierung und Transformation von statistischen Variablen oder die Berechnung neuer Spalten gemeint. Oft sind auch nur Untergruppen von Beobachtungen mit bestimmten Merkmausausprägungen von Interesse.

Viele statistische Methoden erfordern auch, dass die Daten nur als numerische Werte vorliegen. Daher müssen ordinale oder nominale Variablen, die als Text gespeichert sind (zum Beispiel ['male', 'female', 'female', ...]) in entsprechende numerische Werte umkodiert werden. Dabei wird jeder Kategorie ein numerischer Wert zugeordnet.

Das Standard-Paket um mit Datentabellen in Python zu arbeiten, ist pandas. Das folgende Kapitel stellt anhand von vielen praktischen Beispielen und Übungen die grundlegenden Konzepte in pandas vor.

  1. Erstellen Sie ein Jupyter Notebook in Ihrem Projektordner unter ./notebooks.
  2. Führen Sie die Beispiele in den folgenden Abschnitten aus und versuchen Sie, die Aufgaben zu lösen.
  3. Nach dieser Einheit sollten sie die folgenden Fragen beantworten können:
    • Wie kann ich Tabellendaten in pandas einlesen?
    • Wie werden Daten in pandas angeordnet?
    • Welche Datentypen können Spalten eines DataFrames annehmen?
    • Wie kann ich einzelne Spalten oder Zeilen eines DataFrames auswählen?

Ihre Verzeichnisstruktur vom Projektordner sollte jetzt ungefähr so aussehen:

Module_3
├── data
│   └── Library_Usage.csv
├── notebooks
│   ├── pandas_introduction.ipynb
│   └── tutorial_jupyter.ipynb

What is Pandas? Introduction Video by Giles McMullen ( Untertitel auswählbar)


Dieses Cheat-Sheet gibt einen guten Überblick über die Datenverarbeitung mit Pandas.