Wie groß ist die Stichprobengröße des Datensatzes? 423448.
Wer oder was sind die Merkmalsträger? Bibliothekskunden der SF Public Library.
Von wann bis wann wurden die Daten erhoben? Das Bibliothekssystem wurde 2003 installiert. Die Daten reichen bis 2016.
Wie lässt sich die Grundgesamtheit beschreiben? Handelt es sich um eine Vollerhebung? Grundgesamtheit sind alle Bibliothekskunden der San Francisco Library. Wahrscheinlich handelt es sich um eine Vollerhebung. Es lässt sich diskutieren, ob die Grundgesamtheit größer gefasst werden kann (z.B. alle Kunden von Bibliotheken in den USA oder alle Kunden von öffentlichen Bibliotheken). Sind die Daten repräsentativ für diese Grundgesamtheiten?
Welche Merkmale sind stetig? Welche diskret?
Die Variablen Total Checkouts und Total Renewals sind stetig, alle anderen diskret.
Welchem Skalenniveau entsprechen die einzelnen Merkmale (Nominal-, Ordinal- oder Metrische Skala)?
Metrisch: Total Checkouts, Total Renewals, Circulation Active Year, Year Patron registered
Ordinal: Age Range
Nominal: Der Rest
Enthält der Datensatz fehlende Werte?
Ja, z.B. Age Range
Handelt es sich um Querschnitts-, Längsschnitss- oder Paneldaten?
Querschnittsdaten
Series und DataFrames
month: nominal (oder ordinal, wenn z.B. Dez > Jan gilt.), diskret, object
In Linux kann z.B. mit dem free Kommando der freie Speicherplatz ermittelt werden. Bei 8 Gigabyte Arbeitsspeicher werden ca. 3 Gigabyte vom System verbraucht.
5 Gigabyte sind 5 000 000 000 Bytes. Somit können theoretisch 625 000 000 Zahlen vom Typ int64 eingelesen werden.
Eine Tabelle mit 100 Variablen kann somit 6.25 Millionen Beobachtungen enthalten.
Der Library Datensatz verbraucht ca. 220 Megabyte im Arbeitsspeicher (df.info(memory_usage='deep')).
Der Median ist robust gegenüber Ausreißern, da er nicht auf den absoluten sondern nur auf der relativen Reihung der Beobachtungen basiert. Wird beispielsweise der größte Wert einer Messreihe um den Faktor 1000 tausend vergrößert, so ändert sicht der Median nicht.
Der Mittelwert hingegen basiert auf den absoluten Werten. Da die Variable Total Checkouts einige wenige sehr große Ausreißer enthält, ist der Mittelwert hier viel größer.