1. Grundlagen der Statistik – Stichprobe vs. Grundgesamtheit

Die klassische Statistik beschäftigt sich unter anderem mit der Grundfrage:

„Wie kann man anhand einer Stichprobe Aussagen über eine Grundgesamtheit treffen?” 

Denn eine Vollerhebung ist im industriellen oder gesellschaftlichen Kontext oft nicht möglich. Bei der Verwendung von Erhebungsinstrumenten sehen sich Forscher mit einer Leerstelle konfrontiert, nämlich der Lücke zwischen Stichprobe und Grundgesamtheit. Die Grundgesamtheit bezeichnet die Gesamtheit aller statistischen Einheiten, die in eine Erhebung einbezogen werden. Sie bildet den Kreis aller Einheiten, auf die sich die Erhebung bezieht. Dies können Einwohner eines Staates, Patienten oder Studenten sein, aber auch grundsätzlich alles Mögliche.

Beispiel:

Medizin:

Bei einer Studie zur Erprobung einer medizinischen Behandlung stehen möglicherweise nur 100 Personen zur Verfügung, obwohl diese Behandlung potenziell Millionen Menschen betrifft.

Sozialwissenschaft: 

Bei einer Befragung zur Einkommenshöhe in Deutschland können nur 10.000 Menschen befragt werden, obwohl Deutschland ca. 84 Millionen Einwohner hat.

Psychologie:

Bei einem klassischen Experiment zum Abruf aus dem Gedächtnis (basierend auf dem Ebbinghaus-Vergessenskurven-Experiment) wird eine Stichprobe von 50 Studierenden gebeten, eine Liste von Nonsyllaben zu lernen und zu verschiedenen Zeitpunkten wiederzugeben, obwohl diese Erkenntnisse auf alle Menschen mit Kurzzeitgedächtnis übertragbar sein sollen.

Ökonomie:

Bei einer Marktforschungsstudie zur Zahlungsbereitschaft für ein neues Produkt können Unternehmen nur 2.000 potenzielle Kundinnen und Kunden befragen, obwohl der Zielmarkt in Europa mehrere hundert Millionen Menschen umfasst.

Dass mit einer relativ kleinen Stichprobe überhaupt Aussagen über die Grundgesamtheit getroffen werden können, liegt an zwei bedeutenden mathematischen Gesetzmäßigkeiten: dem Gesetz der großen Zahlen (englisch: Law of Large Numbers, kurz: LLN) und dem Zentralen Grenzwertsatz (englisch: Central Limit Theorem, kurz: CLT).

Diese beiden Theoreme sind nicht nur akademisch interessant: Sie sind die mathematische Basis der schließenden Statistik und ermöglichen es uns, mit Konfidenz von einer Stichprobe auf die Population zu schließen.

Die 5 Unterpunkte dieses Kapitels

Um diese Frage vollständig zu beantworten, werden wir die folgenden Themen systematisch durcharbeiten:

1.1 Gesetz der großen Zahlen

Zeigt, wie sich der Stichprobenmittelwert dem wahren Populationsmittelwert annähert, je größer unsere Stichprobe wird. Dies ist das Konvergenz-Prinzip: Mit mehr Daten werden wir präziser. Wir werden das mit realen Simulationen visualisieren.

1.2 Zentraler Grenzwertsatz

Beantwortet die nächste Frage: Nicht nur dass wir präziser werden—sondern wie präzise? Der CLT erklärt, warum die Mittelwerte von wiederholten Stichproben selbst einer Normalverteilung folgen und wie wir den Standardfehler berechnen können, um unsere Unsicherheit zu quantifizieren.

1.3 Zufallsstichprobe, Zufallsvariable und i.i.d.

Adressiert die kritische Voraussetzung: Beide vorherigen Gesetze funktionieren nur, wenn unsere Stichprobenziehung zufällig ist und die Bedingung „independent and identically distributed“ (i.i.d.) erfüllt ist. Wir zeigen, was passiert, wenn diese Bedingung verletzt wird—und warum Bias und Verzerrung entstehen.

1.4 Zusammenfassung Grundlagen der Statistik

Bringt alle bisherigen Konzepte zusammen: Wie passen LLN, CLT, Zufallsstichprobe und i.i.d. ineinander? Was ist die praktische Konsequenz für einen Forscher?

1.5 Frequentistische Statistik

Ordnet diese Konzepte in ihren philosophischen Kontext ein: Warum denken wir in der klassischen Statistik so? Wie unterscheidet sich der frequentistische Wahrscheinlichkeitsbegriff vom bayesianischen? Und warum sind LLN und CLT die Fundamente dieser Denkweise?

Warum das für Sie wichtig ist

Diese Konzepte sind nicht nur für Forscher wichtig. Sie sind entscheidend für:

Das grundlegende Verständnis der schließenden Statistik: Ohne LLN und CLT sind alle weiteren Vorhaben als Statistiker nicht nachvollziehbar.

Bei der Planung der Erhebung muss man die Voraussetzungen kennen, nämlich die Zufallsauswahl. Andernfalls wird man kein repräsentatives Bild der Grundgesamtheit erhalten.

Interpretation von p-Werten und Konfidenzintervallen: Diese Grundlagen sind gewissermaßen Voraussetzung, um diese zu interpretieren.

Die nächsten Kapitel folgen dieser Logik:

  1. Zunächst verstehen Sie, wie Stichproben mit der Grundgesamtheit zusammenhängen (LLN)
  2. Dann lernen Sie, wie präzise diese Beziehung ist (CLT)
  3. Danach lernen Sie, welche Bedingungen erfüllt sein müssen, damit das funktioniert (i.i.d., Zufallsstichprobe)
  4. Schließlich integrieren wir alles zu einem Gesamtbild (Zusammenfassung)
  5. Am Ende verstehen Sie den philosophischen Hintergrund dieser Art zu denken (Frequentismus)

Bereit zum Eintauchen?

Das Schöne an diesem Thema ist: Es ist nicht kompliziert, wenn es gut erklärt wird. Sie werden sehen, dass LLN und CLT elegante, intuitive Konzepte sind—nicht bloß mathematische Abstraktionen.

Klicken Sie auf eines der Kapitel links, um zu beginnen. Jedes Kapitel baut auf dem vorherigen auf, kann aber auch eigenständig gelesen werden.

1.1 Gesetz der großen Zahlen

Das Gesetz der großen Zahlen (LLN) besagt, dass jene Werte, die für uns in der Statistik relevant sind – wie beispielsweise Mittelwert, Median und Varianz – gegen den wahren Wert der Grundgesamtheit konvergieren, je größer unsere Stichprobe ist. Das bedeutet: Der wahre Wert existiert zwar in der Grundgesamtheit, aufgrund der viel kleineren Stichprobe, die wir aus der Grundgesamtheit ziehen, „steckt“ er aber auch in der Stichprobe. Dies gilt ebenso für die Verteilung, aus der die Stichprobe gezogen wird1.

Als Analogie kann man sich eine Suppe vorstellen, die man mit einem Löffel abschmeckt: Man muss nicht die komplette Suppe trinken, um zu wissen, ob sie schmeckt. Es genügt eine kleine Stichprobe mit einem Teelöffel, um dies herauszufinden.

Beispiel: Lassen Sie mich dies Ihnen anhand der Verteilung fiktiver Körpergrößen von Männern in Deutschland anschaulich machen. Die Körpergrößen sind normalverteilt. Der Mittelwert (μ) beträgt 180 cm, die Standardabweichung (σ) 8 cm. Man kann auch sagen: Die Grundgesamtheit (Ν) sind alle erwachsenen Männer der Bundesrepublik Deutschland.2

Um Ihnen das Gesetz der großen Zahlen (LLN)  zu verdeutlichen, werden nun jeweils eine Stichprobe mit 10, 100, 1000 und 10000 Einheiten (n) aus der fiktiven Grundgesamtheit (N) gezogen. Im folgenden Video sehen Sie die vier Stichproben und deren Mittelwerte samt Verteilung.

Wie Sie sehen, nähert sich der Mittelwert der Stichprobe (X̄) die Standardabweichung (sd) mit zunehmenden n dem wahren Mittelwert (μ) und der wahren Standardabweichung (σ) immer weiter an.

Mathematisch bedeutet dies: X̄n, unser Stichprobenmittelwert, konvergiert in Wahrscheinlichkeit gegen den wahren Mittelwert der Grundgesamtheit μ, für n gegen ∞.

Gesetze der grossen Zahlen
Dies ist ein Beispiel für das Konzept der Konvergenz als mathematisches Limit. Nun wissen wir, dass sich der Mittelwert einer Stichprobe (X̄) mit zunehmender Stichprobengröße (n) dem wahren Mittelwert (μ) annähert, also konvergiert. Welche praktische Konsequenz folgt jedoch, wenn wir nur eine Stichprobe haben und keinen Zugriff auf die Grundgesamtheit haben? Wir können den Stichprobenmittelwert (X̄) als Schätzung für den wahren Mittelwert der Grundgesamtheit (μ) verwenden. Das LLN sagt uns nämlich, dass wir einen konsistenten Schätzer haben, der sich mit zunehmender Stichprobengröße immer mehr dem wahren Wert der Grundgesamtheit annähert, denn der Fehler bei der Schätzung schrumpft.3

1. Now we come to a crowning achievement in probability, the law of large numbers. This theorem says that the mean of a large sample is close to the mean of the distribution. For example, the proportion of heads of a large number of tosses is expected to be close to 1/2. We now make this more precise (Wasserman, 2004:76).

2. Heights of young women: The distribution of the heights of all young women is close to the Normal distribution with mean 64.5 inches and standard deviation 2.5 inches. Suppose that 64.5 were exactly true. (Moore, McCabe und Craig 2017, S. 420)

3. Draw independent observations at random from any population with finite mean μ. Decide how accurately you would like to estimate μ. As the number of observations drawn increases, the mean x̄ of the observed values eventually approaches the mean of the population μ as closely as you wish and then stays that close (Moore, McCabe und Craig 2017, S. 423).

1.2 Zentraler Grenzwertsatz

Aber wie sicher können wir bei diesem Stichprobenmittelwert sein und wie fehlerhaft kann er sein? Hierauf gibt uns das zweite mathematische Gesetz die Antwort: Der Zentrale Grenzwertsatz.

Der zentrale Grenzwertsatz besagt, dass die Mittelwerte, die aus wiederholt gezogenen Stichproben gleicher Größe, also gleichem n, aus einer Grundgesamtheit gebildet werden, ebenfalls zu einer Normalverteilung konvergieren. Diese Verteilung nennt man Sampling Distribution des Mittelwertes. Dies gilt übrigens für fast alle Verteilungen, die eine Grundgesamtheit annehmen kann.1

warnung
Wichtig: Wir erfahren Eigenschaften über die Verteilung des Mittelwerts einer Stichprobe, nicht über die Stichprobe selbst. Nicht die Ausgangsverteilung muss normalverteilt sein, sondern die wiederholten Stichprobenmittelwerte bilden eine Normalverteilung2

Beispiel:

Ich werde dies am Beispiel unserer fiktiven Grundgesamtheit, der Körpergrößen aller erwachsenen Männer in der Bundesrepublik Deutschland, zeigen. Hierzu werden Stichproben anhand der tatsächlichen Verteilung der Körpergrößen von erwachsenen Männern per Zufallsstichprobe gezogen und daraus ein Mittelwert gebildet. Diese Mittelwerte bilden neue Werte, aus denen sich mit zunehmender Anzahl von Stichproben eine Normalverteilung ergibt. Sie können sich dies veranschaulichen, indem Sie sich vorstellen, dass verschiedene Forscher verschiedene Stichproben ziehen, um Aussagen über die Körpergröße von erwachsenen Männern zu erhalten. Diese verschiedenen Stichproben werden simuliert. 

warnung

Wichtig: Der Zentrale Grenzwertsatz gilt für jedes feste n, jedoch sieht die Sampling-Distribution bei n = 10, n = 100, n = 1000 und n = 10000 unterschiedlich aus. Der Satz besagt, dass für jedes dieser festen n die entsprechende Sampling-Distribution mit der Schiefe der Population bestimmt konvergiert.  Das bedeutet: Eine fixe Stichprobengröße von beispielsweise n = 10 hat bei unendlicher Wiederholung einen bestimmten Standardfehler. Diese Information ist wichtig für die Größe der eigenen Stichprobe und deren Einfluss auf Konfidenzintervalle und Hypothesentests.

Die Besonderheit hierbei ist die Bezeichnung der Standardabweichung, die hier als Standardfehler (SE = sd/√n) bezeichnet wird. Da es hier um Mittelwerte von Stichproben geht und nicht um einzelne Werte von Menschen, lautet die Frage:

Wie sehr kann ich mich irren, wenn ich aus einer Stichprobe auf die Grundgesamtheit schließe?

Der Standardfehler ist ein Maß für die Präzision unseres Schätzers (hier Stichprobenmittelwert).

Ich werde Ihnen die Gesetzmäßigkeit des CLTs empirisch per Simulation zeigen. Hierzu werden immer verschiedene Stichproben mit n = 30 gezogen und der Mittelwert gebildet.

Sie sehen, wie die Mittelwerte selbst eine Normalverteilung bilden. Der Mittelwert nähert sich auch hier dem wahren Mittelwert (μ = 180 cm) an, der Standardfehler (SE) beschreibt die durchschnittliche Abweichung zum wahren Mittelwert, der auftreten würde, wenn man sehr viele Stichproben erheben würde.

Wie hilft uns das nun bei unserem Problem, von einer Stichprobe auf die Grundgesamtheit zu schließen? Wir müssen die wiederholte Stichprobenziehung nicht praktisch ausführen, da wir wissen, wie sich die Stichprobenmittelwerte bei wiederholter Ziehung aus der Grundgesamtheit verhalten würden.3

Standardfehler-Formel: SE gleich sd durch Wurzel n, mit Erklärung: Standardfehler gemäß des CLT, Standardabweichung der Stichprobe, Anzahl statistischer Einheiten der Stichprobe

Effizienz: Wie präzise schätzen wir?

Der Standardfehler SE = σ/√n ist nicht nur ein Maß für Präzision, sondern auch für die Effizienz unseres Schätzers. Ein effizienter Schätzer hat unter allen unverzerrten Schätzern die kleinste Varianz – er nutzt die verfügbaren Daten optimal aus.

Die Formel SE = σ/√n offenbart eine wichtige Einsicht: Um den Standardfehler zu halbieren (also die Präzision zu verdoppeln), müssen wir die Stichprobengröße vervierfachen. Diese Quadratwurzel-Beziehung hat praktische Konsequenzen für die Studienplanung: Mehr Daten bedeuten bessere Schätzungen, aber der Gewinn nimmt mit wachsendem n ab. Ein Sprung von n=100 auf n=400 bringt denselben Präzisionsgewinn wie der Sprung von n=25 auf n=100.

Hier sehen Sie die mathematische Formel des zentralen Grenzwertsatzes

Zentraler Grenzwertsatz Formel: X̄n konvergiert in Verteilung gegen N(μ, σ²/n) für n gegen Unendlich, mit Erklärung: Mittelwert der Stichprobe, Konvergiert in Verteilung zu einer Normalverteilung mit dem wahren Mittelwert μ und der wahren Varianz σ²/n

Mathematisch bedeutet dies: Der Stichprobenmittelwert (X̄n) konvergiert in Verteilung zu einer Normalverteilung mit dem wahren Mittelwert (μ) der Grundgesamtheit und der wahren Varianz (σ2/n) der Grundgesamtheit durch n, für n gegen ∞, also wenn n immer größer wird.

Die Auswirkung der Größe von n

Allerdings ist die notwendige Stichprobengröße (n) nicht universell bestimmbar. Nur wenn die Sampling Distribution wirklich zu einer Normalverteilung konvergiert, sind Konfidenzintervalle und Hypothesentests möglich. Denn je nach Beschaffenheit der Grundgesamtheit, insbesondere der Schiefe, ist ein größeres n erforderlich. Smith und Wells (2006) zeigen durch Simulationen, wie stark die Verteilungsform auf die Konvergenz der Samplingverteilung des Mittelwerts zur Normalverteilung einwirkt. Die folgende Tabelle interpretiert ihre Ergebnisse und bietet eine heuristische Orientierung für die Stichprobenplanung. Wichtig: Diese Empfehlungen sind nicht universell und können für spezifische Datenkonstellationen abweichen.

Verteilung Charakteristika Schiefe / Kurtosis Empfehlung (Stichprobengröße) Anmerkung
Normal Annähernd symmetrische, nicht extrem ausreißeranfällige Testwerte (z. B. viele kognitive Skalen) 0 / 0 n ≈ 15 (gerundete Daten) Direkt aus Smith & Wells (2006): bei gerundeter Normalverteilung wird die Samplingverteilung des Mittelwerts ab ca. n≈15 visuell ungefähr normal (KS-Test zeigt aber auch bei n=15–25 noch häufig Abweichungen; erst bei n≥30 deutlich stabiler).
Schwach schief Leicht rechtsschiefe Messungen (z. B. viele psychologische Skalen mit mildem Bodeneffekt) 1.00 / 3.75 n ≈ 50–100 Heuristische Ableitung aus den Simulationen (Skew=1.00); im Paper werden für diese Verteilung keine exakten n‑Schwellen berichtet.
Moderat schief Mäßig rechtsschiefe Skalen (z. B. abgeschwächte Einkommensverteilungen, einige psychometrische Tests) 1.25 / 3.75 n ≈ 100–150 Ebenfalls Heuristik: Smith & Wells simulieren diese Verteilung, geben aber nur den Trend an (Normalität nimmt mit n zu), keine konkrete Untergrenze.
Stark schief Deutlich rechtsschiefe Verteilungen (z. B. Reaktionszeiten, typische Einkommensverteilungen) 1.50 / 3.75 n ≈ 150–250 Heuristische Empfehlung auf Basis der Simulationen; das Paper selbst nennt keine exakte Grenze, zeigt aber, dass stark schiefe Verteilungen deutlich größere n erfordern als symmetrische.
Extrem schief Extrem rechtsschiefe Daten mit starkem Boden-/Deckeneffekt (z. B. sehr konzentrierte Skalen) 1.75 / 3.75 n > 300 Direktes Ergebnis aus Smith & Wells: selbst bei n = 300 sind die Mittelwerte in der Mehrzahl der Replikationen nicht normal – CLT kann hier praktisch scheitern. Dies unterstreicht, dass die n=30‑Regel völlig unzureichend ist.
Uniform Gleichverteilte Messungen über ein Intervall (theoretisch flache Verteilung) 0 / ≈ −1.2 Heuristik: n ≥ 80–100 Im Paper nur n ≤ 30 simuliert: bei n = 30 sind ca. 95 % der Replikationen noch nicht normal (KS-Test). Größere n werden nicht untersucht; Bereich 80–100 ist eine vorsichtige eigene Empfehlung.
Bimodal Zweigipfelige Verteilungen (z. B. Mischung zweier Gruppen mit unterschiedlichen Mittelwerten) 0 / ≈ −1 Heuristik: n ≥ 40–50 Smith & Wells: bei n = 30 sind noch ca. 50 % der Replikationen nicht normal (KS-Test); sie schreiben, n = 30 „may be sufficient“. Konservativ empfiehlt sich daher eher n ≥ 40–50.
warnung

Wichtig: Die pauschale Information, dass mit n ≥ 30 das zentrale Grenzwerttheorem „funktioniert“, ist empirisch nicht haltbar. Smith und Wells (2006) zeigen: Bei n=30 weichen 35% der normalverteilten (gerundeten) Fälle, 50% der bimodalen und 95% der uniformen Verteilungen noch von Normalität ab. Die erforderliche Stichprobengröße variiert daher erheblich je nach Verteilungsform – von n=30–50 bei gerundeten Daten bis zu n=200–300 bei stark schiefen Verteilungen.

Hier sehen Sie, gemäß der Tabelle, wie auf Grund des CLT bei korrekter Stichprobengröße die Mittelwerte auch bei schiefen Verteilungen der Grundgesamtheiten zu einer Normalverteilung konvergieren.

Hier sehen Sie, gemäß der Tabelle, wie der CLT bei einem zu kleinen n nicht greift und die schiefen Verteilungen der Grundgesamtheiten in schiefe Verteilungen der Mittelwerte konvergieren. Mit Ausnahme der ersten Verteilung, bei welcher die Grundgesamtheit normalverteilt ist, ergibt sich auch eine Normalverteilung der Mittelwerte.

Über die Bestimmung der Stichprobengröße n, wird später eingegangen werden. Sollten Sie mit schon existierenden Daten arbeiten, müssen Sie von der Stichprobe auf die Grundgesamtheit schließen. Dies ist möglich mit: einem Histogramm oder einem Q-Q Plot. 

Fragen Sie sich, sind die Verteilungen symmetrisch oder schief?

Wählen Sie n entsprechend Optionen
  • Symmetrische Population: n = 10–30 ist OK
  • Schiefe Population: n ≥ 100–200 sicherer
Bei Unsicherheit
  • Größeres n nehmen (robuster gegen Schiefe)
  • Bootstrap-Methoden verwenden (keine Normalverteilungsannahme nötig)
  • Nicht-parametrische Tests nutzen (robuster gegen Verletzungen)

LLN und CLT

Zusammen bilden die beiden mathematischen Gesetze LLN und  Zentraler Grenzwertsatz (CLT ) die Ausgangsbasis der schließenden Statistik (Inferenzstatistik).

Das folgende Video zeigt Ihnen nun das LLN und Zentraler Grenzwertsatz (CLT ) zusammen. Je größer n wird, desto mehr konvergiert der Stichprobenmittelwert durch das LLN gegen den wahren Wert μ. Gleichzeitig zeigt der CLT, dass die Unsicherheit um diesen Mittelwert, gemessen durch den Standardfehler SE = s/√n, gegen 0 geht. Das bedeutet: Mit zunehmendem n werden unsere Schätzungen sowohl genauer als auch sicherer.

Diese Einführung sollte Ihnen den Kern der Statistik, hierbei auch der schließenden Statistik, vermitteln. Nun gilt es, die Bedingungen zu klären, damit LLN und Zentraler Grenzwertsatz (CLT ) greifen: die Zufallsstichprobe.

1. The law of large numbers says that the distribution of X̄ₙ piles up near μ. This isn’t enough to help us approximate probability statements about X̄ₙ. For this we need the central limit theorem. Suppose that X₁,…,Xₙ are iid with mean μ and variance σ². The central limit theorem (CLT) says that X̄ₙ = n⁻¹ Σᵢ Xᵢ has a distribution which is approximately Normal with mean μ and variance σ²/n. This is remarkable since nothing is assumed about the distribution of Xᵢ, except the existence of the mean and variance (Wasserman 2004, S. 77).

2. One of the most famous facts of probability theory says that, for large sample sizes, the distribution of x̄ is close to a Normal distribution. This is true no matter what shape the population distribution has, as long as the population has a finite standard deviation σ. This is the central limit theorem. It is much more useful than the fact that the distribution of x̄ is exactly Normal if the population is exactly Normal (Moore, McCabe und Craig 2017:489).
3. Draw an SRS of size n from any population with mean μ and finite standard deviation σ. When n is large, the sampling distribution of the sample mean x̄ is approximately Normal: x̄ is approximately N(μ, σ/√n) (Moore, McCabe und Craig 2017:489).

1.3 Zufallsstichprobe, Zufallsvariable und i.i.d.

Erinnern Sie sich an die Analogie mit der Suppe: In der Stichprobe mit dem Löffel steckt bereits die gesamte Suppe – Sie müssen nicht die komplette Suppe trinken. Was aber passiert, wenn Sie mit dem Löffel einen Teil erwischen, der besonders viele Gewürze enthält? Dann erhalten Sie eine verzerrte Stichprobe, die die Grundgesamtheit nicht mehr repräsentiert. Es liegt eine systematische Verzerrung vor, sodass das LLN und CLT nicht mehr greifen. Das hierbei verletzte Prinzip nennt sich unabhängig und identisch verteilt (Independent and Identically Distributed, kurz i.i.d.). Um eine Stichprobe zu erhalten, die die Grundgesamtheit wirklich repräsentiert, muss die Stichprobe eine Zufallsauswahl sein. Das bedeutet, dass jede statistische Einheit die gleiche Chance haben muss, in die Stichprobe zu gelangen. 1, 2, 3, 4, 5, 6, 7

Gehen wir nun wieder zu unserem Beispiel mit den Körpergrößen erwachsener Männer in Deutschland zurück. Um das Prinzip i. i. d. zu veranschaulichen.

Das mathematische Konzept hinter jeder Messung ist die Zufallsvariable X. Sie ist sozusagen der „Platzhalter“ vor dem Experiment und nicht mit dem bereits gemessenen Wert zu verwechseln. 6, 7

„Zufall“ bedeutet, dass wir im Voraus nicht wissen, wen oder was wir erwischen und welcher Wert dabei herauskommt. „Variable“ bedeutet, dass der Wert nicht fest ist, sondern variieren kann (z. B. zwischen 1,60 m und 2,10 m).

In unserem Fall ist die „Körpergröße“ die Zufallsvariable X. Erst nach der Messung haben wir konkrete Zahlen, beispielsweise 180 cm oder 175 cm. Diese nennt man realisierte Werte (x₁, x₂, …). 8

Beispiel:

Identisch: Stellen Sie sich vor, Sie messen nur die Mitglieder eines Basketballvereins. Damit würden Sie sofort die Bedingung „identisch verteilt“ verletzen. Ihre Daten stammen nämlich nicht aus der allgemeinen Verteilung aller deutschen Männer (ca. 180 cm), sondern aus einer speziellen „Riesen-Verteilung“ (ca. 195 cm). Sie greifen also von Anfang an in den falschen Topf. Identisch bedeutet: Alle Messwerte folgen derselben Wahrscheinlichkeitsverteilung wie die Grundgesamtheit. Dies ist nur durch echte Zufallsstichprobe garantiert, wo jede Einheit die gleiche Chance hat. Basketball-Spieler stammen aus der Subpopulation „große Sportler“, nicht aus der Gesamtverteilung aller Deutschen.

Unabhängig: Auch die „Unabhängigkeit“ ist hier verletzt. Die Spieler treten oft in Gruppen auf oder wurden nach denselben Kriterien für das Team ausgewählt. Wenn Sie einen großen Spieler messen, ist die Wahrscheinlichkeit extrem hoch, dass der nächste Mann aus der Halle ebenfalls groß ist. Die Messwerte hängen zusammen, statt völlig zufällig zu sein. Unabhängigkeit bedeutet: Der Wert einer Messung gibt keine Information über andere Messungen. Wenn Sie einen großen Basketballspieler messen, sagt das viel über die anderen Spieler aus. Bei einer echten Zufallsstichprobe: Messung A ist groß, Messung B könnte beliebig sein.

Die Folge dieser Verletzungen ist der Bias (Verzerrung). Zwar arbeitet das Gesetz der großen Zahlen noch, aber es stabilisiert Ihren Durchschnittswert präzise auf den falschen Wert von 195 cm. Sie erhalten somit ein rechnerisch genaues, aber inhaltlich falsches Ergebnis. Ein Rückschluss auf die Gesamtbevölkerung ist unmöglich, da die Stichprobe systematisch verzerrt wurde.

Die Folgen einer verzerrten Stichprobe zeige ich Ihnen in diesem Video.

Die gezogenen Stichproben sind nicht i. i. d., da keine Zufallsauswahl erfolgte. Zwar sehen Sie zunächst eine Normalverteilungskurve, jedoch hat diese den falschen Mittelwert, da nur Basketballspieler einbezogen wurden. Die beiden anderen Kurven sind zum einen eine rechtsschiefe Kurve, wie man sie von der Einkommensverteilung kennt, und zum anderen eine linksschiefe Kurve, die beispielsweise bei sehr leichten Tests entsteht, bei denen fast alle eine hohe Punktzahl erreichen.

Sie sehen: Wenn die Zufallsvariablen also nicht i.i.d. sind, die resultierende Verteilung einen Bias hat, haben wir keinen konsistenten Schätzer und die Ergebnisse sind falsch.


1.Why is it a good idea to use random sampling? Because everyone has the same chance of inclusion in the sample, so it provides fairness. This reduces the chance that the sample is seriously biased in some way, leading to inaccurate inferences about the population (Agresti, 2018:15).


2.Inferential statistical methods use sample statistics to make predictions about values of population parameters. The quality of the inferences depends on how well the sample represents the population. This section introduces randomization, the mechanism for achieving good sample representation (Agresti, 2018:14).

3.Besitzt jede Stichprobe vom Umfang n aus einer Grundgesamtheit vom Umfang N dieselbe Wahrscheinlichkeit gezogen zu werden, so liegt eine einfache Zufallsstichprobe vor (Fahrmeir et al.,  2023:200).

4.A simple random sample is often just called a random sample. The simple adjective is used to distinguish this type of sampling from more complex sampling schemes presented in Section 2.4 that also have elements of randomization (Agresti, 2018:15).

5. Simple random sampling is a method of sampling for which every possible sample of size n has equal chance of selection (Agresti, 2018:14).

6.Statistics and data mining are concerned with data. How do we link sample spaces and events to data? The link is provided by the concept of a random variable (Wassermann, 2004:19).

7.A random variable is a mapping […] that assigns a real number X(ω) to each outcome ω (Wassermann, 2004:19).

8.Random variables will always be denoted with uppercase letters and the realized values of the variable or its range will be denoted by the corresponding lowercase letters. Thus, the random variable X can take the value x (Casella und Berger, 2002:28).

1.4 Zusammenfassung Grundlagen der Statistik

  • Grundproblem der Statistik: Da Vollerhebungen (z.B. alle 84 Mio. Deutsche) meist unmöglich sind, müssen wir von einer kleinen Stichprobe auf die Grundgesamtheit schließen.
  • Die mathematische Basis (LLN & CLT):
    • Das Gesetz der großen Zahlen (LLN) sorgt dafür, dass sich unser Messwert bei steigender Stichprobengröße dem wahren Wert annähert (Konvergenz). Wir haben hiermit die Legitimation, dass man den Stichprobenmittelwert als konsistenten Schätzer für den wahren Wert der Grundgesamtheit verwendet, da der wahre Wert auch in der kleineren Stichprobe „steckt“. Konsistenz bedeutet: Mit genug Daten konvergiert unser Schätzer zuverlässig gegen den wahren Parameter – die Abweichung wird mit steigendem n immer kleiner.
    • Der Zentrale Grenzwertsatz (CLT) verrät uns, wie präzise diese Schätzung ist (Standardfehler). Der CLT sagt uns, wie sich hypothetisch die Mittelwerte verteilen, wenn man sehr viele Stichproben zieht und daraus den Mittelwert berechnet. Effizienz bedeutet: Die Formel SE = σ/√n zeigt, dass ein effizienter Schätzer die verfügbaren Daten optimal nutzt – ein effizienter Schätzer hat unter allen unverzerrten Schätzern die kleinste Varianz.
    • Das Werkzeug (Zufallsvariable): Vor der Messung ist jeder Datenpunkt eine Zufallsvariable (X) – ein Platzhalter, der noch keinen festen Wert hat. Erst die Messung erzeugt den realisierten Wert. In unserem Falle ist Körpergröße die Zufallsvariable. Wir wissen nicht, welchen Wert wir erwischen bei der Messung (Zufall) und dieser Wert kann unterschiedlich sein (variabel). Daher die Bezeichnung Zufallsvariable.
  • Die zwingende Voraussetzung (i.i.d.): Damit die Mathematik funktioniert, müssen die Zufallsvariablen i.i.d. sein:
    • Unabhängig: Eine Messung darf die nächste nicht beeinflussen.
    • Identisch verteilt: Alle müssen die gleiche Chance haben, gezogen zu werden (aus demselben Topf stammen).
    • Die Gefahr (Bias): Eine fehlende Zufallsauswahl (z.B. Messung im Basketballverein statt in der Allgemeinheit) verletzt die i.i.d.-Bedingung. Die Folge ist ein Bias (systematische Verzerrung): Man misst zwar genau, aber das Falsche. Selbst wenn LLN und CLT greifen, führt eine verletzte i.i.d.-Bedingung zu konsistenter Verzerrung – der Schätzer konvergiert gegen den falschen Wert.
  • Erforderliche Stichprobengröße (n) und ihre Effizienz-Implikationen: Die notwendige Stichprobengröße ist nicht universell bestimmbar und hängt stark von der Verteilungsform der Grundgesamtheit ab. Nach Smith und Wells (2006) gelten folgende Richtlinien. Beachte: Größere n verbessern nicht nur die Konsistenz unserer Schätzer, sondern auch deren Effizienz (Standardfehler sinkt mit √n).
    • Normalverteilte Populationen (z.B. Körpergrößen, IQ-Tests): n ≥ 30 ausreichend
    • Schwach schiefe Verteilungen (Schiefe ≈ 1.00): n ≈ 50–100 erforderlich
    • Moderat schiefe Verteilungen (z.B. Einkommensverteilungen, Schiefe ≈ 1.25): n ≈ 100–150 erforderlich
    • Stark schiefe Verteilungen (z.B. Reaktionszeiten, Schiefe ≈ 1.50): n ≈ 150–250 erforderlich
    • Bimodale Verteilungen (zweigipfelig): n ≥ 30–40 erforderlich
    • Uniformverteilungen (gleichverteilt): n ≥ 50–100 erforderlich
  • Warum die Faustregel „n ≥ 30″ empirisch nicht haltbar ist: Smith und Wells (2006) zeigen, dass bei n = 30 immer noch bedeutende Abweichungen von der Normalverteilung auftreten:
    • 35% der normalverteilten (gerundeten) Fälle weichen noch von Normalität ab
    • 50% der bimodalen Verteilungen weichen noch von Normalität ab
    • 95% der uniformen Verteilungen weichen noch von Normalität ab
  • Praktische Handlungsempfehlungen bei der Stichprobengröße:
    • Frage dich: Ist die Verteilung der Grundgesamtheit symmetrisch oder schief?
    • Symmetrische Population: n = 10–30 ist meist ausreichend (gute Konsistenz und Effizienz)
    • Schiefe Population: n ≥ 100–200 ist sicherer (größeres n für bessere Konsistenz und reduzierten Standardfehler)
    • Im Zweifelsfall: Größeres n wählen (robuster gegen Schiefe, effizienzgewinne durch √n-Beziehung)
    • Robuste Alternativen: Bootstrap-Methoden verwenden oder nicht-parametrische Tests nutzen (keine Normalverteilungsannahme nötig, oft effizienter bei nicht-normalverteilten Daten)

1.5 Frequentistische Statistik

Eine weitere entscheidende Erkenntnis ist der philosophische Kern dieser klassischen Statistik: Der Wahrscheinlichkeitsbegriff ist hier objektiv.1 Im Gegensatz zu Ansätzen, die Wahrscheinlichkeit als subjektiven Grad der persönlichen Überzeugung sieht („Ich glaube zu 70%, es wird regnen“), definiert die Frequentistische Statistik Wahrscheinlichkeit streng als relative Häufigkeit bei unendlicher Wiederholung.2

Genau hier schließt sich der Kreis zum Gesetz der großen Zahlen (LLN): Das LLN garantiert mathematisch, dass sich die beobachtete Häufigkeit in unserer Stichprobe (z.B. Kopf beim Münzwurf) dem „wahren“ Wert im Grenzfall immer weiter annähert – allerdings nur mit steigender Wahrscheinlichkeit, nicht mit Sicherheit. Die Wahrscheinlichkeit für Abweichungen vom erwarteten Wert geht gegen Null, je öfter wir das Experiment wiederholen.3

Für den Frequentisten ist Wahrscheinlichkeit also nichts „Gefühltes“, sondern ein messbarer Grenzwert eines unendlich oft wiederholbaren Experiments. Die Aussage „Ein Mann ist mit 5% Wahrscheinlichkeit über 2 Meter groß“ heißt für ihn schlicht: Würden wir unendlich viele Männer messen, würden sich ungefähr 5% von ihnen über 2 Meter als Grenzwert annähern. Der Zufall liegt also allein im Ziehen der Stichprobe, nicht in der Realität selbst. Die Populationsparameter (μ, σ) sind fix und unveränderlich – zufällig ist ausschließlich, welche Stichprobe wir ziehen. Daher ist nicht der Parameter unsicher, sondern unsere Schätzung: Das Konfidenzintervall variiert von Stichprobe zu Stichprobe, während der wahre Wert konstant bleibt.

Doch um diesen Zufall handhabbar zu machen, ist neben dem LLN ein zweites Prinzip nötig, das den Namen „Frequentist“ erst rechtfertigt: Der Zentrale Grenzwertsatz (CLT). Der Name rührt daher, dass statistische Unsicherheit hier ausschließlich über die relative Häufigkeit (Frequenz) von Ergebnissen in hypothetischen Versuchswiederholungen definiert wird. Damit dieses Konzept praktisch anwendbar ist, muss bekannt sein, wie sich diese Ergebnisse bei vielfacher Wiederholung um den wahren Wert verteilen. Hier liefert der CLT die entscheidende Grundlage, indem er beweist, dass sich die Verteilung der Stichprobenmittelwerte mit zunehmendem Umfang einer Normalverteilung annähert, und transformiert somit das abstrakte Gedankenexperiment unendlicher Wiederholungen in eine konkret berechenbare Wahrscheinlichkeitsdichte. Ohne den CLT könnte der Frequentist die zu erwartenden Häufigkeiten von Schätzfehlern – und damit p-Werte oder Konfidenzintervalle – nicht objektiv quantifizieren.

1.Dieser objektivistische Wahrscheinlichkeitsbegriff basiert auf einer Häufigkeitsinterpretation der Wahrscheinlichkeit. Bei einem Zufallsexperiment geht man davon aus, dass es beliebig oft wiederholt werden kann. Ermittelt man nun bei n unabhängigen Wiederholungen dieses Experiments jeweils die relative Häufigkeit eines Ereignisses A, so lässt sich die Wahrscheinlichkeit für das Eintreten von A als den Wert ansehen, bei dem sich die relative Häufigkeit von A mit wachsendem n stabilisiert (Fahrmeir et al., 2016:188).

2.The frequentist point of view is based on the following postulates: F1 Probability refers to limiting relative frequencies. Probabilities are objective properties of the real world. F2 Parameters are fixed, unknown constants. Because they are not fluctuating, no useful probability statements can be made about parameters. F3 Statistical procedures should be designed to have well-defined long run frequency properties. For example, a 95 percent confidence interval should trap the true value of the parameter with limiting frequency at least 95 percent (Wasserman, 2004:175).

3. Dieser Wert hängt nicht von dem jeweiligen Betrachter ab, sondern ist durch eine frequentistische Sichtweise motiviert: Würde man das Zufallsexperiment des Würfelns sehr oft wiederholen, würde man bei einem fairen Würfel ungefähr einen Anteil von 1/6 beobachten, mit dem die Sechs im Verhältnis zu allen anderen Zahlen gewürfelt wird. Wir werden i.Allg. diesen auch als objektivistisch bezeichneten Wahrscheinlichkeitsbegriff den nachfolgenden Überlegungen zugrunde legen. Im Gegensatz dazu sind Wahrscheinlichkeiten, mit denen wir Ereignisse unseres täglichen Lebens bewerten, oft subjektiver Natur (Fahrmeir et al., 2016:181).

Wir bitten um Entschuldigung....

Aktuell werden alle Kurse und Beratungen vorbereitet. Geben Sie Ihre Daten für den Newsletter ein und wir benachrichtigen Sie bei Fertigstellung umgehend.