Planung und Durchführung einer statistischen Auswertung – diese Irrtümer können Sie vermeiden

Ein Gastbeitrag von Daniela Keller

Wenn Sie oder Ihre Studenten vor der Durchführung einer quantitativen Studie stehen, können Sie die hier im Beitrag beschriebenen Irrtümer leicht umgehen, wenn Sie ein gewisses Grundverständnis davon zu haben, was mit der statistischen Analyse möglich ist und was notwendig ist, um eine gute statistische Auswertung durchführen zu können. Davon schreibe ich in diesem Beitrag. Außerdem gebe ich ein paar Tipps, die den Einstieg in die statistische Analyse erleichtern.

Irrtum 1: „Wir brauchen mindestens 600 Fragebögen.“

Meist werden für eine quantitative Studie Daten einer Stichprobe erhoben und statistisch analysiert. Ausgehend von diesen Ergebnissen, soll auf eine verallgemeinerte Aussage für die Grundgesamtheit geschlossen werden. Voraussetzung dafür, dass diese aus den Daten erhaltene Erkenntnis auf die Grundgesamtheit verallgemeinert werden darf ist, dass die Stichprobe repräsentativ ist, also die Grundgesamtheit widerspiegelt.

Dabei lässt sich die Repräsentativität meist nur ansatzweise untersuchen. Das wichtigste Mittel dafür ist, die Stichprobe zu beschreiben: Wie viele Männer, wie viele Frauen sind enthalten? Wie ist die Altersstruktur usw. Diese Ergebnisse werden dann mit der Grundgesamtheit verglichen, falls diese Werte von der Grundgesamtheit bekannt sind. Der Nachweis von Repräsentativität ist also schwierig. Dafür ist es praktikabel, bereits bei der Ziehung der Stichprobe die besten Voraussetzungen zu schaffen, dass die Stichprobe repräsentativ sein wird. Dazu wird die Stichprobe möglichst zufällig gezogen, das heißt, jedes Objekt der Grundgesamtheit soll die gleiche Chance haben, in der Stichprobe zu landen. Manchmal werden auch etwas abweichende Verfahren zur Stichprobenziehung verwendet, die teils die Repräsentativität noch besser gewährleisten sollen, oder auch den praktischen Umständen geschuldet sind, z.B. Clusterstichprobe, geschichtete Stichprobe oder auch Quotenstichproben (ADM, Stichproben-Verfahren in der Umfrageforschung).

Oft wird die Repräsentativität mit der Stichprobengröße verwechselt bzw. in Zusammenhang gebracht. Dabei sind das zwei unterschiedliche Paar Schuhe: Repräsentativität bedeutet, dass die Stichprobe die Grundgesamtheit repräsentiert – unabhängig davon, wie groß die Stichprobe und wie groß die Grundgesamtheit sind. Dagegen hängt die Stichprobengröße von anderen Faktoren ab. Erstmal ist die Größe der Stichprobe meist durch praktikable Gesichtspunkte nach oben hin beschränkt: Wie viele Probanden können in zeitlich und finanziell vertretbarem Rahmen akquiriert werden? Nach unten beschränkt ist die Stichprobengröße von der Art der später geplanten Analyse. Wird z.B. die Analyse komplexer Modelle (z.B. Strukturgleichungsmodelle oder multiple lineare Regressionen) geplant, so ist es allein dafür schon notwendig, mit einer hinreichend großen Stichprobe zu starten. Was hinreichend groß ist, ist hier schwierig zu beantworten. Grundsätzlich gilt: je größer, desto besser. Es wird mindestens gefordert, dass die Anzahl der Beobachtungen doppelt so groß sein muss wie die Anzahl der Variablen z.B. in einer Regressionsgleichung (Backhaus et al., 2011).

Sind einfachere Analysen geplant, z.B. eine einfache Korrelation oder ein Lageunterschied, so kann vorab eine Fallzahlplanung (auch Power-Analyse genannt) durchgeführt werden, mit der die Fallzahl basierend auf Annahmen über die erwarteten Ergebnisse berechnet werden kann. Hier wird also der Frage nachgegangen: Wie groß muss meine Stichprobe mindestens sein, um den Zusammenhang x als signifikant nachzuweisen? Dazu müssen Vorannahmen über die Größe des Zusammenhangs (Effektstärke, s.u.) getroffen werden. Als einfache und kostenlose Software dafür steht z.B. G*Power der Universität Düsseldorf zur Verfügung (http://www.gpower.hhu.de/).

Irrtum 2: „Hauptsache, das Ergebnis ist signifikant.“

In dem Zusammenhang ist es wichtig zu erwähnen, dass die statistischen Methoden grundsätzlich in der Lage sind, jeden noch so kleinen Zusammenhang oder Unterschied als signifikant nachzuweisen, wenn nur die Stichprobe groß genug ist. Umgekehrt kann es sein, dass ein zwar inhaltlich bedeutender Zusammenhang oder Unterschied nicht als statistisch signifikant nachgewiesen werden kann, da die Stichprobe zu klein dafür ist. Deshalb macht es immer Sinn, nicht nur auf p-Werte (signifikant oder nicht signifikant) zu schauen, sondern auch immer die Größe des Unterschieds oder Zusammenhangs (Effektstärkemaße) zu berichten und zu interpretieren.

Irrtum 3: „Die Daten sind da und ich rechne einfach mal los.“

Ein weiterer wichtiger Punkt für das statistische Grundverständnis ist die Kenntnis von den verschiedenen Variablentypen. Erst wenn das Messniveau für die Variablen klar ist, kann die passende Methode für die Analyse ausgewählt werden.

Die wichtigsten drei Typen sind

nominale Variablen,
ordinale Variablen und
metrische Variablen (auch intervall- oder ratioskaliert).

Nominale Variablen sind Werte, die Kategorien abbilden, ohne dass diese Kategorien einer natürlichen Ordnung folgen. Zum Beispiel sind Geschlecht oder Nationalität nominale Merkmale. Ordinale Variablen bilden auch Kategorien ab. Hier folgen die Kategorien aber einer natürlichen Rangfolge oder Ordnung. Man kann sie also sinnvoll sortieren. Das ist z.B. bei Dienstgraden der Fall, bei Tumorstadien oder auch bei Schulnoten. Metrische Variablen sind dann alle Merkmale, die auf einer (gleichabständigen) Skala gemessen werden, also z.B. Temperatur, Unternehmenszugehörigkeit in Jahren oder BMI.

Die Zuordnung zu diesen drei Skalenniveaus ist nicht immer eindeutig und muss es auch für die statistische Analyse nicht immer sein. Zudem gibt es eine Besonderheit, die Likert-Variablen betrifft. Likert-Variablen sind Daten aus Fragebögen, in der auf einer k-stufigen Skala (z.B. 5-stufig von „Trifft voll zu“ bis „Trifft überhaupt nicht zu“) erhoben werden. Likert-Variablen sind streng genommen ordinal, werden aber meist wie metrische Variablen verwendet.

Irrtum 4: „Ich kann sowieso nicht alle Methoden kennen.“

Es ist hilfreich, schon vor Beginn der Untersuchung einen Überblick über die verschiedenen Arten von statistischen Analysen zu haben. Wie eingangs erwähnt ist es dafür aber nicht notwendig, alle Methoden im Detail zu kennen. Wichtig ist es aber zu wissen, welche Möglichkeiten in der statistischen Analyse stecken. Es ist demnach relevant:

Was ist mit welcher Methode möglich?
Welche Daten (Variablentyp, Verteilung) können mit welcher Methode untersucht werden?
Welche Aussagen sind mit den Ergebnissen dann möglich? usw.

Zunächst unterscheidet man zwischen deskriptiven und schließenden Methoden. Deskriptive Methoden beschreiben die Daten und deren mögliche Unterschiede oder Zusammenhänge. Es werden hier Maßzahlen berechnet wie z.B. Häufigkeiten, Lagemaße und Streumaße. Damit wird zum einen die Stichprobe insgesamt beschrieben. Es werden aber auch die bereits für die Forschungsfrage interessierenden Zusammenhänge untersucht, z.B. indem die Lage eines Parameters in zwei verschiedenen Gruppen berechnet und beschreibend verglichen wird. Gleichzeitig ist die deskriptive Analyse ein Datencheck, da hier Unstimmigkeiten in den Daten wie Ausreißer, Tippfehler oder fehlende Werte auffallen.

Die Art der Maßzahlen, die in der deskriptiven Analyse berechnet werden, hängt vom Datentyp (s.o.) der Variablen ab. So werden für kategoriale (nominale, ordinale) Variablen z.B. Häufigkeiten berechnet, für metrische Variablen die Lage- und Streumaße.

Zu den deskriptiven Methoden passen gut die Abbildungen. Sie visualisieren die deskriptiven Maßzahlen, z.B. indem aus den Häufigkeiten Balkendiagramme erstellt werden, oder als Boxplot, der den Median und die Quartile darstellt.

In der schließenden Statistik werden danach die vorab deskriptiv untersuchten Zusammenhänge bzw. Unterschiede auf statistische Signifikanz geprüft. Hier geht es also nicht mehr um die Beschreibung der Daten, sondern es werden Signifikanztests gerechnet, mit deren Ergebnis eine Verallgemeinerung der Aussage für die Grundgesamtheit gezogen werden soll. Beispiele sind hier z.B. die Varianzanalyse, die Korrelation oder die Regression.

Dafür ist es notwendig, dass Hypothesen aufgestellt werden. Die Nullhypothese wird dabei so formuliert, dass Sie aussagt, dass es keinen Zusammenhang bzw. keinen Unterschied gibt. Die Alternativhypothese ist das Gegenteil der Nullhypothese: „Es gibt einen Zusammenhang/Unterschied.“. Der Signifikanztest prüft, ob die Nullhypothese abgelehnt werden kann. Je nach Variablentyp, Verteilung der Daten und Studiendesign wird der passende Signifikanztest ausgewählt und berechnet. Liefert er einen signifikanten p-Wert (meist p < 0,05), so wird die Nullhypothese abgelehnt und damit ist ein statistisch signifikanter Unterschied bzw. Zusammenhang gezeigt.

Ist der p-Wert nicht signifikant (p ≥ 0,05), so wird formuliert „Es kann kein signifikanter Zusammenhang/Unterschied nachgewiesen werden“. Das bedeutet nicht, dass es keinen gibt. Die Signfifikanztests, die auf Unterschied bzw. Zusammenhang prüfen, können keine Gleichheit bzw. keinen Zusammenhang nachweisen.

Diese hier beschriebenen Signifikanztests prüfen Zusammenhangs- oder Unterschiedshypothesen. Das heißt, hier hat der Forscher basierend auf seiner Forschungsfrage eine Hypothese formuliert, die er direkt testen will. Diese Verfahren nennt man auch strukturprüfende Verfahren.

Daneben gibt es auch strukturentdeckende Verfahren, die das Ziel haben, Strukturen in den Daten aufzudecken. Hier gibt es keine Hypothesen, die geprüft werden. Oftmals kommen sie in einer Analyse vor den strukturprüfenden Verfahren zum Einsatz. Zu den strukturentdeckenden Verfahren zählt z.B. die Clusteranalyse, die versucht, die Objekte anhand der erhobenen Parameter mit sich ähnelnden Objekten gemeinsam in Gruppen (Cluster) zusammenzufassen und so sich unterscheidende Gruppen zu finden. Ein anderes strukturentdeckendes Verfahren arbeitet nicht auf der Objektebene, sondern auf der Parameterebene: die Faktorenanalyse (und auch die Hauptkomponentenanalyse) versucht, aus vielen Variablen weniger Faktoren zu bilden, indem sie passende Variablen zu einem Faktor zusammen fasst.

Tipps zum Einstieg

Nun möchte ich noch zum Abschluss ein paar praktische Tipps geben. Wenn Sie und Ihre Studenten die vorab beherzigen, wird der Einstieg in die statistische Auswertung leichter fallen und die Qualität der Ergebnisse wird verbessert:

Fragebogenerstellung

Wenn Sie selbst einen Fragebogen für die Studie erstellen, dann sollten Sie hier viel Zeit und Sorgfalt aufwenden.

Für die Qualität der späteren Ergebnisse ist es sehr wichtig, dass die Fragen gut formuliert sind, damit sie für den Teilnehmer verständlich sind:

Alter, Bildungsniveau usw. der Teilnehmer beachten,
keine mehrdeutigen Begriffe verwenden,
immer nur EINE Frage stellen,
keinen Deutungsspielraum lassen.

Außerdem dürfen die Fragen nicht suggestiv sein und keine Unterstellungen beinhalten (das beeinflusst die Antworten).

Aus statistischer Sicht noch interessant ist das Messniveau der Antworten, also ob die Fragen kategoriales/dichotomes Antwortformat haben (z.B. Geschlecht m/w), oder metrisch (z.B. Alter in Jahren) oder ordinal (z.B. Alter in Altersklassen) oder als Likert-Skala abgefragt werden (z.B.7-stufige Skala von „stimme gar nicht zu“ bis „stimme voll zu“). Vom Antwortformat hängt ab, mit welchen Methoden die Daten später statistisch ausgewertet werden können.

In jedem Fall ist bei einem selbst erstellten Fragebogen ein Pretest an wenigen Test-Teilnehmern sinnvoll. Damit kann geprüft werden, ob die Fragen verständlich sind und das Antwortformat angenommen wird.

Dateneingabe

Die anschließende Dateneingabe kann direkt in einer Tabelle (z.B. Excel) vorgenommen werden. Diese Tabelle kann dann in jede gängige Statistiksoftware importiert und dort ausgewertet werden. Bei der Dateneingabe sind ein paar Dinge zu beachten:

Jede Beobachtung (Fall, Objekt, Teilnehmer) bekommt eine Zeile, jede Variable (erhobener Parameter) eine Spalte.
In der ersten Zeile (und nur in der ersten) stehen die Variablennamen, in der ersten Spalte eine ID (z.B. Teilnehmernummer).
In den Zellen werden die Werte eingegeben:
- Zahlenwerte einfach als Zahlen (ohne Einheit).
- Kategorien können als Text oder als Zahl kodiert eingegeben werden (z.B. 1 für männlich und 2 für weiblich). Werden sie als Zahl kodiert eingegeben, muss die Kodierungsvorschrift separat gespeichert werden. Wird sie als Text eingegeben, muss gut darauf geachtet werden, dass es keine Tippfehler gibt und wirklich immer genau die Kategorienbezeichnungen verwendet werden.
Mehrfachmessungen (Messwiederholungen, z.B. mehrere Zeitpunkte) werden meist als eigene Spalten eingegeben (das nennt man auch Wide-Format). Alternativ könnte man auch pro Messwiederholung eine eigene Zeile für jeden Fall (Teilnehmer) anlegen (Long-Format), was aber meist umständlicher ist. In der Statistiksoftware lässt sich der Datensatz meist problemlos vom Wide- zum Long-Format und umgekehrt ändern.
Eine Spalte für Kommentare hat sich bewährt. Die lässt sich später nicht statistisch auswerten, hilft aber dabei, während der Analyse z.B. Spezialfälle ausfindig zu machen.
Die Datei darf keine Leerspalten oder Leerzeilen enthalten.

Mit der Software anfreunden

Zu guter Letzt empfehle ich noch allen Anwendern, sich frühzeitig mit der ausgewählten Statistiksoftware anzufreunden. Wenn fest steht, mit welcher Software später ausgewertet werden soll, kann man sich bereits in Ruhe mit den technischen Grundfunktionen (z.B. Daten importieren, Einstellungen vornehmen, Menüstruktur, Ausgabe betrachten…) auseinander setzen. Dafür kann man sich zum Beispiel einen Testdatensatz erstellen und sich mit Hilfe eines Buches oder mit Video-Tutorials etwas einarbeiten. Dann fällt der Start mit den „richtigen“ Daten leichter, geht schneller und die erste Hürde ist schon zuvor genommen.

Referenzen und Literaturtipps:

ADM Arbeitskreis Deutscher Markt. und Sozialforschungsinstitute e.V., Stichproben-Verfahren in der Umfrageforschung, 2. Auflage, Springer VS 2014.
Klaus Backhaus et al., Multivariate Analysemethoden, Springer 2011.
Andy Field, Discovering Statistics using SPSS, SAGE 2013.
Andy Field, Discovering Statistics using R, SAGE 2014.

Über die Autorin:

Daniela Keller berät als Statistik-Expertin Unternehmen, Forschungsgruppen, Doktoranden und Studenten zu allen Statistikthemen – von der Planung der Studie über die Auswertung mit geeigneter Software bis zur Darstellung und Präsentation der Ergebnisse. Zudem gibt sie Statistikworkshops und betreibt ein Blog zu Statistikfragen.

Es ist ihr wichtig, ihre Kunden unkompliziert und bedarfsgerecht zu beraten und somit zum Gelingen des Projekts beizutragen. Dabei fällt es ihr leicht, komplizierte Zusammenhänge mit einfachen Worten klar und verständlich zu formulieren, so dass die Statistik trotz komplexer Themen nachvollziehbar wird.

www.statistik-und-beratung.de

www.statistik-und-beratung.de/blog

Immer auf dem Laufenden bleiben?

Melden Sie sich für den Newsletter an! Sie werden benachrichtigt, wenn ein neuer Beitrag auf dem Blog erscheint, und können auch ein wenig hinter die Kulissen blicken.

Wissenschaftliches Arbeiten lehren

Ein Blog für Lehrende