Quantitative Forschung – Was müssen Einsteiger wissen?

Ein Gastbeitrag von Daniela Keller

Das Feld der quantitativen Forschung ist sehr weit und schreckt vielleicht aufgrund der Nähe zur Mathematik und Informatik viele Studierende ab.

Wie kann man Einsteigern trotzdem einen möglichst einfachen Zugang zu diesem Gebiet geben?

Was muss eine Anfängerin oder ein Anfänger wissen, um mit einem ersten quantitativen Projekt beginnen zu können?

Diese Fragen beantworte ich hier anhand von sechs Punkten:

1. Klare Fragestellung und präzise Hypothesen

Die Forschungsfrage und damit die Fragestellung der Arbeit muss klar formuliert sein. Aus dieser Fragestellung heraus werden anschließend präzise Hypothesen formuliert. Diese Hypothesen dürfen jeweils nur eine Idee enthalten und müssen messbar sein. Messbar heißt: alle für die Beantwortung der Hypothesen benötigten Informationen müssen als Daten vorliegen oder müssen erhoben werden können.

Nur mit einer so klaren Fragestellung und den daraus sich ergebenden präzisen Hypothesen können die Studierenden die nächsten Schritte gehen und verlieren sich nicht in unnötigen oder unmöglichen Datenanalysen.

2. Grundlegendes Verständnis eines Signifikanztests

Die Studierenden müssen verstehen, wie ein Signifikanztest funktioniert. Es muss ihnen klar sein, was eine Nullhypothese und was eine Alternativhypothese ist und wie das Ergebnis des Signifikanztests sich auf diese Hypothesen auswirkt. Sie müssen die Bedeutung der statistischen Signifikanz verstehen und wissen, was das Signifikanzniveau und was die Teststärke sind und wie diese Elemente gemeinsam mit der Fallzahl und der Stärke des Effekts in Wechselwirkung stehen:

  • Um einen kleinen Effekt als signifikant nachzuweisen, benötigt man eine große Fallzahl.
  • Einen großen Effekt kann man auch mit kleiner Fallzahl als signifikant nachweisen.

Dadurch wird es ihnen möglich, das Ergebnis eines Signifikanztests richtig zu interpretieren und richtig in ihr Forschungsergebnis einzuordnen.

3. Bedeutung der Datenerhebung für die Datenqualität

Außerdem sollten die Anwender wissen, woher die Daten kommen und wie sie erhoben wurden. Zudem brauchen sie ein Bewusstsein dafür, wie die Art der Datenerhebung die Datenqualität und damit das Ergebnis der Forschung beeinflusst.

Hier sollten Themen angesprochen werden wie:

  • Grundgesamtheit und Stichprobe,
  • Art der Stichprobenziehung (zufällig, geschichtet, Cluster…),
  • Validität und Reliabilität des Erhebungsinstruments und
  • Erstellung eigener Erhebungsinstrumente (z.B. Fragebogen).

Mit dem Bewusstsein für die Wichtigkeit dieser Themen werden die Forschenden mehr Sorgfalt bei der Wahl sowohl der Stichprobe als auch der Erhebungsinstrumente walten lassen. Und selbst wenn keine optimalen Bedingungen (keine Repräsentativität, keine validierten Fragebögen) bestehen, werden sie ihre Ergebnisse vor diesem Hintergrund richtig einordnen und diskutieren können.

4. Variablentypen kennen und Unabhängigkeit verstehen

Ganz einfach und greifbar lässt sich vermitteln, dass es verschiedene Variablentypen gibt und dass die Kenntnis des Variablentyps wichtig für die Auswahl der passenden statistischen Verfahren ist. Meist reicht es, wenn man zwischen den Messniveaus metrisch, ordinal und nominal unterscheidet. Es sollte zudem noch angesprochen werden, dass es Grenzfälle gibt wie Likert-Items oder Besonderheiten wie Überlebenszeiten.

Ein weiterer wichtiger Punkt, der häufig unter den Tisch fällt, ist die von den meisten statistischen Methoden vorausgesetzte Unabhängigkeit der Messungen. Es wird in den meisten Analysemethoden davon ausgegangen, dass die einzelnen untersuchten Fälle (z.B. Probanden) voneinander unabhängig sind. Diese Annahme kann nicht bestehen, wenn es sich um hierarchische Daten handelt, z.B. Messungen an Schülern sowohl aus der gleichen Klasse als auch aus unterschiedlichen Klassen. Dann sind sich die Schüler aus der gleichen Klasse ähnlicher als die aus verschiedenen Klassen und dies führt zu teilweise verbundenen Daten. Solche Daten benötigen besondere Analysemethoden wie z.B. lineare gemischte Modelle.

Komplett verbundene Datensätze, wie z.B. eine Messwiederholung über die Zeit, ist auch mit klassischen Analysemethoden gut umsetzbar und stellt kein Problem dar. Hier muss nur darauf geachtet werden, dass die passende Methode für verbundene Daten ausgewählt wird.

5. Auf Voraussetzungen achten

Natürlich braucht kein Anwender alle statistischen Methoden mit allen zugehörigen Voraussetzungen komplett zu kennen. Ein Einsteiger sollte aber wissen, dass die meisten Signifikanztests und statistischen Modelle bestimmte Voraussetzungen an die Daten stellen und dass diese vom Anwender geprüft werden müssen.

Zum Einstieg kann man dafür zum Beispiel auf die Normalverteilung und deren Überprüfung eingehen, da diese bei zahlreichen statistischen Methoden zu untersuchen ist.

Ziel ist, dass die Anwender dafür sensibilisiert werden bei der Durchführung der Statistik auf die Prüfung und Einhaltung der jeweiligen Voraussetzungen zu achten.

6. Statistiksoftware kennen

Um die Analyse selbst rechnen zu können, müssen die Studierenden eine Statistiksoftware benutzen. Es gibt verschiedene Software mit unterschiedlichen Vor- und Nachteilen hinsichtlich Benutzerfreundlichkeit, Kosten, Zugänglichkeit und Funktionen.

Wichtig ist, dass den Studierenden klar ist, dass sie eine Statistiksoftware benötigen. Um Zeit während der eigentlichen Auswertung zu sparen und Fehler zu vermeiden, lohnt es sich, sich schon vorab mit der Software in den Grundzügen vertraut zu machen.

Fazit

Wenn Sie es schaffen, Ihren Studierenden diese sechs Punkte zu vermitteln, bereiten Sie sie gut auf den Einstieg in das quantitative Forschen vor. Das erste quantitative Projekt Ihrer Studierenden wird ihnen leichtfallen und sie werden dieses Wissen für alle weiteren Projekte nutzen, dort erweitern und vertiefen.

Wenn Sie selbst oder Ihre Studierenden Ihr Statistikwissen vertiefen wollen und sich eine große Portion Motivation und Fokus für Ihr Projekt holen möchten, dann machen Sie mit bei der gratis, online Statistik-Challenge von 11. bis 13. Mai 2020. Anmeldung hier möglich: https://statistik-und-beratung.de/statistik-challenge/

Daniela Keller, Statistikexpertin

Einen früheren Gastbeitrag von Daniela Keller finden Sie hier: Statistische Irrtümer vermeiden

Immer auf dem Laufenden bleiben?

Melden Sie sich für den Newsletter an! Sie werden benachrichtigt, wenn ein neuer Beitrag auf dem Blog erscheint, und können auch ein wenig hinter die Kulissen blicken.

From bad to better

Meinfelder, Florian und Rebekka Kluge (Hrsg.) (2019): Bad Science: Die dunkle Seite der Statistik. München: Vahlen.

29,80 Euro

Inhaltsübersicht

I Methodische Grundlagen (3 Beiträge)

II (K)eine Anleitung zum Mogeln (3 Beiträge)

III Wie man unter Zuhilfenahme statistischer Methoden Nonsens-Forschung einen wissenschaftlichen Anstrich verpasst (2 Beiträge)

IV Handfeste Konsequenzen in der wirklichen Welt (3 Beiträge)

 

From bad to better

Was ist Wissenschaft? Was ist Pseudo-Wissenschaft? Und was ist einfach nur schlechte Wissenschaft? Unter „Bad Science“ verstehen die Herausgeber des Sammelbandes laut Vorwort „schlampiges Vorgehen beim wissenschaftlichen Arbeiten“, aber auch einseitige Untersuchungen und gefälschte Ergebnisse. Der Fokus des Buches liegt klar auf Letzterem, wie schon der Untertitel „Die dunkle Seite der Statistik“ zeigt. Dahinter steckt der Gedanke, dass Menschen, die versiert mit Statistik umgehen können, diese nicht missbrauchen, sondern sie für gute Wissenschaft nutzen.

Als Herausgeber fungieren Dr. Florian Meinfelder von der Otto-Friedrich-Universität Bamberg und Rebekka Kluge, die am GESis Leibniz-Institut für Sozialwissenschaften Mannheim promoviert. Bei den Autoren der Beiträge handelt es sich um ehemalige Master-Studierende der Universitäten Bamberg, Berlin und Trier, die im Sommersemester 2016 am Seminar „Survey Methodik“ teilgenommen hatten.

Wie ist das Buch aufgebaut?

Auf den ersten Blick findet man den klassischen Aufbau eines Sammelbands vor: Auf das Vorwort und die Einleitung der Herausgeber folgen nacheinander mehr oder minder aufeinander abgestimmte Beiträge, er schließt mit einem Nachwort der Herausgeber. Im vorliegenden Sammelband ergänzen sich jedoch die vier Teile – „Methodische Grundlagen“, „(K)eine Anleitung zum Mogeln“, „Wie man unter Zuhilfenahme statistischer Methoden Nonsens-Forschung einen wissenschaftlichen Anstrich verpasst“ und „Handfeste Konsequenzen in der wirklichen Welt“ – sehr gut. Zudem sind sie jeweils mit einem einführenden Zwischentext der Herausgeber verbunden. Das Buch wird zu einem angenehmen Mix aus Grundlagen und Anwendung, aus theoretischem Hintergrundwissen zur Statistik und der Beschreibung praktischer Auswirkungen in der echten Welt.

Was lernt man in dem Buch?

Im ersten Teil zu den methodischen Grundlagen geht es zunächst einmal um die Unzulänglichkeiten des p-Werts. Dieser Signifikanzwert ist als Standard derzeit noch nicht aus der Statistik wegzudenken; die als Alternative geltende Bayes-Statistik wird vergleichsweise selten eingesetzt bzw. ist in der einschlägigen Software noch nicht implementiert.

Das sogenannte p-Hacking (die Suche nach einer möglichst spektakulären und somit gut veröffentlichbaren signifikanten Aussage) und das HARKing (Hypothesizing after Results are known) werden anschaulich und an mehreren Beispielen in den folgenden Teilen dargestellt.

Und, leider, leider, lernt man in dem Buch auch, dass Schokolade doch nicht schlank macht (waaas?). Sie erinnern sich: Vor fast fünf Jahren, im März 2015, entstand ein ziemlicher Rummel um eine Studie, die angeblich zeigte, dass Schokolade beim Abnehmen hilft. Nach zwei Monaten erst klärten die Autoren auf, dass es sich um eine Fake-Studie gehandelt hatte, und mahnten so zu einer kritischeren Auseinandersetzung mit Studienergebnissen.

Welchen Studierenden kann man das Buch empfehlen?

Wer im Studium viel mit Statistik zu tun hat oder sich gar darauf spezialisiert hat, findet in dem vorliegenden Buch eine Zusammenstellung modernerer Ansätze, die so noch nicht in allen Lehrbüchern und noch viel weniger in Lehrunterlagen zu finden sind. Es wäre gut möglich, dass man nach der Lektüre auf einem aktuelleren Wissensstand angelangt ist als eine Lehrperson, die sich seit geraumer Zeit nicht mehr weitergebildet hat, „weil sich bei der Statistik eh nichts ändert“. Das ungläubige Staunen, dass sich da doch etwas tut, sollte man dann aushalten oder verargumentieren können.

Was bringt das Buch für den Einsatz in der Lehre?

Für Lehrende, die bisher nicht gerade tief in die Statistik eingetaucht sind, ist der Sammelband sicher keine gute Einstiegslektüre in das Gebiet. Ein wenig Vorbildung auf diesem Gebiet sollte man schon mitbringen, so etwa das Wissen darüber, was statistische Analysen im Gegensatz zu einer qualitativen Herangehensweise eigentlich leisten sollen und vor allem, was es mit dem Hypothesentesten und dem berühmten p-Wert auf sich hat. Dann macht die Lektüre Laune und es ist möglich, ausgewählte Beispiele zur Diskussion ins Seminar mitzunehmen – auf dass „Bad Science“ erkannt und in Zukunft immer mehr durch „Good Science“ ersetzt werde.

Herzlichen Dank an den Verlag für das Rezensionsexemplar!

 

Immer auf dem Laufenden bleiben?

Melden Sie sich für den Newsletter an! Sie werden benachrichtigt, wenn ein neuer Beitrag auf dem Blog erscheint, und können auch ein wenig hinter die Kulissen blicken.

Empirisch forschen 101

Ist es möglich, die Grundlagen des empirischen Forschens in zwölf Unterrichtseinheiten zu lehren?

Ja, das geht. Auf einem sehr grundlegenden Niveau geht das. Manche nennen das Niveau niedrig. Trotzdem stehe ich voll und ganz hinter dieser Art von Veranstaltung. Aktuell lehre ich das so im dritten Semester eines Bachelor-Studiengangs.

Wie läuft das ab?

Ab ins kalte Wasser

Zu Beginn des Semesters führe ich die Studierenden in die Grundlagen des empirischen Forschens ein. Das geschieht in Form eines Vortrags von etwa 30 Minuten Länge. Danach geht es dann auch schon los mit der Umsetzung. Ich werfe die Studierenden also ins kalte Wasser. (An den verwendeten Bildern können Sie erkennen, zu welcher Jahreszeit dieser Beitrag geschrieben wurde ;-)) Oder, um es treffender zu sagen, wir stürzen uns gemeinsam in die eiskalten Fluten. Denn wir haben alle keine Ahnung, welche Untiefen und Stromschnellen uns unterwegs erwarten.

Die Studierenden finden sich zu viert oder fünft zusammen und suchen gemeinsam ein interessantes Thema, das innerhalb ihres Studienfaches verortet ist. Da diese Studierenden in ihrem BWL-Studium zwischen fast einem Dutzend Vertiefungsrichtungen wählen können, sind ziemlich alle Branchen und Funktionen durch die Themen abgedeckt. Da heißt es dann gedanklich flexibel bleiben… Ich ermuntere die Studierenden, ein Thema zu nehmen, beim dem sie bereits über Vorkenntnisse verfügen. Das ist zu Beginn des dritten Semesters gar nicht so einfach, immerhin studieren sie ja erst seit einem Jahr. Am Ende steht aber meist zumindest einmal die grobe Richtung fest. Oder anders gesagt, die Gruppen klammern sich an den vermeintlich rettenden Strohhalm.

Bei den nächsten Terminen widmen wir uns den konkreten Forschungsfragen, den Hypothesen und der Methodenwahl. Nicht selten werden dann die Themenvorschläge aus der ersten Sitzung doch für unbrauchbar befunden, und die Suche nach einem neuen Thema beginnt. Solange das gut bearbeitbar ist, soll es für mich in Ordnung sein. Manchmal trauere ich den ersten Varianten etwas hinterher; manchmal bin ich froh darüber, dass doch noch etwas Besseres nachkam.

Der Plan für die Datenerhebung ist als nächstes an der Reihe, danach kommen die tatsächliche Durchführung der Befragung (oder Beobachtung usw.), die Datenerfassung und -auswertung, und ganz am Ende stehen natürlich die Abschlusspräsentationen. Diese werden gefolgt von einer Reflexion über das Gelernte und über die Schlüsse, die die Studierenden daraus ziehen.

Die einzelnen Schwimmstunden a.k.a. Vorlesungstermine

Bis auf den letzten Termin mit den Präsentationen laufen die einzelnen Veranstaltungen relativ ähnlich ab. Zu Beginn gibt es ein Status-Update: An welchem Punkt befinden sich die einzelnen Gruppen gerade? Hat sich seit dem letzten Termin etwas Neues ergeben? Was sind konkret die nächsten Schritte am heutigen Tag?

Wenn nötig, gebe ich kurz theoretischen Input zu den anstehenden Arbeiten oder beantworte aufgelaufene Fragen. Vieles lässt sich jedoch auch im Foliensatz nachschlagen, den die Studierenden zu diesem Zeitpunkt schon erhalten haben.

Es schließt sich die Erarbeitungsphase in den Kleingruppen an. Die meisten Fragen ergeben sich genau dann, während der Diskussionen in den Gruppen. Manche kommen nicht weiter, weil ihnen ein kleiner Impuls fehlt oder weil sie sich innerhalb der Gruppe nicht auf ein Vorgehen einigen können und gern eine Meinung von außen hätten. (Zu diesem Zeitpunkt wäre es fantastisch, wenn nicht nur einer, sondern mehrere Lehrende anwesend wären, denn meistens wollen viele Gruppen gleichzeitig etwas, und Stillstand ist bei der knapp bemessenen Zeit natürlich extrem unerwünscht.)

Gegen Ende jedes Termins, nach Abschluss der Erarbeitungsphase, ziehen wir kurz im Plenum Resümee. Das dauert nicht länger als ein bis zwei Minuten pro Gruppe.

Warum lehre ich das alles so und nicht anders?

Schon oft musste ich diesen Ansatz gegen Kritiker verteidigen. Deren Argumente liegen auf der Hand: „Was in diesen 12 Unterrichtseinheiten gemacht wird, bleibt aufgrund der Kürze der Zeit an der Oberfläche. Eine wirkliche Auseinandersetzung mit empirischen Forschungsmethoden ist in diesem Format nicht möglich.“

Mein Standpunkt ist ein anderer: Würde ich die gleichen Inhalte in Form einer klassischen Vorlesung gestalten, könnte ich zwar deutlich mehr in die Tiefe gehen. Allerdings glaube ich nicht, dass das gleichbedeutend ist mit einer tiefen Auseinandersetzung.

(Es gibt übrigens auch andere Lehrende, die ähnlich lehren.)

Durch eine detailreichere Beschäftigung mit der Materie kennen die Studierenden zwar mehr Details – wenn sie sie denn behalten. Aber: Wenn wir über empirisches Forschen nur sprechen, also quasi trockenschwimmen, fehlt die eigene Erfahrung. Zumal dann ja meistens nur einer spricht, nämlich der Lehrende. Erstens, weil er über das Know-How verfügt, und zweitens, weil nur er die entsprechenden Erfahrungen mitbringt.

Erfahrung überträgt sich nicht durch das Darüber-Sprechen (Ich sage nur: Kind und Herdplatte). Nur indem die Studierenden selbst nachdenken und selbst etwas tun dürfen, haben sie die Möglichkeit, Fehler zu machen, die Fehler als solche zu erkennen und diese im nächsten Anlauf zu korrigieren.

Einige Studierende starten auch mit der naiven Vorannahme, dass man so eine Erhebung doch mal schnell nebenbei durchführen könne. Sie sehen dann, dass genau das nicht der Fall ist. Sie lernen – teilweise auf die harte Art –, dass sie untergehen, wenn sie die Zeit zu knapp kalkulieren.

Die Studierenden können nach Abschluss der Lehrveranstaltung auf viele Erfahrungen zurückgreifen. Sie erinnern sich daran,

  • dass gut formulierte Forschungsfragen und Hypothesen alle weiteren Arbeiten erleichtern
  • welche Formulierungen im Fragebogen schlechte, uneindeutige Antworten bringen
  • wie lange sie gebraucht haben, um vergleichsweise wenige Daten aufzubereiten und auszuwerten
  • dass bei einer verzerrten Auswahl der befragten Personen die Aussagekraft der Ergebnisse leidet
  • was nach der Abschlusspräsentation an ihrem Vorgehen kritisiert und in Frage gestellt wurde.

Ein weiteres Plus

Durch die Aufteilung in Gruppen entsteht eine Bandbreite an Beispielen, nicht nur inhaltlicher, sondern auch methodischer Art. Wenn Gruppe 1 Fehler A nicht begeht, dann ganz sicher Gruppe 2 oder 3… Es kommen immer jede Menge Aspekte zusammen, anhand derer wir gut über die Aussagekraft empirischer Ergebnisse diskutieren können. Für jede Vorgehensweise zur Beantwortung der Forschungsfragen finden sich Pros und Contras. Und schon habe ich die Studierenden da, wo ich sie haben möchte: Sie sollen nachdenken, was mit empirischer Forschung möglich ist und was nicht.

Zusätzlich zu ihren eigenen Erfahrungen profitieren die Studierenden von den Erfahrungen der anderen Gruppen. Sie sehen, was diese anders gemacht haben und ob das zum Ziel geführt hat oder nicht.

Halten wir also fest:

Natürlich bleiben wir mit dieser Methode an der Oberfläche. Dafür schaffen wir Anknüpfungspunkte. Studierende, die später in ihrer Abschlussarbeit etwas Empirisches machen wollen, müssen sich sowieso intensiver mit der Methodenfrage befassen. Sie können das mit einem Vorwissen tun, das sich auf vielfältige Erfahrungen stützt.

Als Lehrende wissen wir zwar zu Beginn nicht, wohin die Reise in den eiskalten Fluten uns führt. Aber wir kennen immerhin die potentiellen Gefahren und die verschiedenen Auswege aus diesen Situationen. Wir stehen in einem solchen Lehrformat mit dem Rettungsring an der Seite und werfen ihn den Studierenden bei Bedarf zu, so dass uns niemand komplett untergeht. Ende der Metapher, Ende des Beitrags.

Was bevorzugen Sie – Trockenschwimmen oder das Bad in den eiskalten Fluten? Gern verlinke ich auch weitere Beispiele.

Planung und Durchführung einer statistischen Auswertung – diese Irrtümer können Sie vermeiden

Ein Gastbeitrag von Daniela Keller

Wenn Sie oder Ihre Studenten vor der Durchführung einer quantitativen Studie stehen, können Sie die hier im Beitrag beschriebenen Irrtümer leicht umgehen, wenn Sie ein gewisses Grundverständnis davon zu haben, was mit der statistischen Analyse möglich ist und was notwendig ist, um eine gute statistische Auswertung durchführen zu können. Davon schreibe ich in diesem Beitrag. Außerdem gebe ich ein paar Tipps, die den Einstieg in die statistische Analyse erleichtern.

Irrtum 1: „Wir brauchen mindestens 600 Fragebögen.“

Meist werden für eine quantitative Studie Daten einer Stichprobe erhoben und statistisch analysiert. Ausgehend von diesen Ergebnissen, soll auf eine verallgemeinerte Aussage für die Grundgesamtheit geschlossen werden. Voraussetzung dafür, dass diese aus den Daten erhaltene Erkenntnis auf die Grundgesamtheit verallgemeinert werden darf ist, dass die Stichprobe repräsentativ ist, also die Grundgesamtheit widerspiegelt.

Dabei lässt sich die Repräsentativität meist nur ansatzweise untersuchen. Das wichtigste Mittel dafür ist, die Stichprobe zu beschreiben: Wie viele Männer, wie viele Frauen sind enthalten? Wie ist die Altersstruktur usw. Diese Ergebnisse werden dann mit der Grundgesamtheit verglichen, falls diese Werte von der Grundgesamtheit bekannt sind. Der Nachweis von Repräsentativität ist also schwierig. Dafür ist es praktikabel, bereits bei der Ziehung der Stichprobe die besten Voraussetzungen zu schaffen, dass die Stichprobe repräsentativ sein wird. Dazu wird die Stichprobe möglichst zufällig gezogen, das heißt, jedes Objekt der Grundgesamtheit soll die gleiche Chance haben, in der Stichprobe zu landen. Manchmal werden auch etwas abweichende Verfahren zur Stichprobenziehung verwendet, die teils die Repräsentativität noch besser gewährleisten sollen, oder auch den praktischen Umständen geschuldet sind, z.B. Clusterstichprobe, geschichtete Stichprobe oder auch Quotenstichproben (ADM, Stichproben-Verfahren in der Umfrageforschung).

Oft wird die Repräsentativität mit der Stichprobengröße verwechselt bzw. in Zusammenhang gebracht. Dabei sind das zwei unterschiedliche Paar Schuhe: Repräsentativität bedeutet, dass die Stichprobe die Grundgesamtheit repräsentiert – unabhängig davon, wie groß die Stichprobe und wie groß die Grundgesamtheit sind. Dagegen hängt die Stichprobengröße von anderen Faktoren ab. Erstmal ist die Größe der Stichprobe meist durch praktikable Gesichtspunkte nach oben hin beschränkt: Wie viele Probanden können in zeitlich und finanziell vertretbarem Rahmen akquiriert werden? Nach unten beschränkt ist die Stichprobengröße von der Art der später geplanten Analyse. Wird z.B. die Analyse komplexer Modelle (z.B. Strukturgleichungsmodelle oder multiple lineare Regressionen) geplant, so ist es allein dafür schon notwendig, mit einer hinreichend großen Stichprobe zu starten. Was hinreichend groß ist, ist hier schwierig zu beantworten. Grundsätzlich gilt: je größer, desto besser. Es wird mindestens gefordert, dass die Anzahl der Beobachtungen doppelt so groß sein muss wie die Anzahl der Variablen z.B. in einer Regressionsgleichung (Backhaus et al., 2011).

Sind einfachere Analysen geplant, z.B. eine einfache Korrelation oder ein Lageunterschied, so kann vorab eine Fallzahlplanung (auch Power-Analyse genannt) durchgeführt werden, mit der die Fallzahl basierend auf Annahmen über die erwarteten Ergebnisse berechnet werden kann. Hier wird also der Frage nachgegangen: Wie groß muss meine Stichprobe mindestens sein, um den Zusammenhang x als signifikant nachzuweisen? Dazu müssen Vorannahmen über die Größe des Zusammenhangs (Effektstärke, s.u.) getroffen werden. Als einfache und kostenlose Software dafür steht z.B. G*Power der Universität Düsseldorf zur Verfügung (http://www.gpower.hhu.de/).

Irrtum 2: „Hauptsache, das Ergebnis ist signifikant.“

In dem Zusammenhang ist es wichtig zu erwähnen, dass die statistischen Methoden grundsätzlich in der Lage sind, jeden noch so kleinen Zusammenhang oder Unterschied als signifikant nachzuweisen, wenn nur die Stichprobe groß genug ist. Umgekehrt kann es sein, dass ein zwar inhaltlich bedeutender Zusammenhang oder Unterschied nicht als statistisch signifikant nachgewiesen werden kann, da die Stichprobe zu klein dafür ist. Deshalb macht es immer Sinn, nicht nur auf p-Werte (signifikant oder nicht signifikant) zu schauen, sondern auch immer die Größe des Unterschieds oder Zusammenhangs (Effektstärkemaße) zu berichten und zu interpretieren.

Irrtum 3: „Die Daten sind da und ich rechne einfach mal los.“

Ein weiterer wichtiger Punkt für das statistische Grundverständnis ist die Kenntnis von den verschiedenen Variablentypen. Erst wenn das Messniveau für die Variablen klar ist, kann die passende Methode für die Analyse ausgewählt werden.

Die wichtigsten drei Typen sind

  • nominale Variablen,
  • ordinale Variablen und
  • metrische Variablen (auch intervall- oder ratioskaliert).

Nominale Variablen sind Werte, die Kategorien abbilden, ohne dass diese Kategorien einer natürlichen Ordnung folgen. Zum Beispiel sind Geschlecht oder Nationalität nominale Merkmale. Ordinale Variablen bilden auch Kategorien ab. Hier folgen die Kategorien aber einer natürlichen Rangfolge oder Ordnung. Man kann sie also sinnvoll sortieren. Das ist z.B. bei Dienstgraden der Fall, bei Tumorstadien oder auch bei Schulnoten. Metrische Variablen sind dann alle Merkmale, die auf einer (gleichabständigen) Skala gemessen werden, also z.B. Temperatur, Unternehmenszugehörigkeit in Jahren oder BMI.

Die Zuordnung zu diesen drei Skalenniveaus ist nicht immer eindeutig und muss es auch für die statistische Analyse nicht immer sein. Zudem gibt es eine Besonderheit, die Likert-Variablen betrifft. Likert-Variablen sind Daten aus Fragebögen, in der auf einer k-stufigen Skala (z.B. 5-stufig von „Trifft voll zu“ bis „Trifft überhaupt nicht zu“) erhoben werden. Likert-Variablen sind streng genommen ordinal, werden aber meist wie metrische Variablen verwendet.

Irrtum 4: „Ich kann sowieso nicht alle Methoden kennen.“

Es ist hilfreich, schon vor Beginn der Untersuchung einen Überblick über die verschiedenen Arten von statistischen Analysen zu haben. Wie eingangs erwähnt ist es dafür aber nicht notwendig, alle Methoden im Detail zu kennen. Wichtig ist es aber zu wissen, welche Möglichkeiten in der statistischen Analyse stecken. Es ist demnach relevant:

  • Was ist mit welcher Methode möglich?
  • Welche Daten (Variablentyp, Verteilung) können mit welcher Methode untersucht werden?
  • Welche Aussagen sind mit den Ergebnissen dann möglich? usw.

Zunächst unterscheidet man zwischen deskriptiven und schließenden Methoden. Deskriptive Methoden beschreiben die Daten und deren mögliche Unterschiede oder Zusammenhänge. Es werden hier Maßzahlen berechnet wie z.B. Häufigkeiten, Lagemaße und Streumaße. Damit wird zum einen die Stichprobe insgesamt beschrieben. Es werden aber auch die bereits für die Forschungsfrage interessierenden Zusammenhänge untersucht, z.B. indem die Lage eines Parameters in zwei verschiedenen Gruppen berechnet und beschreibend verglichen wird. Gleichzeitig ist die deskriptive Analyse ein Datencheck, da hier Unstimmigkeiten in den Daten wie Ausreißer, Tippfehler oder fehlende Werte auffallen.

Die Art der Maßzahlen, die in der deskriptiven Analyse berechnet werden, hängt vom Datentyp (s.o.) der Variablen ab. So werden für kategoriale (nominale, ordinale) Variablen z.B. Häufigkeiten berechnet, für metrische Variablen die Lage- und Streumaße.

Zu den deskriptiven Methoden passen gut die Abbildungen. Sie visualisieren die deskriptiven Maßzahlen, z.B. indem aus den Häufigkeiten Balkendiagramme erstellt werden, oder als Boxplot, der den Median und die Quartile darstellt.

In der schließenden Statistik werden danach die vorab deskriptiv untersuchten Zusammenhänge bzw. Unterschiede auf statistische Signifikanz geprüft. Hier geht es also nicht mehr um die Beschreibung der Daten, sondern es werden Signifikanztests gerechnet, mit deren Ergebnis eine Verallgemeinerung der Aussage für die Grundgesamtheit gezogen werden soll. Beispiele sind hier z.B. die Varianzanalyse, die Korrelation oder die Regression.

Dafür ist es notwendig, dass Hypothesen aufgestellt werden. Die Nullhypothese wird dabei so formuliert, dass Sie aussagt, dass es keinen Zusammenhang bzw. keinen Unterschied gibt. Die Alternativhypothese ist das Gegenteil der Nullhypothese: „Es gibt einen Zusammenhang/Unterschied.“. Der Signifikanztest prüft, ob die Nullhypothese abgelehnt werden kann. Je nach Variablentyp, Verteilung der Daten und Studiendesign wird der passende Signifikanztest ausgewählt und berechnet. Liefert er einen signifikanten p-Wert (meist p < 0,05), so wird die Nullhypothese abgelehnt und damit ist ein statistisch signifikanter Unterschied bzw. Zusammenhang gezeigt.

Ist der p-Wert nicht signifikant (p ≥ 0,05), so wird formuliert „Es kann kein signifikanter Zusammenhang/Unterschied nachgewiesen werden“. Das bedeutet nicht, dass es keinen gibt. Die Signfifikanztests, die auf Unterschied bzw. Zusammenhang prüfen, können keine Gleichheit bzw. keinen Zusammenhang nachweisen.

Diese hier beschriebenen Signifikanztests prüfen Zusammenhangs- oder Unterschiedshypothesen. Das heißt, hier hat der Forscher basierend auf seiner Forschungsfrage eine Hypothese formuliert, die er direkt testen will. Diese Verfahren nennt man auch strukturprüfende Verfahren.

Daneben gibt es auch strukturentdeckende Verfahren, die das Ziel haben, Strukturen in den Daten aufzudecken. Hier gibt es keine Hypothesen, die geprüft werden. Oftmals kommen sie in einer Analyse vor den strukturprüfenden Verfahren zum Einsatz. Zu den strukturentdeckenden Verfahren zählt z.B. die Clusteranalyse, die versucht, die Objekte anhand der erhobenen Parameter mit sich ähnelnden Objekten gemeinsam in Gruppen (Cluster) zusammenzufassen und so sich unterscheidende Gruppen zu finden. Ein anderes strukturentdeckendes Verfahren arbeitet nicht auf der Objektebene, sondern auf der Parameterebene: die Faktorenanalyse (und auch die Hauptkomponentenanalyse) versucht, aus vielen Variablen weniger Faktoren zu bilden, indem sie passende Variablen zu einem Faktor zusammen fasst.

Tipps zum Einstieg

Nun möchte ich noch zum Abschluss ein paar praktische Tipps geben. Wenn Sie und Ihre Studenten die vorab beherzigen, wird der Einstieg in die statistische Auswertung leichter fallen und die Qualität der Ergebnisse wird verbessert:

Fragebogenerstellung

Wenn Sie selbst einen Fragebogen für die Studie erstellen, dann sollten Sie hier viel Zeit und Sorgfalt aufwenden.

Für die Qualität der späteren Ergebnisse ist es sehr wichtig, dass die Fragen gut formuliert sind, damit sie für den Teilnehmer verständlich sind:

  • Alter, Bildungsniveau usw. der Teilnehmer beachten,
  • keine mehrdeutigen Begriffe verwenden,
  • immer nur EINE Frage stellen,
  • keinen Deutungsspielraum lassen.

Außerdem dürfen die Fragen nicht suggestiv sein und keine Unterstellungen beinhalten (das beeinflusst die Antworten).

Aus statistischer Sicht noch interessant ist das Messniveau der Antworten, also ob die Fragen kategoriales/dichotomes Antwortformat haben (z.B. Geschlecht m/w), oder metrisch (z.B. Alter in Jahren) oder ordinal (z.B. Alter in Altersklassen) oder als Likert-Skala abgefragt werden (z.B.7-stufige Skala von „stimme gar nicht zu“ bis „stimme voll zu“). Vom Antwortformat hängt ab, mit welchen Methoden die Daten später statistisch ausgewertet werden können.

In jedem Fall ist bei einem selbst erstellten Fragebogen ein Pretest an wenigen Test-Teilnehmern sinnvoll. Damit kann geprüft werden, ob die Fragen verständlich sind und das Antwortformat angenommen wird.

Dateneingabe

Die anschließende Dateneingabe kann direkt in einer Tabelle (z.B. Excel) vorgenommen werden. Diese Tabelle kann dann in jede gängige Statistiksoftware importiert und dort ausgewertet werden. Bei der Dateneingabe sind ein paar Dinge zu beachten:

  • Jede Beobachtung (Fall, Objekt, Teilnehmer) bekommt eine Zeile, jede Variable (erhobener Parameter) eine Spalte.
  • In der ersten Zeile (und nur in der ersten) stehen die Variablennamen, in der ersten Spalte eine ID (z.B. Teilnehmernummer).
  • In den Zellen werden die Werte eingegeben:
    • Zahlenwerte einfach als Zahlen (ohne Einheit).
    • Kategorien können als Text oder als Zahl kodiert eingegeben werden (z.B. 1 für männlich und 2 für weiblich). Werden sie als Zahl kodiert eingegeben, muss die Kodierungsvorschrift separat gespeichert werden. Wird sie als Text eingegeben, muss gut darauf geachtet werden, dass es keine Tippfehler gibt und wirklich immer genau die Kategorienbezeichnungen verwendet werden.
  • Mehrfachmessungen (Messwiederholungen, z.B. mehrere Zeitpunkte) werden meist als eigene Spalten eingegeben (das nennt man auch Wide-Format). Alternativ könnte man auch pro Messwiederholung eine eigene Zeile für jeden Fall (Teilnehmer) anlegen (Long-Format), was aber meist umständlicher ist. In der Statistiksoftware lässt sich der Datensatz meist problemlos vom Wide- zum Long-Format und umgekehrt ändern.
  • Eine Spalte für Kommentare hat sich bewährt. Die lässt sich später nicht statistisch auswerten, hilft aber dabei, während der Analyse z.B. Spezialfälle ausfindig zu machen.
  • Die Datei darf keine Leerspalten oder Leerzeilen enthalten.

Mit der Software anfreunden

Zu guter Letzt empfehle ich noch allen Anwendern, sich frühzeitig mit der ausgewählten Statistiksoftware anzufreunden. Wenn fest steht, mit welcher Software später ausgewertet werden soll, kann man sich bereits in Ruhe mit den technischen Grundfunktionen (z.B. Daten importieren, Einstellungen vornehmen, Menüstruktur, Ausgabe betrachten…) auseinander setzen. Dafür kann man sich zum Beispiel einen Testdatensatz erstellen und sich mit Hilfe eines Buches oder mit Video-Tutorials etwas einarbeiten. Dann fällt der Start mit den „richtigen“ Daten leichter, geht schneller und die erste Hürde ist schon zuvor genommen.

Referenzen und Literaturtipps:

  • ADM Arbeitskreis Deutscher Markt. und Sozialforschungsinstitute e.V., Stichproben-Verfahren in der Umfrageforschung, 2. Auflage, Springer VS 2014.
  • Klaus Backhaus et al., Multivariate Analysemethoden, Springer 2011.
  • Andy Field, Discovering Statistics using SPSS, SAGE 2013.
  • Andy Field, Discovering Statistics using R, SAGE 2014.

 

Über die Autorin:

DanielaKellerDaniela Keller berät als Statistik-Expertin Unternehmen, Forschungsgruppen, Doktoranden und Studenten zu allen Statistikthemen – von der Planung der Studie über die Auswertung mit geeigneter Software bis zur Darstellung und Präsentation der Ergebnisse. Zudem gibt sie Statistikworkshops und betreibt ein Blog zu Statistikfragen.

Es ist ihr wichtig, ihre Kunden unkompliziert und bedarfsgerecht zu beraten und somit zum Gelingen des Projekts beizutragen. Dabei fällt es ihr leicht, komplizierte Zusammenhänge mit einfachen Worten klar und verständlich zu formulieren, so dass die Statistik trotz komplexer Themen nachvollziehbar wird.

www.statistik-und-beratung.de

www.statistik-und-beratung.de/blog

 

Immer auf dem Laufenden bleiben?

Melden Sie sich für den Newsletter an! Sie werden benachrichtigt, wenn ein neuer Beitrag auf dem Blog erscheint, und können auch ein wenig hinter die Kulissen blicken.