Warum wissenschaftliche Untersuchungen oft nicht beweiskräftig sind

Berichte über wissenschaftliche Untersuchungen, die überraschende Ergebnisse erbringen (oder widerlegen), nimmt man gerne und mit Interesse zur Kenntnis. Für Leser (vor allem für Laien, leider auch für manche Fachleute) ist dabei kaum erkennbar, ob das Untersuchungsergebnis auch richtig ist. Richtig meint damit, ob das Untersuchungsergebnis durch andere Studien wiederholt (repliziert) werden kann und ob die Schlussfolgerungen korrekt sind.

Mehr als die Hälfte aller Ergebnisse wissenschaftlicher Untersuchungen sind schlicht falsch.¹

Wenn man auf bestimmte Kriterien achtet, kann man die Aussagekraft und Belastbarkeit einer Untersuchung besser abschätzen.
Die Kenntnis einiger statistischer Grundlagen hilft, zu verstehen, dass eine einzelne Untersuchung genauso wenig einen Sommer macht wie eine Schwalbe und allenfalls ein Anlass dafür sein kann, durch andere Untersuchungen von anderen Autoren überprüft und hinterfragt zu werden.
Erst wenn mehrere Autoren in unterschiedlichen Untersuchungen zu vergleichbaren Ergebnissen gekommen sind (Replikation der Ergebnisse), besteht eine gewisse Sicherheit, dass eine Feststellung richtig ist.

Eine saubere wissenschaftliche Methodik wäre

eine geplante Untersuchung zu registrieren
zuerst eine These zu definieren
zu der im zweiten Schritt Daten erhoben werden
die im dritten Schritt ausgewertet werden
um dann zu veröffentlichen ob die These sich bestätigt oder nicht.
Wirkstoffe doppelblind testen (weder Proband noch Beurteilender wissen, wer Wirkstoff und wer Placebo erhält)
- Bei open-label Studien wissen dagegen Proband und beurteilender, wer wann den Wirkstoff erhält

Diese Methodik kann an vielen Stellen unterlaufen werden. Hier stellen wir einige häufige Fehlerquellen zusammen.

1. Thesen(um)formulierung nach der Datenerhebung
2. Fehler der Datenerhebung
- 2.1. Zu kleiner oder zu großer Stichprobenumfang (n)
  - 2.1.1. Zu kleiner Stichprobenumfang
  - 2.1.2. Zu großer Stichprobenumfang
- 2.2. Datenerhebung, bis das Ergebnis passt
3. Fehler der Datenauswertung
4. Veröffentlichung nur genehmer Ergebnisse
5. Interpretationsfehler durch Leser
- 5.1. Die Falsch-Positiv-Falle
- 5.2. Das p-Wert-Missverständnis

1. Thesen(um)formulierung nach der Datenerhebung

Zuweilen wird die These erst nach der Erhebung und Auswertung der Daten formuliert. Dies passiert besonders dann, wenn die ursprüngliche These sich nicht bewahrheitet hat.

Der Kritik an diesem Vorgehen könnte zwar entgegengehalten werden, dass es reiner Zufall sei, mit welcher These ein Wissenschaftler schwanger ist, bevor er die Daten erhebt. Man stelle sich als Gedankenexperiment eine große Anzahl von Forscherteams vor, die alle dieselbe Datenerhebung machen und die – je nach Forscherteam – von zufällig generierten unterschiedlichen Thesen ausgehen. Die einen finden ihre These bestätigt, die anderen finden sie widerlegt. Ändert dies etwas am Wahrheitsgehalt, wenn das Team, das die richtige These hatte, am Ende das Ergebnis präsentiert?
Die Antwort der Statistiker ist: ja, es ändert etwas. Denn eine These ist keine beliebig austauschbare Anschauung.
In unserem Gedankenexperiment würden viele Thesen als widerlegt gelten, wenn alle Forscherteams ihre Thesen vorher formuliert hätten. Dass das eine Forscherteam darunter ist, das die richtige These hatte, fällt dann anders ins Gewicht.

Unabhängig davon zeigt dieses Gedankenexperiment die Wichtigkeit von Replikationsstudien.

Forschungsergebnisse sollten erst dann als belastbar betrachtet werden, wenn sie mehrfach repliziert wurden. Neue und unerwartete Ergebnisse mögen unterhaltsamer sein – in Bezug auf die Realität sind sie allerdings in etwa so hilfreich wie die Beiträge mancher “Zeitungen”, die täglich aufgrund ihrer Überraschung und Unerwartetheit gelesen werden und nicht aufgrund ihres Sachinformationsgehaltes. Mensch beißt Hund erregt mehr Aufmerksamkeit, als Hund beißt Mensch. Doch was ist der Realität näher?
Nichts dagegen, damit Geld zu verdienen, sei es als Journalist oder als Forscher. Man sollte nur klarstellen, was man verkauft. Unterhaltung als Realitätsberichte zu bezeichnen ist eine Täuschung, die zu durchschauen nicht alle Leser in der Lage sind.

Die Wissenschaft wäre gut beraten, Unterhaltung und Realitätserkenntnis sauberer zu trennen.
Das Ausblenden von noch nicht replizierten Ergebnissen würde helfen, viele Irrtümer zu vermeiden.

2. Fehler der Datenerhebung

2.1. Zu kleiner oder zu großer Stichprobenumfang (n)

2.1.1. Zu kleiner Stichprobenumfang

Das Problem vieler Untersuchungen ist ein zu geringer Stichprobenumfang (n).
Untersuchungen mit 10, 15 oder 20 Probanden sind häufig.

Der Wirtschaftsnobelpreisträger Daniel Kahneman² weist darauf hin, dass Untersuchungen mit zu kleinen Stichproben keinerlei Aussage über die untersuchte These treffen können.
Ist der Stichprobenumfang (n) zu klein, ist der Einfluss des Zufalls größer als derjenige der Datenlage. Das Ergebnis einer Studie mit einem zu geringen Stichprobenumfang führt dazu, dass das Ergebnis der Untersuchung nichts mehr darüber aussagt, ob die untersuchte Hypothese wahr oder falsch ist – das Ergebnis ist nicht mehr als ein Zufallsergebnis.

Tatsache ist, dass die meisten Wissenschaftler (einschließlich Kahneman eine Zeit lang selbst, wie er feststellte) bei intuitiver Bestimmung des erforderlichen Stichprobenumfangs (n) eine deutlich zu kleine Stichprobe festsetzt.

Andererseits ist eine kleine Stichprobe (z.B. 20) nicht immer schädlich, sondern kann durchaus sinnvoll sein. Voraussetzung ist, dass die Gruppen ausreichend gematcht und bestimmte Bias kontrolliert werden. Die gefundenen Resultate bedürfen allerdings immer der Replikation.

Zu große Stichproben haben ebenfalls Nachteile. Sie können sehr kleine, an sich bedeutungslose Unterschiede signifikant erscheinen lassen. Wenn das Ergebnis dann lediglich in Bezug auf die Signifikanz ausgewertet wird, ohne die Stärke der festgestellten Faktoren zu bewerten, kann dies ebenso in die Irre führen wie ein zu kleiner Stichprobenumfang.

Wichtig ist daher, dass die optimale Stichprobengröße ermittelt wird (z.B. mittels G-POWER).

Schätzen Sie selbst:

Wie viele Würfelwürfe sind erforderlich, um bei einem Würfel (6 Möglichkeiten) mit 95 % Sicherheit zu sagen, dass auch nur eine einzige 6 bei den Würfen dabei ist?

Lösung

Hierfür bedarf es einer Stichprobe von n = 17 Würfen.

Ein anderes Beispiel:

Wie groß muss der Stichprobenumfang n sein, um bei einer Wahlumfrage die Zustimmung für eine Partei auf 1 % genau vorherzusagen?

Lösung

Hierfür bedarf es eines Stichprobenumfangs von n = 2167 Wählern.³

Ein drittes Beispiel:

Münzwürfe kennen nur Kopf oder Zahl. Wie viele Münzwürfe sind nötig, um mit einer (bei den meisten wissenschaftlichen Untersuchungen angestrebten) Sicherheit von 95 % sagen zu können, dass die Verteilung zwischen Wappen und Zahl bei Würfen maximal bei 49:51 liegt (was ja wesentlich weniger genau ist als eine exakte 50:50 – Verteilung)?

Lösung

Hierfür bedarf es einer Stichprobe von n = 9604 Münzwürfen. Und das, obwohl es nur 2 Möglichkeiten gibt: Wappen und Zahl.⁴

Eine Untersuchung mit 20 oder 30 Probanden hat daher nur eine sehr begrenzte Aussagekraft und muss daher mit erheblicher Vorsicht betrachtet werden.

Faustformel: Eine einzige Untersuchung im psychologischen oder medizinischen Bereich mit weniger als 50 Probanden (n = 50) sollte man erst dann zur Kenntnis nehmen, wenn weitere Untersuchungen die Ergebnisse bestätigen.

Studien können sehr leicht durch Zufallsergebnisse manipuliert werden.⁵

Für dieses Thema würden wir uns über eine fachliche Ergänzung durch versierte Statistiker freuen, die erläutern könnten, welche Stichproben bei typischen Untersuchungen in psychologischen / neuro(physio)logischen Fragestellungen (wie denen zu ADHS) erforderlich sind, um eine angemessen zuverlässige Aussage zu erhalten.

2.1.2. Zu großer Stichprobenumfang

Ein zu großer Stichprobenumfang beinhaltet die Gefahr, dass (statistisch) signifikante Ergebnisse gefunden werden, deren Wirkung / Effektstärke / Bedeutung indes verschwindend gering ist. Wird die gefundene Signifikanz dann nicht ins Verhältnis zur Relevanz gestellt, wird bei Lesern, die die Ergebnisse nicht detailliert analysieren, ein Irrtum über eine bestehende Relevanz verursacht, der am Ende zu einer erheblichen Fehlinformation führt.

Beispiel zur Signifikanz versus Relevanz

Zwei Autohersteller bieten ihre Fahrzeuge in 3 Farben an: weiß, schwarz, rot. Gekauft werden die Autos

von Hersteller A zu 41 % Schwarz, zu 40 % Weiß, zu 19 % Rot,
von Hersteller B zu 41 % Schwarz, zu 31 % Weiß, zu 28 % Rot.

Untersuchungen bei beiden Herstellern werden feststellen, dass Schwarz die Lieblingsfarbe der Kunden ist. Bei Hersteller A muss die Stichprobe zwar größer sein, bis sie statistisch signifikant ist (dass sicher ist, dass das Ergebnis mit mindestens 95 % Wahrscheinlichkeit kein Zufall ist).

Dennoch sagt das Ergebnis, dass die Käufer Schwarz signifikant bevorzugen, bei A aufgrund der Nähe zum Wert von Weiß kaum etwas aus, bei B dagegen aufgrund des Abstands zu Weiß sehr wohl.

2.2. Datenerhebung, bis das Ergebnis passt

In einer Umfrage unter 2000 Wissenschaftlern gab mehr als die Hälfte zu, bei eigenen wissenschaftlichen Untersuchungen zunächst die Signifikanz der Ergebnisse zu prüfen und danach zu entscheiden, ob weitere Daten erhoben werden. Die Datenerhebung erfolgt dann so lange, bis sich ein positives Ergebnis abzeichnete. 40 % der Umfrageteilnehmer hatten auf diese Weise selektive Studien produziert und veröffentlicht. Die meisten hielten dies darüber hinaus für richtig.⁶⁷

Um den Denkfehler bei diesem Vorgehen zu verdeutlichen:
Immer wieder glauben Menschen, beim Roulette schlicht dadurch gewinnen zu können, dass sie beim Setzen auf Rot oder Schwarz immer wieder den Einsatz verdoppeln.
Dass dies beim Roulette nicht funktioniert, wird für den gesunden Menschenverstand bereits dadurch bewiesen, dass es heute noch Spielbanken gibt. Wenn dieses System funktionieren würde, wären längst alle Spielbanken pleite.
Mathematisch betrachtet funktioniert dieses nicht, weil es beim Roulette die Null gibt, die Bank. Diese kleine Wahrscheinlichkeit von 1 zu 37 genügt, um die Wahrscheinlichkeit, eine Reihe von Verdoppelungen spielen zu können, bis die eigene Farbe fällt, geringer zu machen als die Wahrscheinlichkeit, dass die Bank gewinnt.⁸
Gäbe es beim Roulette keine Bank, wäre das Verdoppelungsspiel auf Rot und Schwarz eine sichere Art zu gewinnen (und alle Spielbanken wären pleite).

Da es bei der Wissenschaft keine Bank gibt, ist die weitere Erhebung von Daten, so lange, bis irgendwann mal ein Datensatz zufälligerweise so konstruiert ist, dass er die Hypothese bestätigt, lediglich eine Frage von Fleiß und Ausdauer und keine Frage der Richtigkeit der aufgestellten Hypothese.

3. Fehler der Datenauswertung

3.1. Thesenförderlich ausgewählte Datenauswertungskriterien

Weitere Verzerrungen von Untersuchungsergebnissen folgen aus der subjektiven Auswahl von Datenauswertungskriterien. Silberzahl und Uhlmann⁹ ließen 29 Wissenschaftlergruppen einen identischen großen Datensatz (n > 2000) untersuchen. Erwartungsgemäß (der Gaußschen Verteilungskurve entsprechend) stimmten die Ergebnisse der meisten Gruppen im Wesentlichen überein und Ergebnisse einzelner Gruppen wichen erheblich ab.
Wichtiger war jedoch die Erkenntnis, welche Faktoren zu diesen Ergebnisabweichungen führten: es war zum einen die Wahl der mathematischen Statistikmodelle, die verwendet wurden (Clusteranalyse, logische Regression oder lineare Modelle) und zum anderen vornehmlich die gewählten Entscheidungen hinsichtlich der Auswertungstechnik der Datensätze. Entscheidungen also, die ein Leser eines Untersuchungsergebnisses gar nicht wahrnehmen kann. Es geht dabei nicht um eine vorsätzliche Verzerrung der Ergebnisse durch die Wissenschaftler, aber um massive Einflüsse auf die Ergebnisse, die nicht aus der Sachfrage selbst stammen.

Silberzahn und Uhlmann⁹ ziehen daraus den Schluss, dass eine einzelne Untersuchung selbst bei hoher Stichprobengröße (n, siehe oben) keine verlässliche Aussage darüber zulässt, ob das Untersuchungsergebnis richtig ist.

Erst die Zusammenfassung mehrerer Untersuchungen zum selben Thema mit gleichen oder unterschiedlichen Datensätzen gibt Sicherheit hinsichtlich der Richtigkeit der Ergebnisse.

Folgerung: Eine Untersuchung mit einer nicht zu kleinen Probandenzahl durch eine renommierte Forschergruppe mit sauberster Datentransparenz ist ein guter Hinweis. Bevor man dem Ergebnis vertraut, sollte man jedoch abwarten, ob die Beobachtung durch weitere Untersuchungen bestätigt wird (Replikation).

Doch selbst eine hohe Untersuchungsanzahl schützt in bestimmten Bereichen nicht vor Datenverzerrung. Grawe¹⁰ beschreibt sehr plastisch, wie die Untersuchungen zur Behandlung von Depressionen durch wirtschaftliche oder andere Interessen verzerrt werden.

Pharmahersteller finanzierten 28 der 29 von Grawe analysierten Untersuchungen zu Medikamenten bei Depression, alle der weiter untersuchten 48 Studien zu psychologischen Behandlungsmethoden wurden von öffentlichen Stellen finanziert. Keine der pharmakologischen Studien hatte eine Katamnese (Langzeiterfolgsprüfung), dagegen 30 der 48 Studien zu psychologischer Behandlung.

Depression zeigt sehr häufig innerhalb von 10 Wochen eine Spontanremission (die Symptome verschwinden ohne Einflussnahme).

Die pharmakologischen Studien verwendeten vorrangig die HAMD, MADRS und CGI zur Erfolgsmessung, die alle auf fremdbewertbare Symptome abstellen. Das sind diejenigen Symptome, die bei einer Spontanremission besonders gut weggehen.
Die Kontrollgruppen der pharmakologischen Tests zeigten im Schnitt eine Effektstärke von 1,82 nach dem MADRS, während die Medikamente eine Effektstärke von 1,88 zeigten. Das bedeutet, dass die Symptomverbesserung durch die Medikamente nach dem MADRS nur um eine Effektstärke von 0,06 besser war als die spontane Symptomverbesserung bei den Kontrollpersonen, die keine Behandlung bekamen.

Die Untersuchungen der psychologischen Behandlungsmethoden verwendeten vornehmlich das BDI und selbstbezogene Maße, die bei Spontanremission eine deutlich schwächere Effektstärke zeigen. Die (nicht behandelten) Kontrollgruppen der psychologischen Behandlungsmethoden zeigten hier eine Effektstärke von 0,97. Kognitive Therapie hatte mit 1,33 eine um 0,36 höhere Nettoeffektstärke als die Kontrollgruppe, kognitive Verhaltenstherapie mit 1,54 eine Nettoeffektstärke von 0,57, Interpersonale Therapie netto 0,50, gegenwartsorientierte psychodynamische Kurztherapien netto 0,79 und Paartherapien netto 0,96.

Und dennoch sind laut Grawe auch von den psychologisch behandelten Patienten nur 13 bis 14 % dauerhaft von ihrer Depression befreit. 25 % lehnen eine störungsorientierte Behandlung grundsätzlich ab, weitere 13 % bis 25 % brechen die laufende Therapie ab. Von den verbleibenden 64 % erreicht die Hälfte eine klinisch signifikante Verbesserung. Von den 32 %, die kurzfristig erfolgreich behandelt wurden, erleiden knapp zwei Drittel binnen 2 Jahren einen Rückfall.¹⁰

Nun muss man der Pharmaindustrie erstens zugutehalten, dass Grawe eher ein Vertreter der psychotherapeutischen Linie sein dürfte und zweitens, dass Antidepressiva durchaus auch hilfreich wirken – wenn auch bei Weitem nicht so stark, wie die Studien hierzu vermitteln wollen.
Dennoch zeigt die Darstellung, wie durch die Auswahl geeigneter Messinstrumente die Datenauswertung sehr in die gewünschte Richtung manipuliert werden kann. Und auch dies betrifft nicht allein die Pharmaindustrie. Auch die Untersuchungen zu psychologischen Behandlungsmethoden haben die für sie günstigeren Bewertungsmaßstäbe verwendet.

Die medikamentöse Behandlung von Depression ist unseres Erachtens stark von derjenigen bei ADHS zu unterscheiden, da ADHS eine lebenslängliche Störung ist und die Effektstärke der ADHS-Medikamente von vorneherein nur für den Zeitraum der Einnahme bestimmt werden können.

3.2. Datenanalyse, bis das Ergebnis passt (Torture your data untill they confess)

Eine weitere Methode, die die Belastbarkeit von Ergebnissen beeinträchtigt, ist, wenn entgegen sauberer wissenschaftlicher Methodik die erhobenen Daten so lange (mit unterschiedlichen Methoden) analysiert werden, bis sie unter irgendeinem Aspekt die These bestätigen.

Die Methode der Datenauswertung wird in aller Regel nicht bereits mit der Definition der These festgelegt. Dieser Spielraum wird zuweilen unangemessen ausgenutzt.
In der Veröffentlichung selbst werden die zuvor versuchten und verworfenen Datenauswertungsmethoden regelmäßig nicht beschrieben.

3.3. Fehlerhafte Anwendung von Statistikmethoden

2016 wurde festgestellt, dass die drei gängigsten Auswertungsprogramme für fMRT-Aufnahmen durch fehlerhaften Einsatz um bis zu 13 Mal überhöhte falsch-positive Ergebnisse lieferten (bis zu 70 % anstatt richtig bis zu 5 %).¹¹ Dies stellt die Ergebnisse von rund 40 000 Untersuchungen infrage, bei denen fRMT zum Einsatz kam.
Betroffen sind vornehmlich neuere Untersuchungen über Emotionen und Denkvorgänge, bei denen Daten mehrerer Probanden zusammengefasst werden.¹² Bei korrektem Einsatz der statistischen Tools treten diese Fehler nicht auf. Viele Wissenschaftler arbeiten hier jedoch nicht sorgfältig genug.

Ein anderes Analyseverfahren für fMRT Daten, das zwar wesentlich rechenintensiver ist, würde die möglichen Fehler vermeiden.¹¹

3.4. Messfehler

Ein anderer Fehler bei fMRT-Auswertungen ergab sich dadurch, dass in vielen tausend Studien Rückschlüsse auf die Aktivität der Amygdala analysiert wurden – während die Messungen in Wirklichkeit nichts über die Amygdala, sondern über den Blutfluss in einer in der Nähe liegenden Vene aussagten.¹³¹⁴

3.5. Excelfehler

Wissenschaftler berichten von Datenverfälschungen durch eine fehlerhafte Anwendung von Excel. Bis zu 20 % der Exceldateien zu genetischen Daten seien durch Excelfehler verfälscht.¹⁵

Im Sommer 2020 wurde bekannt, dass etliche Gene umbenannt werden, weil diese häufig zu Auswertungsfehlern in Excel geführt haben, weil sie Datumsangaben in Excel entsprachen. Der Fehler würde nicht auftreten, wenn die Wissenschaftler die Namensfelder der Gene konsequent als Text formatieren würden (was sehr simpel zu bewerkstelligen wäre).
Dass so leicht zu behebende Fehler dennoch so häufig auftreten, dass eine Umbenennung von Genen erfolgt, ist ein starkes Indiz dafür, dass Excel häufig selbst in Bezug auf einfachste Handhabungen fehlerhaft genutzt wird.

4. Veröffentlichung nur genehmer Ergebnisse

Eine leider recht häufige Manipulationsmethode ist, eine größere Anzahl von Studien durchzuführen, von denen nur diejenigen veröffentlicht werden, die Ergebnisse zeigen, die dem Finanzier oder den Autoren genehm sind.

Da Studien eine gewisse Bandbreite an unterschiedlichen Ergebnissen zeigen können, ergibt sich auch bei einem sicheren Sachverhalt eine statistische Ergebnisstreuung, die in etwa einer Gaußschen Verteilungskurve entspricht. Die meisten Ergebnisse liegen in der Nähe des tatsächlichen Sachverhaltes. Je weiter die Ergebnisse davon abweichen, desto seltener werden sie auftreten.
Bildlich beschrieben entspricht dies ungefähr einem Sandhaufen, der durch Sandkörner entsteht, die an einer genauen Stelle von oben herabfallen. Der Sandhaufen zeigt an seinem höchsten Punkt an, wo die Sandkörner auf ihn herabfallen.
Doch schon etwas Wind kann das Ergebnis verfälschen. Böiger Wind erst recht. Und so gibt es viele Faktoren, die ein Ergebnis beeinflussen können.

Die Methode, nur genehme Ergebnisse zu veröffentlichen, erfordert hohe Ressourcen (Geld, Zeit). Nur Marktteilnehmer mit entsprechend hohen (idR wirtschaftlichen) Interessen leisten sich diese Methode.

Eine Registrierung einer Studie vor deren Durchführung hilft, solche Manipulationen zu verhindern.

5. Interpretationsfehler durch Leser

Eine weitere Fehlerquelle ergibt sich daraus, dass die Untersuchungsergebnisse von (auch fachkundigen) Lesern missinterpretiert werden.

5.1. Die Falsch-Positiv-Falle

Ein guter Test hat eine hohe Sensitivität und eine hohe Spezifität.

Sensitivität ist Güte der richtig-positiven Prognose: wie viele gegebene Testziele (Infektionen, Krebsfälle, ADHS) werden tatsächlich erkannt?

Spezifität ist die Güte der richtig-negativen Prognose. Wie viele nicht vorhandene Testziele werden als nicht vorhanden erkannt?

Hat ein Testverfahren eine Sensitivität und eine Spezifität von je 95 Prozent (z.B. übliche Scharlachschnelltests) und liegt die Basisrate (die tatsächliche Quote Betroffener oder Infizierter) bei 0,5 % bedeutet das: Von 20000 Testpersonen werden von 100 tatsächlich Betroffenen (angenommene Basisrate von Scharlach) 95 richtig erkannt – 5 jedoch nicht. Zugleich werden 995 nicht Betroffene fälschlich als positiv diagnostiziert.¹⁶

Ähnliche Ergebnisse ergeben sich bei Brustkrebsdiagnosen, weshalb Mammografiescreenings unter erheblicher Kritik stehen, da die Zahl der Frauen, die sich aufgrund eines falsch positiven Befundes unnötigerweise ihre Brüste entfernen lassen, um ein Vielfaches höher liegt als die Anzahl der Frauen, bei denen dies aufgrund eines richtig positiven Befunds erfolgt.

Selbst viele Frauenärzte, die Brustkrebsdiagnosen stellen, erliegen (oder erlagen bis zu einer intensiven Aufklärung hierzu in den letzten Jahren) in der Bewertung aus diesem Grunde Fehleinschätzungen.

5.2. Das p-Wert-Missverständnis

Der p-Wert (von probability, Wahrscheinlichkeit) gibt an, ob ein gemessenes Resultat auch durch Zufall erklärt werden kann. Über die eigentlich interessante Frage “Ist die Hypothese korrekt” sagt der p-Wert dagegen nichts aus.¹⁷¹⁸

Es ist also falsch, dass ein niedriger p-Wert von unter 5 %, also unter 0,05, etwas über die Sicherheit aussagte, mit der die Hypothese richtig wäre. Er besagt lediglich, mit welcher Wahrscheinlichkeit das Untersuchungsergebnis erzielt werden würde, wenn in Wirklichkeit nicht die Untersuchungshypothese, sondern deren Gegenteil, die sogenannte Nullhypothese, zutrifft.¹⁹ Das ist aber nun einmal keine Aussage über die Richtigkeit der Hypothese.

Der p-Wert sagt nichts darüber aus,

wie richtig oder zuverlässig ein wissenschaftliches Untersuchungsergebnis ist
oder
wie zuverlässig ein Ergebnis wiederholt werden kann

Hinzu tritt, dass in bestimmten Konstellationen an sich recht eindeutige Untersuchungsergebnisse einen miserablen p-Wert erhalten, was zu absurden Interpretationen führt, die bis zum Gegenteil der Untersuchungsergebnisse reichen.¹⁹

Viele Wissenschaftler plädieren für die Abschaffung des p-Wertes, andere wollen die Schwelle, ab der ein Untersuchungsergebnis als signifikant gilt (derzeit 0,05, also 95 %) deutlich erhöhen.

Am sinnvollsten dürfte sein, darauf zu achten, dass ein Ergebnis nicht nur von einer, sondern von möglichst vielen Untersuchungen mit jeweils hoher n-Anzahl und solidem p-Wert bestätigt wurde. Eine einzelne Untersuchung ist selbst bei optimalem p-Wert kein Beweis für die untersuchte These.

Untersuchungen beweisen - oft genug gar nichts

1. Thesen(um)formulierung nach der Datenerhebung¶

2. Fehler der Datenerhebung¶

2.1. Zu kleiner oder zu großer Stichprobenumfang (n)¶

2.1.1. Zu kleiner Stichprobenumfang¶

2.1.2. Zu großer Stichprobenumfang¶

2.2. Datenerhebung, bis das Ergebnis passt¶

3. Fehler der Datenauswertung¶

3.1. Thesenförderlich ausgewählte Datenauswertungskriterien¶

3.2. Datenanalyse, bis das Ergebnis passt (Torture your data untill they confess)¶

3.3. Fehlerhafte Anwendung von Statistikmethoden¶

3.4. Messfehler¶

3.5. Excelfehler¶

4. Veröffentlichung nur genehmer Ergebnisse¶

5. Interpretationsfehler durch Leser¶

5.1. Die Falsch-Positiv-Falle¶

5.2. Das p-Wert-Missverständnis¶

1. Thesen(um)formulierung nach der Datenerhebung

2. Fehler der Datenerhebung

2.1. Zu kleiner oder zu großer Stichprobenumfang (n)

2.1.1. Zu kleiner Stichprobenumfang

2.1.2. Zu großer Stichprobenumfang

2.2. Datenerhebung, bis das Ergebnis passt

3. Fehler der Datenauswertung

3.1. Thesenförderlich ausgewählte Datenauswertungskriterien

3.2. Datenanalyse, bis das Ergebnis passt (Torture your data untill they confess)

3.3. Fehlerhafte Anwendung von Statistikmethoden

3.4. Messfehler

3.5. Excelfehler

4. Veröffentlichung nur genehmer Ergebnisse

5. Interpretationsfehler durch Leser

5.1. Die Falsch-Positiv-Falle

5.2. Das p-Wert-Missverständnis