Wie verlässlich ist wissenschaftliche Forschung? Eine der bislang größten Untersuchungen dazu liefert eine ernüchternde Antwort: Viele Ergebnisse halten einer Überprüfung nicht stand.
Ein internationales Team hat in einem siebenjährigen Projekt Tausende Studien aus den Sozialwissenschaften untersucht. Für einen Teil davon wurden vollständige Replikationen durchgeführt. Das Ergebnis: Nur rund jede zweite dieser Studien ließ sich erfolgreich bestätigen.
Darüber berichtet das Fachmagazin Nature. Insgesamt werteten 865 Forschende im Rahmen des sogenannten SCORE-Projekts 3900 Arbeiten aus Disziplinen wie Psychologie, Ökonomie, Bildung und Soziologie aus.
Ergebnisse halten oft nicht stand
Besonders aufwendig ist der Test, bei dem komplette Studien wiederholt werden – also neue Daten erhoben und erneut ausgewertet werden. Von 164 untersuchten Arbeiten konnten dem Bericht zufolge nur 49 Prozent mit statistischer Signifikanz bestätigt werden. Die Werte liegen demnach in etwa auf dem Niveau früherer Untersuchungen. „Die Resultate sind nicht überraschend“, sagt der Metawissenschaftler John Ioannidis laut Nature. Ähnliche Probleme seien bereits in kleineren Studien sichtbar geworden.
Die sogenannte Replikationskrise ist kein reines Problem der Sozialwissenschaften. Seit Jahren zeigen Untersuchungen, dass auch in der biomedizinischen Forschung viele Ergebnisse nicht zuverlässig reproduzierbar sind, berichtet Nature weiter. Gerade dort kann das besonders folgenreich sein, etwa bei der Entwicklung neuer Medikamente oder Therapien. Das SCORE-Projekt selbst untersucht sozialwissenschaftliche Studien, liefert aber Hinweise auf ein breiteres Problem in der Forschung.
Häufig fehlen entscheidende Informationen
Die Autoren warnen jedoch vor vorschnellen Schlüssen. „Ein einzelnes Paper ist nur ein Puzzlestück“, sagt Tim Errington vom Center for Open Science, das an dem Projekt beteiligt war, gegenüber Nature.
Ein zentrales Problem: Viele Studien sind nicht ausreichend dokumentiert. In einem Teil der Untersuchung versuchten Forschende, die Datenanalysen von 600 Arbeiten nachzuvollziehen. Nur 145 Studien enthielten genug Informationen dafür. Von diesen konnten laut dem Bericht lediglich 53 Prozent exakt reproduziert werden. In vielen Fällen mussten die Prüfer Annahmen treffen oder Daten rekonstruieren – mit entsprechendem Risiko für Abweichungen, fügte Errington an.
Methoden entscheiden über das Ergebnis
Selbst wenn Daten verfügbar sind, können unterschiedliche Auswertungsmethoden zu unterschiedlichen Ergebnissen führen. Eine Überprüfung der Robustheit – also der Stabilität der Ergebnisse gegenüber alternativen Analysen – zeigte laut Nature: etwa drei Viertel der Studien hielten stand. In einzelnen Fällen führte eine alternative Analyse jedoch zum gegenteiligen Ergebnis. Das sei „besorgniserregend“, so Errington weiter. Zugleich zeige es, wie stark Ergebnisse von methodischen Entscheidungen abhängen.
Hinweise auf Verbesserungen
Das SCORE-Projekt wurde unter anderem von der US-Behörde DARPA finanziert. Ziel ist es laut Nature, langfristig Werkzeuge zu entwickeln, die die Verlässlichkeit von Studien besser einschätzen können.


