Forschung

Nur jede zweite Studie hält stand: Großprojekt stellt Verlässlichkeit der Wissenschaft infrage

Viele wissenschaftliche Ergebnisse lassen sich nicht wiederholen. Ein Großprojekt zeigt: Das Problem betrifft nicht nur Sozialwissenschaften, sondern auch die biomedizinische Forschung.

Eine Wissenschaftlerin wertet Daten im Labor aus. Studien zeigen, dass viele Ergebnisse später nicht reproduziert werden können.
Eine Wissenschaftlerin wertet Daten im Labor aus. Studien zeigen, dass viele Ergebnisse später nicht reproduziert werden können.Ray/imago

Wie verlässlich ist wissenschaftliche Forschung? Eine der bislang größten Untersuchungen dazu liefert eine ernüchternde Antwort: Viele Ergebnisse halten einer Überprüfung nicht stand.

Ein internationales Team hat in einem siebenjährigen Projekt Tausende Studien aus den Sozialwissenschaften untersucht. Für einen Teil davon wurden vollständige Replikationen durchgeführt. Das Ergebnis: Nur rund jede zweite dieser Studien ließ sich erfolgreich bestätigen.

Darüber berichtet das Fachmagazin Nature. Insgesamt werteten 865 Forschende im Rahmen des sogenannten SCORE-Projekts 3900 Arbeiten aus Disziplinen wie Psychologie, Ökonomie, Bildung und Soziologie aus.

Ergebnisse halten oft nicht stand

Besonders aufwendig ist der Test, bei dem komplette Studien wiederholt werden – also neue Daten erhoben und erneut ausgewertet werden. Von 164 untersuchten Arbeiten konnten dem Bericht zufolge nur 49 Prozent mit statistischer Signifikanz bestätigt werden. Die Werte liegen demnach in etwa auf dem Niveau früherer Untersuchungen. „Die Resultate sind nicht überraschend“, sagt der Metawissenschaftler John Ioannidis laut Nature. Ähnliche Probleme seien bereits in kleineren Studien sichtbar geworden.

Die sogenannte Replikationskrise ist kein reines Problem der Sozialwissenschaften. Seit Jahren zeigen Untersuchungen, dass auch in der biomedizinischen Forschung viele Ergebnisse nicht zuverlässig reproduzierbar sind, berichtet Nature weiter. Gerade dort kann das besonders folgenreich sein, etwa bei der Entwicklung neuer Medikamente oder Therapien. Das SCORE-Projekt selbst untersucht sozialwissenschaftliche Studien, liefert aber Hinweise auf ein breiteres Problem in der Forschung.

Häufig fehlen entscheidende Informationen

Die Autoren warnen jedoch vor vorschnellen Schlüssen. „Ein einzelnes Paper ist nur ein Puzzlestück“, sagt Tim Errington vom Center for Open Science, das an dem Projekt beteiligt war, gegenüber Nature.

Ein zentrales Problem: Viele Studien sind nicht ausreichend dokumentiert. In einem Teil der Untersuchung versuchten Forschende, die Datenanalysen von 600 Arbeiten nachzuvollziehen. Nur 145 Studien enthielten genug Informationen dafür. Von diesen konnten laut dem Bericht lediglich 53 Prozent exakt reproduziert werden. In vielen Fällen mussten die Prüfer Annahmen treffen oder Daten rekonstruieren – mit entsprechendem Risiko für Abweichungen, fügte Errington an.

Methoden entscheiden über das Ergebnis

Selbst wenn Daten verfügbar sind, können unterschiedliche Auswertungsmethoden zu unterschiedlichen Ergebnissen führen. Eine Überprüfung der Robustheit – also der Stabilität der Ergebnisse gegenüber alternativen Analysen – zeigte laut Nature: etwa drei Viertel der Studien hielten stand. In einzelnen Fällen führte eine alternative Analyse jedoch zum gegenteiligen Ergebnis. Das sei „besorgniserregend“, so Errington weiter. Zugleich zeige es, wie stark Ergebnisse von methodischen Entscheidungen abhängen.

Hinweise auf Verbesserungen

Das SCORE-Projekt wurde unter anderem von der US-Behörde DARPA finanziert. Ziel ist es laut Nature, langfristig Werkzeuge zu entwickeln, die die Verlässlichkeit von Studien besser einschätzen können.

Ein Ansatz: Daten und Methoden offener zugänglich zu machen. Auch Verfahren, bei denen mehrere Analysewege parallel getestet werden, könnten helfen, sagt Tim Errington. Andere Ergebnisse deuten darauf hin, dass sich die Situation verbessert. Der Ökonom Abel Brodeur untersuchte neuere Studien aus den Jahren 2022 und 2023. In seiner Analyse waren 85 Prozent der Arbeiten rechnerisch reproduzierbar, berichtet Nature.

Seine Erklärung: strengere Standards bei der Offenlegung von Daten und Code. Bei neuen Ergebnissen wartet Brodeur nach eigenen Angaben oft ab, bis mehrere Studien unabhängig zu ähnlichen Resultaten kommen.