Arbeitsmaterialien

1. Klassifikation von Studiendesigns

In der Gesundheitsforschung wird eine Vielzahl an verschiedenen Studientypen eingesetzt. Dabei finden in den verschiedenen Forschungsbereichen (z.B. klinische Forschung, Public Health) sehr unterschiedliche Studiendesigns Anwendung. Die Differenzierung von verschiedenen Studientypen hat in der EbM eine große Bedeutung, da diese in der Regel mit einem unterschiedlichen Risiko für systematische Verzerrung verbunden sind. Das Studiendesign bildet daher den Ausgangspunkt für die Einschätzung der Qualität und Aussagekraft der Evidenz.

Für die Einteilung von epidemiologischen Studiendesigns gibt es diverse Klassifizierungen. Üblicherweise werden randomisierte Studiendesigns und nicht-randomisierte Studiendesigns abgegrenzt. Darüber hinaus, wird in der Epidemiologie, bei nicht-randomisierten Studien traditionell zwischen Kohortenstudien und Fall-Kontroll-Studien unterschieden. Auch klinische Studien lassen sich anhand dieser Designkriterien, wie z.B. Randomisierung unterscheiden (vgl. 2. Bewertung klinischer Studien). Abgesehen von diesen grundlegenden Abgrenzungen, finden sich in der Literatur oft uneinheitliche und unscharfe Definitionen von verschiedenen Studiendesigns. Zur Sicherstellung einer konsistenten Klassifizierung und Benennung von Studiendesigns, kann die Verwendung von Algorithmen hilfreich sein (vgl. Abbildung 1). Eine Studie kann hiermit, durch die Beantwortung der einzelnen Fragen und der damit verbundenen zu wählenden Pfade im Algorithmus, eingeteilt werden.

Abbildung 1: Algorithmus zur Klassifizierung von Studiendesigns (in Anlehnung an https://www.jclinepi.com/article/S0895-4356(17)30060-4/references)

Die Einteilung des Studiendesigns bietet oftmals eine erste grobe Näherung zur Einschätzung der internen Validität. Die Bildung einer auf dem Studientyp basierenden Evidenzhierarchie hat traditionell eine große Bedeutung in der EbM. Die Evidenzhierarchie wird oft als Pyramide dargestellt und bezieht sich in der Regel auf Fragestellungen zur Wirksamkeit von Interventionen (siehe Abbildung 2). Die Wellen in der Pyramide deuten an, dass die Sicherheit der Evidenz nicht ausschließlich vom Studiendesign abgeleitet werden kann, sondern aufgrund von Unterschieden in der methodischen Studienqualität mitunter stark variiert.

Abbildung 2: Evidenzpyramide, Quelle: https://ebm.bmj.com/content/21/4/125

In der Vergangenheit wurde auch häufig die Einteilung der Evidenzstufen des Oxford Centre for Evidence-based Medicine verwendet. Mittlerweile wird jedoch zunehmend von solchen simplen Klassifizierungssystemen Abstand genommen.

So werden heute für die Einschätzung der Sicherheit der Evidenz üblicherweise nur Studien mit und ohne Kontrollgruppe unterschieden. Allerdings können von Studien ohne Kontrollgruppe (z.B. Fallberichte) keine kausalen Effekte abgeleitet werden. Sie haben daher in der EbM keine wesentliche Bedeutung. Die kontrollierten Studiendesigns werden in randomisierte und nicht-randomisierte Studiendesigns unterschieden (vgl. z.B. GRADE-Ansatz). Diese Unterscheidung wird getroffen, da eine randomisierte Zuteilung zu den Gruppen die einzige Möglichkeit ist sicherzustellen, dass auch nicht gemessene und nicht bekannte Störgrößen zwischen den Gruppen gleich verteilt sind. Weitere Abstufungen bzgl. der Qualität und Aussagekraft der Evidenz aus einer kontrollierten Studie werden dann über die detaillierte Bewertung des Risikos für systematische Verzerrungen (Risk of Bias) mittels standardisierter Bewertungsinstrumente vorgenommen (siehe Abschnitt Bewertung von Studien).

Systematische Übersichtsarbeiten (auch systematische Reviews genannt), fassen sämtliche bestehenden Primärstudien zu einer bestimmten PICO-Fragestellung nach festgelegten Kriterien unter Berücksichtigung ihrer methodischen Qualität zusammen. In der Regel wird hierdurch die Aussagekraft der Ergebnisse im Vergleich zu einzelnen Studien erhöht. Systematische Reviews von randomisierten kontrollierten Studien werden als das höchste Evidenzniveau für die Wirksamkeit von Interventionen angesehen (vgl. Evidenzpyramide). Die Bedeutung von systematischen Reviews für die EbM resultiert auch daraus, dass sie die Einbeziehung von Erkenntnissen aus wissenschaftlichen Studien im Alltag erleichtern, da nicht viele einzelne Primärstudien gelesen werden müssen, sondern die gesamte Studienlage zusammen mit einer kritischen Bewertung in einem Artikel komprimiert zusammengefasst ist.

Häufig werden die Ergebnisse, der in einem systematischen Review eingeschlossenen Studien mittels statistischer Methoden (Meta-Analysen) in einem gemeinsamen quantitativen Schätzer (z.B. mittels relativem Risiko) zusammengefasst.

2. Bewertung von Studien

Bei der Bewertung klinischer Studien (Critical Appraisal) kommt der internen Validität (also der Glaubwürdigkeit der Studienergebnisse) die höchste Bedeutung zu. Andere Aspekte von Studien(-publikationen) wie externe Validität (auch als Übertragbarkeit bezeichnet), Qualität der Berichterstattung (siehe Reporting Guidelines) und statistische Präzision sollten hiervon klar abgegrenzt werden. Im Folgenden werden verschiedene Instrumente vorgestellt, die dazu dienen, klinische Studien hinsichtlich ihrer internen Validität (= Risiko für Bias) zu bewerten.

Bewertung systematischer Übersichtsarbeiten

Systematische Übersichten (und Meta-Analysen) wurden in Vergangenheit meist mit dem Oxman-Guyatt-Index oder dem AMSTAR-Instrument (A MeaSurement Tool to Assess systematic Reviews)¹ bewertet. AMSTAR wurde 2017 grundlegend überarbeitet und zu AMSTAR 2² erweitert. AMSTAR 2 besteht aus 16 Items und beinhaltet die Möglichkeit zur Gesamteinschätzung der Aussagekraft eines Reviews (hohe, moderate, niedrige oder kritisch niedrige Aussagekraft).
Alternativ kann das 2015 vorgestellte Instrument ROBIS (Risk of Bias in Systematic Reviews)³ verwendet werden. ROBIS umfasst 29 Items in vier Domänen (Ein- und Ausschlusskriterien, Studienselektion, Studienextraktion und -bewertung sowie Synthese und Ergebnisse), die wiederum in eine Gesamtbewertung des Risikos für Bias (low, high, unclear) einfließen.

Randomisiert kontrollierte Studien

Drei klassische Aspekte der internen Validität von randomisiert kontrollierten Studien (RCTs) wurden schon 1996 von Jadad empfohlen: Verdeckte Gruppenzuteilung, Verblindung und Intention-to-treat-Analyse. Die Cochrane Collaboration hat den Jadad-Score sinnvoll erweitert, so dass heute das Cochrane Risk-of-Bias Tool als Standard zu Bewertung von RCTs gilt und seit 2019 als überarbeitetes Tool als RoB2 (A revised tool to assess risk of bias in randomized trials)⁴ zur Verfügung steht. Eine detaillierte Beschreibung dieses Instruments (RoB2) findet sich in Kapitel 8 des Cochrane Collaboration Handbook. Erfasst werden hiermit folgende Verzerrungsmöglichkeiten:

Auswahl der Studienteilnehmer
Umgang mit Störvariablen (Confounding)
Erfassung der Intervention (oder Exposition)
Verblindung von Endpunkterhebern
Vollständigkeit der Daten zum Endpunkt
Nicht-selektives Berichten der Ergebnisse

Nicht-randomisierte kontrollierte Studien

Die Bewertung von nicht-randomisierten Studien (Non-RCTs) ist deutlich komplizierter im Vergleich zu RCTs. Entscheidend ist das Verzerrungspotenzial, das durch ungleich verteilte Störvariablen (Confounder) erzeugt wird. Abzuraten ist von früher gebräuchlichen Bewertungsinstrumenten, wie z.B. der Newcastle-Ottawa-Skala oder MINORS. Stattdessen werden Instrumente wie ROBINS-I oder auch RoBANS empfohlen, die folgende Aspekte von Bias erfassen:

Auswahl der Studienteilnehmer
Umgang mit Störvariablen (Confounding)
Erfassung der Intervention (oder Exposition)
Verblindung von Endpunkterhebern
Vollständigkeit der Daten zum Endpunkt
Nicht-selektives Berichten der Ergebnisse

Studien zur diagnostischen Genauigkeit

Studien zur diagnostischen Genauigkeit sollten mit dem Instrument QUADAS-2 bewertet werden. Es geht darum, die folgenden Aspekte von Bias zu prüfen:

Auswahl der Studienteilnehmer (Spectrum Bias)
Verwendung eines adäquaten Referenzstandards (Verifikationsbias)
Verblindung zwischen Indextest(s) und Referenzstandard
Vollständigkeit der Daten
Nicht-selektives Berichten der Ergebnisse

Bewertung weiterer Studiendesigns

Für Studien ohne Vergleichsgruppe (Fallserien und Fallberichte) existieren nur wenige Bewertungsinstrumente, da diese Evidenz eine ohnehin nur sehr geringe interne Validität aufweist und aufgrund der fehlenden Vergleichsgruppe keine Schätzung von Interventionseffekten erlaubt.

Insgesamt hilfreich zur Bewertung klinischer Studien ist das Manual, das von Cochrane-Deutschland und der AWMF (Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften) erstellt wurde (Manual "Bewertung des Biasrisikos in klinischen Studien“ Version 2.0 vom 10.05.2021⁵).

3. Bewertung der Evidenz

Der GRADE-Ansatz

In systematischen Reviews wird, wie oben beschrieben, die Evidenz aus möglichst allen Studien zu einer Fragestellung zusammengefasst und bewertet. Gleichzeitig ist das Ziel, die Qualität und Aussagekraft dieser zusammengefassten Ergebnisse für jeden vordefinierten Endpunkt zu bewerten und nicht nur die Qualität der einzelnen Studien. Dafür wurde die GRADE („Grading of Recommendations, Assessment, Development and Evaluation“) Methode entwickelt. Sie ermöglicht eine standardisierte Bewertung der Qualität der gesamten Evidenz, also der Ergebnisse aus mehreren Studien. Auch bei der Erstellung von Leitlinien kann die GRADE Methode verwendet werden, wenn diese ihre Empfehlungen auf Basis der verführbaren Evidenz erstellen.
GRADE definiert vier Stufen der Qualität der Evidenz (hohe, moderate, niedrige und sehr niedrige Qualität). Bei der Bewertung der Evidenzqualität nach GRADE werden verschiedene Domänen einbezogen: das Risiko für Bias (interne Validität), das Ausmaß der Vergleichbarkeit bzw. Heterogenität der Ergebnisse der einzelnen Studien (Inkonsistenz), die Direktheit der Evidenz (inwieweit z. B. die Studienpopulationen mit der Zielpopulation der PICO-Frage übereinstimmt), die Präzision des geschätzten Gesamteffekts und das Risiko für einen Publikations-Bias.
Für jede Domäne, bei der schwerwiegende Limitierungen vorliegen, wird die Qualität der Evidenz um eine Stufe herabgestuft (bis zu sehr niedriger Qualität der Evidenz). Mit jeder Evidenzstufe unter „hoch“ sinkt die Vertrauenswürdigkeit in die vorliegenden Studienergebnisse. Sehr niedrige Qualität der Evidenz bedeutet beispielsweise, dass nur ein sehr geringes Vertrauen in den geschätzten Gesamteffekt (z. B. das Ergebnis einer Meta-Analyse) besteht und der wahre Effekt sich vermutlich substantiell vom geschätzten Gesamteffekt unterscheidet. Die Ergebnisse der Bewertung werden in sogenannten Summary of Findings-Tabellen dargestellt.
Eine detaillierte Beschreibung des GRADE-Ansatzes ist im J Clin Epidemiol publiziert; eine deutsche Übersetzung dieser Serie ist in der ZEFQ erschienen. Das GRADE-Zentrum in Freiburg bietet regelmäßig Kurse zu GRADE an.

Referenzen

Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol. 2007;7:10.
Shea BJ, Reeves BC, Wells G, Thuku M, Hamel C, Moran J, et al. AMSTAR 2: a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions, or both. BMJ. 2017;358:j4008.
Whiting P, Savovic J, Higgins JP, Caldwell DM, Reeves BC, Shea B, et al. ROBIS: A new tool to assess risk of bias in systematic reviews was developed. J Clin Epidemiol. 2016;69:225-34.
Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, Cates CJ, Cheng H-Y, Corbett MS, Eldridge SM, Hernán MA, Hopewell S, Hróbjartsson A, Junqueira DR, Jüni P, Kirkham JJ, Lasserson T, Li T, McAleenan A, Reeves BC, Shepperd S, Shrier I, Stewart LA, Tilling K, White IR, Whiting PF, Higgins JPT. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ 2019; 366: l4898.
Cochrane Deutschland, Institut für Medizinische Biometrie und Statistik, Freiburg, Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften- Institut für Medizinisches Wissensmanagement, Ärztliches Zentrum für Qualität in der Medizin. „Manual zur Bewertung des Biasrisikos in Interventionsstudien“. 2. Auflage, 2021. DOI: 10.6094/UNIFR/194900, https://freidok.uni-freiburg.de/data/194900.

Mehr EbM-Basics?

Nur einen Moment..