Randomised Controlled Trials

Realitätscheck

In der Politik erfreuen sich rigorose Evaluationsmethoden, bei denen Daten aus zufällig ausgewählten Ziel- und Kontrollgruppen miteinander verglichen werden, großer Beliebtheit. Das Verfahren soll dazu dienen, Kausalität zu belegen, passt aber auf viele entwicklungspolitische Programme nicht. Die GIZ hat sich für eine pragmatische, alltagstaugliche Version entschieden.

Sabine Dinges

Sylvia Schweitzer

Reformen im Gesundheitswesen setzen typischerweise auf mehreren Ebenen an, sodass die Wirkung einzelner Maßnahmen isoliert kaum zu messen ist: tansanische OP-Schwester.

Dembowski Reformen im Gesundheitswesen setzen typischerweise auf mehreren Ebenen an, sodass die Wirkung einzelner Maßnahmen isoliert kaum zu messen ist: tansanische OP-Schwester.

18.07.2013

Ziel der GIZ ist es, eine positive und nachhaltige Wirkung in ihren Partnerländern zu erreichen. Dazu soll das Evaluierungssystem, das Ergebnisse misst und bewertet, einen wichtigen Beitrag leisten. Die systematische Ergebnisprüfung dient der GIZ dazu, nicht nur auf der Ebene des einzelnen Vorhabens, sondern auch institutionell aus Fehlern und Erfolgen zu lernen und künftig besser zu arbeiten. Doch ein eindeutiges Feststellen von positiven wie negativen Wirkungen ist nicht einfach. Daher testet die GIZ-Stabsstelle Monitoring und Evaluierung regelmäßig innovative Methoden, um möglichst valide Aussagen liefern zu können.

Seit 2009 beschäftigen wir uns beispielsweise intensiv mit randomisierten Kontrollstudien (Randomised Controlled Trials, RCTs) – und haben einiges dabei gelernt. Der Ansatz erfährt derzeit große Aufmerksamkeit in den Medien und wird als Goldstandard in der Wirkungsevaluierung bezeichnet. Prominenteste Vertreter sind Esther Duflo und Abhijit Banerjee vom Massachussetts Institute of Technology, deren Erfolgsbuch „Poor Economics“ (2011) auf RCT-Studien beruht.

RCTs beruhen auf der Grundidee, dass die Wirkung einer Maßnahme dann festgestellt werden kann, wenn man weiß, was ohne die Intervention passiert wäre. Hierzu wird die Gruppe, die an der Maßnahme teilnimmt, mit einer Kontrollgruppe verglichen, die nicht teilnimmt, so wie das auch in der Pharmaforschung üblich ist.

Die Zuteilung zu den beiden Gruppen erfolgt zufällig (randomisiert) vor Beginn der Intervention. So wird sichergestellt, dass Unterschiede, die man nach der Maßnahme misst, auch wirklich auf die Maßnahme und nicht etwa auf andere Faktoren zurückzuführen sind.

Im Jahr 2010 wandte das Rheinisch-Westfälische Institut für Wirtschaftsforschung (RWI) das erste RCT im Auftrag der GTZ (heute GIZ) in Senegal an. Es ging um die Erfassung von Feuerholzverbrauch, Gesundheit, Finanz- und Zeitaufwand in Haushalten, die mit verbesserten Herden zum Kochen ausgestattet wurden. Zunächst wurde bei 253 Familien die Ausgangssituation erfasst. Dann wurde diesen Haushalten per Los ein Herd (Zielgruppe) oder ein Sack Reis (Kontrollgruppe) zugeteilt.

Um die Nutzung der Herde und eventuell technische Probleme zu kontrollieren, wurden drei Zwischenerhebungen durchgeführt. Es zeigte sich, dass 87 Prozent der Zielgruppe die neuen Herde nutzte. Die Ergebnisse waren statistisch signifikant: Der Feuerholzverbrauch sank um 30 Prozent, die Kochdauer pro Tag um 70 Minuten, Augenreizungen und Atemprobleme nahmen ab. Bei der Kontrollgruppe gab es diese Entwicklung nicht, also basierte sie eindeutig auf den neuen Herden. Auf Basis dieser Ergebnisse wird nun die weitere Verbreitung dieser Technik gefördert.

Die besondere Stärke von RCTs, die ihre Anwendung auf den ersten Blick sehr attraktiv macht, ist der eindeutige Nachweis von Kausalität. Aufgrund der Arbeit mit Ziel- und Kontrollgruppe können alternative Erklärungen für gefundene Wirkungen weitgehend ausgeschlossen werden.

Allerdings hat die Methode auch inhärente Schwächen. Es ist zum Beispiel oft nicht klar, ob die Ergebnisse aus einer RCT auf einen anderen Kontext übertragbar sind. Es kann jedoch bezweifelt werden, dass Probleme in Indien gelöst werden, indem man Ergebnisse eines Experiments in Afrika heranzieht. Oftmals werden aber gerade solche unzulässigen Verallgemeinerungen getroffen.

Es besteht auch das Risiko, dass Evaluierer die Wirklichkeit nur sehr eingeschränkt wahrnehmen. Wenn sie beispielsweise ihre Daten mit standardisierten Fragebögen erheben, können die Befragten Aspekte, die sie für besonders wichtig halten, nur ansprechen, wenn sie auch abgefragt werden. Deshalb bleiben unerwartete Wirkungen oft unerkannt. Das Problem lässt sich allerdings zum Teil lösen, indem man Fragen mit offenen Antwortmöglichkeiten aufnimmt.

Ein anderer Kritikpunkt ist, dass mit vielen ökonometrischen Verfahren nur analysiert werden kann, ob, aber nicht warum eine bestimmte Wirkung eintritt oder ausbleibt. Ob ein Projekt falsch geplant war oder nur falsch implementiert wurde, lässt sich beispielsweise nicht erkennen.

Im Realitätscheck bewähren sich RCTs aber auch aus anderen Gründen oft nicht. Eine wissenschaftliche Anforderung lautet, dass weder die Projektmitarbeiter noch die Mitglieder der Ziel- und Kontrollgruppen wissen, wer zu welcher Gruppe gehört. Das Fachwort dafür heißt „doppelblind“. Dies kann in der Evaluierungspraxis in der Regel meist nicht erfüllt werden.

Außerdem können Übertragungseffekte („spill-over“) auf die Kontrollgruppe oft nicht hinreichend ausgeschlossen werden. Es kommt vor, dass die Kontrollgruppe, die eigentlich gar nicht an der Maßnahme teilnimmt, positive oder negative Folgen der Intervention spürt und entsprechend ihr Verhalten ändert. Bei der Verbreitung der verbesserten Herde kam es zum Beispiel vor, dass Herde an Familien in der Kontrollgruppe ausgeliehen wurden.

Aus verschiedenen anderen Gründen passt darüber hinaus die Anwendung von RCTs einfach auf viele GIZ-Vorhaben nicht. In der Regeln wählen nämlich entwicklungspolitische Durchführungsorganisationen ihre Zielgruppe bewusst aus – und das ist auch sinnvoll, weil sie engagierte Akteure braucht. Eine Zufallsauswahl führt nicht zum Ziel. Andererseits finden Vorhaben häufig auf nationaler Ebene statt, sodass alle Menschen gleichzeitig von bestimmten Maßnahmen (etwa einer Gesetzesänderung) betroffen sind und keine Kontrollgruppe etabliert werden kann. Ebenso lassen sich bei makroökonomischen Maßnahmen, die per Definition die ganze Volkswirtschaft erfassen, keine Kontrollgruppen bilden.

Viele Vorhaben sind zudem vielschichtig und auf mehreren Ebenen angelegt. Wenn beispielsweise das Gesundheitswesen eines Landes reformiert wird, müssen mehrere Dinge angegangen werden: der Zugang breiter Schichten der Bevölkerung zu Krankenhäusern und Gesundheitszentren, die Qualifizierung des Personals, die Effizienz des Medikamentenvertriebs et cetera. Das macht es schwierig, die Wirkung einer einzelnen Intervention zu erfassen. Andererseits ist es auch nicht immer sinnvoll, einzelne Interventionen isoliert zu betrachten, weil dabei Synergieeffekte zwischen Interventionen außer Acht gelassen werden. In einigen Sektoren ist die quantifizierte Messung von Wirkungen zudem schwieriger als in anderen. Gute Regierungsführung lässt sich schlechter an bestimmten Kennzahlen festmachen als die Qualität von Berufsbildung.

Aus solchen Gründen taugen RCTs für die meisten GIZ-Vorhaben nicht. Das gilt auch für viele andere Durchführungsorganisationen, denn die Arbeitsweisen der Entwicklungspolitik haben sich in den vergangenen Jahren verändert. Typisch sind heute eben nicht mehr einzelne Projekte, sondern umfassende Programme auf vielen Ebenen.

Zu bedenken ist auch, dass RCTs teuer sind und einen hohen Aufwand erfordern. Hier ist eine sorgfältige Abwägung des Kosten-Nutzen-Verhältnisses notwendig – denn Geld, das in Evaluierungen fließt, kann nicht für Maßnahmen genutzt werden.

Praxisgerechter Ansatz

Angesichts der eingeschränkten Anwendbarkeit von RCTs haben die GIZ und ihre Vorgängerorganisationen in den vergangenen Jahren „alltagstaugliche rigorose Wirkungsevaluierung“ erprobt. Dabei geht es darum, zum einen die direkten und indirekten Wirkungen von Maßnahmen möglichst präzise zu erfassen und zum anderen in einem vertretbaren finanziellen und zeitlichen Rahmen zu bleiben.

In Kooperation mit Professor Reinhard Stockmann, dem Leiter des Centrums für Evaluation der Universität des Saarlandes (CEval), wurde ein Konzept für alltagstaugliche Evaluierungen entwickelt. Dieses umfasst folgende Schritte:

Zunächst werden in theoretischen Überlegungen alle zu erwartenden Wirkungen einer Maßnahme ausformuliert und sinnvolle Indikatoren für sie gesucht („Theoriebasierte hypothesengeleitete Ursache-Wirkung-Analyse).
Vergleichsgruppen werden erst zum Zeitpunkt der Evaluierung und nicht schon zu Projektbeginn gebildet („quasi-experimentelles Evaluierungsdesign“). Für die Bildung stimmiger Vergleichsgruppen stehen verschiedene statistische Verfahren zur Verfügung.
Es wird ein Mix verschiedener Datenerhebungs- und Auswertungsmethoden verwendet („Methodentriangulation“). Dadurch können Schwächen einer Methode mit den Stärken einer anderen Methode ausgeglichen werden. Konkret heißt das beispielsweise, dass nicht nur quantitative Daten erhoben werden, sondern auch ausführliche Interviews mit offenen Fragen geführt werden können.
Die Daten werden in zwei Phasen erhoben. In einem ersten Vor-Ort-Einsatz, der Vormission, werden die Möglichkeiten zur Bildung von Vergleichsgruppen und die Art und Qualität der zur Verfügung stehenden Daten geprüft. Darauf aufbauend wird das Evaluierungsdesign angepasst, so dass in der Hauptmission gezielt Daten- und Wissenslücken geschlossen werden können.

Diesen Ansatz hat die GIZ mittlerweile in mehreren Evaluierungen angewendet. Sie wird das auch künftig tun. Dafür kommen vor allem Programme in Frage, die:

ein besonders hohes Auftragsvolumen haben,
als Pilotvorhaben konzipiert werden oder
von hoher strategischer Bedeutung für die GIZ sind.

Allerdings eignet sich auch dieses alltagstaugliche Evaluationskonzept für viele komplexe Programme nicht, die auf verschiedenen gesellschaftlichen Ebenen intervenieren. Die GIZ beschäftigt sich daher auch mit anderen innovativen Evaluierungsansätzen wie zum Beispiel mit Kontributionsanalyse und Developmental Evaluation. Bei der Kontributionsanalyse wird auf der Basis von Plausibilitätsüberlegungen und datengestützter Evidenz untersucht, warum bestimmte Wirkungen eingetreten sind (oder auch nicht), welche Einflussfaktoren es dabei gab und welchen Beitrag das Vorhaben geleistet hat. Eine Developmental Evaluation nach Michael Quinn Patton (2010) bezeichnet die kontinuierliche Begleitung eines Programms durch einen Evaluator, der dem Projektteam hilft, das eigene Vorgehen immer wieder kritisch zu hinterfragen und gegebenenfalls anzupassen.

Die GIZ wird RCTs in wenigen Situationen weiter anwenden, wo diese machbar, sinnvoll und finanzierbar sind. Wichtig ist dabei, zu überlegen, wie man methodisch feststellen kann, was das Projekt oder Programm tatsächlich bewirkt hat. Aufgrund der Stärken und Schwächen verschiedener Ansätze gibt es aber keinen Goldstandard. Deshalb muss in jedem Fall neu geprüft werden, welche Evaluierungsmethode am besten passt. In der Regel wird ein Mix verschiedener Methoden die beste Lösung sein.

Sabine Dinges arbeitet in der Stabsstelle Monitoring und Evaluierung der GIZ und promoviert in Bradford über Evaluierungswirkung.
sabine.dinges@giz.de

Sylvia Schweitzer arbeitet ebenfalls in der Stabsstelle Monitoring und Evaluierung der GIZ. Sie hat in Bochum über Ressourcensicherheit und Konflikte promoviert.
sylvia.schweitzer@giz.de