Vergleich von randomisierten zu Matched-Pair-Design-Studien und von Sanktionen zur Nicht-Intervention

Nach dem strikten Paradigma der sog. „evidence-based crime prevention“ und der experimentellen Forschung werden Studien mit einem Matched-Pair-Design im Hinblick auf die Kausalität zwischen den Interventionen und den gemessenen Ergebnissen generell als suboptimal betrachtet. Bei einem Matched Pair Design werden zunächst „Zwillingsoder Mehrlingspaare“ gesucht, die sich in Hinblick auf bestimmte Attribute ähneln, denen eine Einfluss auf die Wahrscheinlichkeit und Häufigkeit der Begehung von Straftaten zugeschrieben wird. Diese Paare werden dann gezielt getrennt und unterschiedlichen Interventionsgruppen zugewiesen, damit die für relevant gehaltenen Attribute möglichst gleichmäßig auf diese Gruppen verteilt werden, ihr Einfluss sich also bezogen auf die unterschiedlichen Interventionen möglichst nicht in unterschiedlichem Maße bemerkbar macht, so dass deren Wirkung weitgehend unabhängig von diesen Attributen erforschbar werden soll. Bei einem solchen Verfahren liegt es jedoch in der Natur der Sache, dass nur solche Attribute überhaupt Berücksichtigung finden können, von denen man schon auf den Gedanken gekommen ist, dass sie Einfluss auf strafbares Verhalten haben könnten und bislang unbekannte Zusammenhänge nicht berücksichtigt werden können. Dies ist bei einem randomisierten Forschungsdesign anders bei dem auch solche noch nicht bekannten Attribute wenigstens theoretisch annähernd auf die unterschiedlichen Interventionsgruppen verteilt wären, man muss allerdings sagen, dass man deren Einfluss als solchen aber auch mit einer randomisierten Studie nicht erfahren, sondern lediglich statistisch zu neutralisieren versuchen kann. In Anbetracht der geringen Anzahl an randomisierten Studien und natürlichen Experimenten zum Vergleich von Freiheitsstrafen und ambulanten Sanktionen haben die Autoren der Campbell-Review, obwohl sie von der Überlegenheit echter experimenteller Designs überzeugt sind, dennoch 18 quasi-experimentelle Studien mit einem Matched-Pair-Design berücksichtigt. Für die Aufnahme einer Studie in die Review musste diese allerdings mindestens drei oder mehr unabhängige Kontrollvariablen verarbeiten. Aufgrund diverser für die Rückfällig herangezogener Messkriterien in einiger der Studien ergaben sich aus den 23 berücksichtigten Studien (vier randomisierte Experimente, ein natürliches Experiment und 18 Matched-Pair-Design-Studien) insgesamt 27 Vergleiche. In elf von diesen 27 Vergleichen schnitten die ambulanten Sanktionen hinsichtlich der Rückfälligkeit der einbezogenen Personen signifikant besser ab, während diejenigen, die einer freiheitsentziehenden Maßnahme unterzogen worden waren, nur in zwei Studien eine geringere Rückfallquote aufwiesen. In 14 Vergleichen konnten keinerlei signifikante Differenzen festgestellt werden, wobei die ambulanten Sanktionen unterhalb des statistischen Signifikanzniveaus auch in diesen Studien besser abschnitten als die freiheitsentziehenden. Um einem simplifizierenden Ansatz wie einer bloßen „Stimmenauszählung“ von Studienergebnissen, nach dem Muster 11: 2 für die ambulanten Sanktionen, aus dem Weg zu gehen, bezogen die Autoren nur die fünf Studien in ihre Metaanalyse mit ein, denen sie eine besonders hohe Qualität zuschrieben. In ihren Augen war der Vorteil von ambulanten Sanktionen, der sich aus den Gesamtergebnissen aller 27 Vergleiche ergab, in der Metaanalyse dann kaum noch sichtbar. Obwohl die Unterschiede zwischen den sich aus polizeilichen Akten und Statistiken über Wiederverurteilungen ergebenden Rückfall-quoten bei ambulanten und freiheitsentziehenden Sanktionen sehr gering waren, wies die Anwendung von nicht-freiheitsentziehenden Sanktionen aber dennoch etwas bessere Ergebnisse auf. Die oben getroffenen Aussagen zu dem schweizerischen Experiment treffen allerdings auch auf die Mehrzahl der anderen Studien zu, welche bezüglich der angewandten Freiheitsstrafen nur sehr kurze Zeiträume betrachteten und ebenso waren die Bezugszeiträume für den Ersatz von Freiheitsstrafen durch ambulante Sanktionen sehr kurz. Dies hängt teilweise auch mit der Tatsache zusammen, dass im Rahmen randomisierter Studien regelmäßig nur einander relativ ähnliche Sanktionsarten miteinander verglichen werden können obwohl es meist interessanter wäre stärker voneinander verschiedene Interventionen und auch eine Non-Intervention miteinander zu vergleichen. Dies ist ein insbesondere bei randomisierten Studien auftretendes, typisches ethisches Problem, da bei einem Vergleich von Sanktionen völlig unterschiedlicher Härte der Grundsatz der Gleichbehandlung verletzt würde, wenn gezielt gleichgelagerte Fälle völlig unterschiedlichen Sanktionen zugeordnet würden, diese Zuordnung gewissermaßen ausgewürfelt würde. Umgekehrt wären aber gerade Vergleiche wie der zwischen Freiheitsstrafen, Bewährung und Nicht-Intervention für die Forschung und eine rationale Kriminalpolitik besonders interessant.[1] Die Nr. 104 der Europäischen Grundsätze der Bewährungshilfe bestimmt etwa, dass sich die Politik und Praxis der Bewährungshilfe soweit wie möglich auf wissenschaftliche Erkenntnisse stützen sollen und eine Finanzierung gründlicher Forschung gewährleistet sein muss, wobei hier insbesondere auf einen Bedarf an experimentellen Forschungsdesigns hingewiesen wird, deren Ergebnisse als Grundlage für die Politik dienen sollten. Die Nr. 105 der Grundsätze gibt darüber hinaus vor, die bereits bestehenden Normen, Politiken und Praxen auf Basis von fundierten wissenschaftlichen Erkenntnissen und internationalen Standards entsprechender Forschung zu überprüfen und weiterzuentwickeln.

Ein wichtiger Aspekt einer forschungs- und zugleich menschenrechtsorientierten Politik unter den Bedingungen der ersichtlich bestehenden Unsicherheit über die Wirkung unterschiedlicher Sanktionen und kriminalpräventiver Interventionen muss die Anwendung des Prinzips „primum non nocere“ sein: vor allem anderen jedenfalls keinen Schaden zuzufügen. Dieses Prinzip entstammt – wie auch die randomisierten Versuche – der Medizin und bezieht sich auf die Notwendigkeit nicht intendierte Wirkungen von medizinischen Interventionen (Risiken und Nebenwirkungen) zu vermeiden als oberstes Prinzip. Es erlangt aber bei Sanktionsentscheidungen eine noch signifikantere Rolle, wenn man bedenkt, dass diese regelmäßig gegen den Willen des betroffenen Individuums angewandt werden, während die ärztliche Behandlung grundsätzlich auf freiwilliger Basis stattfindet. Das Prinzip „primum non nocere“ muss im Strafrecht ähnlich wie das Prinzip „in dubio pro reo“ implementiert werden. Jedenfalls solange sich ein intensiver Eingriff in die Rechte der betroffenen Person nicht wenigstens als im Hinblick auf die Prävention von Rückfälligkeit effektiv erweist, darf er nicht erfolgen. Solange zudem verschiedene Sanktionen in experimentellen Studien einen vergleichbaren Effekt erzielen, muss diejenige gewählt werden, deren Eingriffsintensität am niedrigsten ist. Die gegenwärtige Kriminalpolitik ist allerdings offensichtlich weit von einer standardmäßigen Anwendung dieses Grundsatzes entfernt, der juristisch auch aus dem Verhältnismäßigkeitsgrundsatz abgeleitet werden kann. In Anbetracht der Tatsache, dass die Ergebnisse von methodologisch stringenten Studien – wie die oben beschriebenen – eine im Hinblick auf den messbaren Erfolg gegebene Austauschbarkeit verschiedener Sanktionen nahelegen, ist eine Befolgung dieses Grundsatzes und eine entsprechende Absenkung der Eingriffsintensität der Sanktionen unerlässlich. Letzteres trifft insbesondere auf Fälle zu, in denen die angestrebte Auswirkung auf die Prävention von Rückfälligkeit bisher noch nicht einmal nachgewiesen werden konnte. Zieht man die Campbell-Review über ambulante versus freiheitsentziehende Sanktionen als Grundlage für die Kriminalpolitik heran, was erklärtes Ziel dieser Art von Evaluation ist, wird das Ausmaß der gegenwärtig bestehenden Unsicherheit besonders deutlich. So mögen randomisierten Studien eine hohe methodologische Qualität aufweisen, diese bedarf gleichwohl noch weiterer Diskussion und ist keineswegs unumstritten.[2] Solange die meisten dieser Studien – und es sind bisher nicht viele – aus den Vereinigten Staaten kommen, die ein von den meisten europäischen Ländern völlig abweichendes Kriminaljustizsystem und eine vollkommene andere kriminalpolitische Ausrichtung mit Masseninhaftierungen haben, können diese Studien nicht als qualitativ hochwertige Grundlage für eine europäische Kriminalpolitik herangezogen werden. Bestenfalls sind sie dazu geeignet, auf Problematiken hinzuwiesen, die auch in Europa untersucht werden könnten und sollten. Gleichzeitig geben sie Anlass dazu, die Frage der Kausalität auch in der europäischen Forschung zu berücksichtigen. Sie veranschaulichen zudem – immer wieder – die Tatsache, dass verschiedene Sanktionen mehr oder minder austauschbar sind. Zudem hat insbesondere die experimentelle Forschung immer wieder darauf hingewiesen, dass auch wohlmeinend intendierte Interventionen verheerende Auswirkungen haben können. Letzteres trat bei randomisierten Studien zutage, weil sie im Vergleich zu weniger strikten Kontrollgruppenstudien konfundierende Variablen ausschließen sollen. Ein häufig diskutiertes Beispiel für solche dazwischentretenden Variablen, die auf das Ergebnis einwirken, das daher nicht (alleine) auf die evaluierte Intervention zurückgeführt werden kann, sind Variablen, die mit der Auswahl der Gruppenmitglieder zu tun haben, wenn etwa die stärker motivierten Personen sich für die Experimentalgruppe selbst gemeldet haben oder diejenigen, bei denen die Intervention aussichtsreicher war, von den Programmverantwortlichen für eine zu testende Innovation ausgewählt worden sind. Der Effekt des untersuchten Programmes wird dann im Ergebnis überschätzt. Während dies für streng kontrollierte Studien spricht, wurde jedoch oben bereits angesprochen, dass es auch Gründe gibt, die zur Vorsicht gegenüber randomisierten Designs anhalten. Die Auseinandersetzung mit experimenteller Forschung kann aber dafür sensibilisieren, vermeintlich plausible Kausalzusammmenhänge kritisch zu betrachten. Für die Kriminalpolitik bedeutet dies, das Prinzip der ultima ratio und das Verhältnismäßigkeitsprinzip weiterzuentwickeln und die Sanktionspraxis im Hinblick auf diese und auf Grundlage empirischer Forschungsergebnisse zu überprüfen. Die Anwendung von Sanktionen, deren höhere Effektivität gegenüber weniger eingriffsintensiven Sanktionen noch nicht einmal nachgewiesen wurde, ist konsequent abzulehnen. Auch wenn sich dies auf den ersten Blick bescheiden ausnehmen mag, würde es sich bei einer konsequenten Umsetzung als ein riesiger Schritt in Richtung zu einer sowohl auf fundierter Forschung als auch den Menschenrechten beruhenden Kriminalpolitik erweisen.

Berücksichtigt man die oben genannten Bedenken gegenüber naiven Vergleichen zwischen verschiedenen europäischen Rechtssystemen und -kulturen, wird auch deutlich, dass eine einzige randomisierte Studie aus der Schweiz – selbst ungeachtet der aufgeworfenen Fragen über deren Ergebnisse – niemals als eine ausreichende Basis für Rückschlüsse auf die Auswirkungen von Sanktionen in ganz Europa dienen kann. Vielmehr müssen die verschiedenen spezifischen rechtlichen und kulturellen Hintergründe des jeweiligen Landes berücksichtigt werden. Nichtsdestoweniger können die schweizerischen Ergebnisse als ein erster Indikator für die Tatsache betrachtet werden, dass es keine Verbesserung der gegenwärtigen Kriminalpolitik mit sich bringen würde, die Ableistung von gemeinnütziger Arbeit durch kurze Freiheitsstrafen zu ersetzen. Ein solches Fazit hätte allerdings sicherlich auch ohne eine experimentelle Studie gezogen werden können, wenn man das Gebot der Europäischen Grundsätze über die nicht im Gefängnis zu vollziehenden Strafen und Maßnahmen berücksichtigt, Freiheitsentzug durch ambulante Alternativen zu ersetzen. Dies andersherum zu tun, also gemeinnützige Arbeit durch Freiheitsentziehung zu ersetzen, hätte ohnehin offensichtlich einen Rückschritt bedeutet. Solange also gemeinnützige Arbeit von den Betroffenen nicht erwiesenermaßen als beschwerlicher denn kurzzeitiger Freiheitsentzug wahrgenommen wird, muss das Angebot gemeinnütziger Arbeit das Mittel der Wahl bleiben. Bestünden Zweifel im Hinblick auf die Wahrnehmung der Betroffenen – hierzu gibt die vorhandene Forschung jedoch keinen Anlass –, kann ein Wahlrecht der Betroffenen Klarheit schaffen.

Selbst wenn zudem sehr kurze Freiheitstrafen, wie sie in der schweizerischen Studie getestet wurden, zu Effekten führen, die (jenseits der statistischen Signifikanz) mit den Auswirkungen gemeinnütziger Arbeit in anderen Ländern vergleichbar sind, sagt dies selbstverständlich nichts über längere und eingriffsintensivere Haftstrafen aus. In diesem Zusammenhang erscheint es plausibel, anzunehmen, dass langfristige Haftstrafen größere Prisonisierungseffekte bewirken als kurze Freiheitsstrafen. Je länger der Freiheitsentzug andauert, desto wichtiger wird es also aus menschenrechtlicher Perspektive, über mögliche Alternativen nachzudenken. Die Autoren der Campbell-Review weisen diesbezüglich auf die Studie von Smith, Goggin und Gendreau hin, die die Korrelation zwischen der Länge der Inhaftierung und der Rückfälligkeit untersucht haben.[3] Deren Metaanalyse beinhaltete 117 Studien mit insgesamt 504 Korrelationen. Smith et al. kamen zu dem Schluss, dass die Wahrscheinlichkeit der Rückfälligkeit steigt, je länger die Haftstrafe ist. Sie untersuchten nicht nur die Relation von Rückfallquoten und Haftdauer, sondern auch den Zusammenhang zwischen der Rückfälligkeit und der Sanktionsform, d. h. der Verbüßung einer freiheitsentziehenden Strafe oder einer ambulanten Sanktion. Letzterer Vergleich ergab ungefähr gleiche Ergebnisse für die beiden Sanktionsarten, wobei die Rückfälligkeit nach Verbüßung einer Freiheitsstrafe – je nach der Gewichtung bestimmter Effektstärken – leicht höher war. Villettaz et al. kritisieren die Studie von Smith et al. dafür, vorher existierende Unterschiede zwischen den beiden Gruppen von Verurteilten, der zu freiheitsentziehenden Sanktionen Verurteilten einerseits und der zu ambulanten Sanktionen Verurteilten andererseits, nicht ausreichend berücksichtigt zu haben. Sie bezogen deshalb eine Großzahl der von Smith et al. angeführten Studien nicht mit in ihre Systematic Review mit ein. Diese Diskrepanz in den Herangehensweisen an eine Forschungsübersicht veranschaulicht sehr gut, dass es in der internationalen Forschungsgemeinschaft keineswegs einen einhelligen Konsens über die wichtigsten Kriterien für die Einbeziehung von Studien in eine Metaanalyse oder eine Review gibt. Der Betrachtungsweise der Campbell Collaboration, die experimentellen Forschungsdesigns Exklusivität beimisst, kann konzediert werden, dass randomisierte Designs das Kausalitätsproblem in besonders elaborierter Weise adressieren. Solange experimentelle Studien jedoch auf der Zuweisung von und durch Menschen beruhen, wird das Randomisierungsverfahren immer in gewissem Maße verzerrt bleiben und neben den erwünschten Vorteilen auch Nachteile mit sich bringen.

Mit anderen Worten, ebenso wie Sanktionen neben den intendierten Wirkungen auch nicht intendierte Konsequenzen haben, die die intendierten überlagern und ihre Wirkung aufheben oder in ihr Gegenteil verkehren können, gilt dies auch für experimentelle Forschungsdesigns. Quasi-experimentelle Forschungsdesigns von der Art natürlicher Experimente mögen demgegenüber zwar hinsichtlich des Verständnisses von Variablen, deren Einfluss noch unbekannt ist, weniger verlässlich erscheinen, sie haben aber den Vorteil, dass die Zuteilung zu den Gruppen nicht aktiv durch die Forschung erfolgt, so dass bei dieser auch keine Fehler gemacht werden können. Stattdessen werden bereits bestehende Gruppen untersucht. Der Verzicht auf eine reale und aktive Zuweisung von Sanktionen entsprechend den Kriterien der Forschung bei Zugriff auf ohnehin vorhandene Unterschiede löst zudem die ethischen und rechtlichen Probleme mit Blick auf den Gleichheitsgrundsatz. Während Smith et al. eine große Anzahl an Studien in ihre Review miteinbezogen und damit den Aspekt der Kausalität zu einem gewissen Maße (in problematischer Weise) vernachlässigten, verzichteten Vallettaz et al. in ihrer Metaanalyse auf Bandbreite und Vielfalt von Studien, indem sie lediglich fünf der Einbeziehung für würdig erachteten. Demzufolge sind beide Reviews – aus unterschiedlichen Gründen – für die wichtige Frage des Vergleichs von freiheitsentziehenden und ambulanten Sanktionen von begrenzter Reichweite. Beide Reviews kommen jedoch zu dem eindeutigen Ergebnis, dass ambulante Sanktionen bezüglich der Rückfälligkeit der Betroffenen freiheitsentziehenden Maßnahmen zumindest nicht unterlegen sind. Dieser Umstand mag als Basis für die Beantwortung einer weiteren wichtigen Frage herangezogen werden, nämlich der nach der Sanktion mit der nach Ansicht der Betroffenen geringsten Eingriffsintensität. Die angesichts der unzureichenden Forschungsergebnisse fortbestehende Unsicherheit darf dabei nicht als Vorwand dafür genommen werden, die Tatsache herunterzuspielen, dass ambulante Sanktionen nach dem derzeitigen Erkenntnisstand jedenfalls nicht weniger wirksam sind als freiheitsentziehende Maßnahmen, jedoch mit höchster Wahrscheinlichkeit von den Betroffenen als weniger belastend wahrgenommen werden. Smith et al. führen hierzu treffend aus, dass Anhänger einer harten Kriminalpolitik an der Qualität der Studien herumkritisieren mögen, die die das Gefängnis diskreditieren, tatsächlich hätten sie jedoch die Anwendung der von ihnen bevorzugten freiheitsentziehenden Sanktionen auf weitaus weniger gesicherte Erkenntnisse, Argumentationen über den gesunden Menschenverstand und unsystematische Forschungsübersichten (narrative reviews) gestützt. Smith et al. weisen zudem darauf hin, dass es in der Literatur zur Verhaltensmodifikation absolut keine Grundlage für die Annahme gibt, dass strafrechtliche Sanktionen mittels Dro-hung, Abschreckung (oftmals die zugrunde liegende These für die Forderung nach Freiheitsstrafen) oder anderweitig die Rückfälligkeit beeinflussen könnten. Dieses Argument deutet wiederum auf die Notwendigkeit von (quasi-)experimentellen Studien hin, die auch die Nichtintervention als Kontrollgruppe in ihre Vergleiche mit aufnehmen. Träfe die sich oftmals aus dem Vergleich verschiedener Sanktionen ergebende Ähnlichkeit von Auswirkungen auch auf den Fall der Nicht-Intervention zu, dann müsste der bestehende Ansatz des Sanktionssystems umso radikaler hinterfragt werden. Dass dies ein Ausgang von entsprechenden Studien sein könnte, ist weniger unwahrscheinlich, als man denken mag. Dies kann etwa an der systematischen Review von Petrosino et al. veranschaulicht werden.[4] Die Review umfasst 29 experimentelle Studien mit 7.304 Jugendlichen und kommt zu dem Schluss, dass das förmliche Verfahren vor dem Jugendstrafgericht keine kriminalitätsreduzierende Wirkung zeigte. Vielmehr deuteten fast alle Ergebnisse der Studien auf eine negative Wirkung hinsichtlich der Prävalenz, Inzidenz und Schwere der Kriminalität sowie der von den Betroffenen selbst berichteten Delinquenz hin. Studien, die sich mit dem Vergleich zwischen förmlichem Justizverfahren und Diversionsprogrammen auseinandersetzten, kamen zu dem Ergebnis, dass die Auswirkungen des traditionellen Strafverfahrens im Vergleich zu Diversionsprogrammen wesentlich negativer waren als im Vergleich zu einer Diversionsentscheidung ohne jegliche Intervention. Studien, die ein förmliches Strafgerichtsverfahren mit der Nicht-Intervention verglichen kamen zwar zu Ergebnissen mit einer ähnlichen Tendenz zugunsten der Nicht-Intervention, jedoch war die Diskrepanz zwischen der (positiveren) Wirkung eines Diversionsprogramms gegenüber der Justiz größer als zwischen Nicht-Intervention und Justiz. Die Non-Intervention war also immer noch effektiver als die reguläre Herangehensweise der Jugendstrafjustiz. Dies sollte als Beweis für die Notwendigkeit genügen, die Auswirkungen von NichtIntervention gegenüber den Effekten von Sanktionen zu untersuchen, wann immer dies möglich ist, da die Nicht-Intervention oder das Unterbreiten von Angeboten statt zwangsweise auferlegter Maßnahmen aus der menschenrechtlichen Perspektive immer zu präferieren ist und bei vergleichbaren Resultaten den letztgenannten Strategien immer Vorrang gewährt werden muss.

  • [1] Vgl. Graebsch 2000, S. 271-282
  • [2] Zum Ganzen Graebsch 2009
  • [3] 2002
  • [4] Petrosino et al. 2010
 
< Zurück   INHALT   Weiter >