< Zurück   INHALT   Weiter >

2.3 Messfehler und Faktorenanalyse

Wie in der Einleitung dargelegt, sind viele, wenn nicht sogar die meisten politikwissenschaftlich relevanten Variablen nicht direkt beobachtbar, sondern müssen über Indikatoren operationalisiert werden, die in der Regel mit einem Messfehler behaftet sind, der als zufällig betrachtet wird. In einigen Fällen (Einstellungsvariablen wie „Fremdenfeindlichkeit“, programmatische Position einer Partei) versteht

Abb. 2.4 Probabilistisches Modell der Regierungsstabilität

sich dies von selbst, während das Problem in anderen Konstellationen weniger offensichtlich ist, wie ein Beispiel aus der Vergleichenden Regierungslehre zeigt (Tab. 2.2).

Aufgrund verschiedener institutioneller und sonstiger Besonderheiten (u. a. Wahlrecht und Zersplitterung des Parteiensystems, starke zweite Parlamentskammer, schwache Stellung des Ministerpräsidenten) galt Italien über lange Jahre als Musterbeispiel für fehlende Regierungsstabilität. Zu Beginn der 1990er Jahre eskalierte die Dauerkrise, und es kam zu einer Reihe wichtiger institutioneller Reformen. Das Ende der letzten Regierung Andreotti im Sommer 1992 wird deshalb oft als Beginn der „zweiten italienischen Republik“ betrachtet.

Tatsächlich hat sich seit Beginn der „zweiten Republik“ die in Wochen gemessene Amtsdauer italienischer Kabinette für den Zeitraum bis zum Frühjahr 2008 mehr als verdoppelt, was ein starker Hinweis darauf ist, dass die Regierungsstabilität unter den neuen institutionellen Regeln zugenommen hat. Dies bedeutet aber keineswegs, dass das (noch näher zu definierende) politikwissenschaftliche Konzept „Regierungsstabilität“ und die direkt beobachtbare Variable „Amtsdauer in Wochen“ identisch sind. Selbst in dem eher unplausiblen Fall, dass die Amtsdauer einer Regierung einzig und allein von ihrer Stabilität abhängen sollte, besteht konzeptionell und empirisch ein Unterschied zwischen Stabilität und Amtsdauer. Denn wie viele andere politikwissenschaftliche Variablen ist die Regierungsstabilität kein deterministisches Konzept: sie entspricht vielmehr der Wahrscheinlichkeit, dass es zu einer politischen Krise kommt, die zum Rücktritt der Regierung führt.

In einem Gedankenexperiment kann man sich vorstellen, dass in einem System mit extrem niedriger Regierungsstabilität die Regierungschefin am Ende der wöchentlichen Kabinettssitzung einen Würfel wirft. Fällt eine 6, tritt die Regierung zurück. Die Wahrscheinlichkeit, dass die Regierung in einer beliebigen Woche scheitert, ist somit über eine Reihe von sukzessiven Kabinetten hinweg konstant, nämlich 1 . Trotzdem wird die jeweilige Amtsdauer dieser Regierungen eine erhebliche Streuung aufweisen, wie in Abb. 2.4 leicht zu erkennen ist: 1

Tab. 2.3 Probabilistische Entscheidung über die Wahlbeteiligung

Person

Faktoren

Wahrscheinlichkeit

Wahlteilnahme

Bürgerin A

Alleinstehend, weiblich, älter, niedrige Bildung, keine Wahlnorm, Regen

0.3

Ja

Bürger B

Verheiratet, männlich, mittleres Alter, hohe Bildung, Wahlnorm, kein Regen

0.9

Nein

Regierungen treten bereits nach einer Woche zurück, 5 × 1 = 5≈ 14 % der

Kabinette scheiden nach zwei Wochen aus dem Amt, 5 × 5 × 1 = 25≈ 12 %

scheitern in der dritten Amtswoche, und so fort. Geht man davon aus, dass die Verfassung die Amtsdauer einer Regierung auf 48 Monate begrenzt, so errechnet sich über alle denkbaren Konstellationen hinweg eine durchschnittliche Amtsdauer von 5.99 Wochen und eine Standardabweichung von 5.44 Wochen. Obwohl die Amtsdauer der Regierung in diesem Beispiel ausschließlich von der (konstanten) Wahrscheinlichkeit des Scheiterns,

d. h. der Stabilität der Regierung abhängt, lässt sich die eigentlich relevante Variable Stabilität nicht direkt beobachten, und ihre Messung über die Amtsdauer wird in erheblichem Umfang von zufälligen Einflüssen beeinflusst.

Sehr ähnliche Probleme stellen sich in der Wahlforschung. Nach den gängigen Theorien des Wahlverhaltens wird beispielsweise die Entscheidung, sich der Stimme gänzlich zu enthalten, von einer ganzen Reihe langfristiger (formale Bildung, internalisierte Wahlnorm etc.), mittelfristiger (politisches Interesse, soziale Integration etc.) und kurzfristiger (Wetter, Gespräche mit anderen Bürgern etc.) Faktoren beeinflusst, aber nicht vollständig festgelegt. Letzten Endes ist es stets der einzelnen Bürger, der sich für eine Handlungsalternative entscheidet, auch wenn aufgrund der äußeren Umstände die eine Handlungsoption sehr viel wahrscheinlicher ist als die andere.

Für Bürgerin A im Beispiel in Tab. 2.3 mag die Wahrscheinlichkeit der Wahlbeteiligung bei 0.3 liegen, während die Wahlwahrscheinlichkeit für Bürger B 0.9 beträgt. Dennoch wird sich A (und andere Bürgerinnen mit identischen Eigenschaften) in drei von zehn Fällen trotz vergleichsweise widriger Umstände an der Wahl beteiligen, während sich B (und andere Bürger mit identischen Eigenschaften) in einem von zehn Fällen der Stimme enthält. Der Rückschluss vom prinzipiell beobachtbaren Wahlverhalten auf die zugrundeliegende Verhaltensdisposition (Wahlwahrscheinlichkeit) ist deshalb ebenso problematisch wie der Schluss von der Amtsdauer einer Regierung auf ihre Stabilität.

Die Wahrscheinlichkeiten in den beiden Beispielen werden über diskrete Variablen (eine Zählvariable im ersten Fall, eine binäre oder dichotome Variable im zweiten Fall) gemessen. Solche Indikatoren verursachen spezifische Probleme. Zur Modellierung der Wahrscheinlichkeit, dass ein bestimmtes beobachtbares Ereignis (z. B. der Rücktritt einer Regierung, der Ausbruch eines Krieges, das Ende einer politischen Karriere) innerhalb eines bestimmten Zeitraumes eintritt, existiert eine eigene Klasse statistischer Modelle (Box-Steffensmeier und Jones 2004). In jüngster Zeit wurden die Möglichkeiten des Programms Mplus dahingehend erweitert, dass auch Zählvariablen als Indikatoren verwendet werden können, so dass Ereignisdatenund Strukturgleichungsmodelle verschmolzen werden können (Typ III in Tab. 2.4). Hierbei handelt es sich jedoch um methodisches Neuland, das man nur betreten sollte, wenn eine solche Modellierung zwingend erforderlich ist, da bislang kaum Erfahrungswerte für solche Modelle vorliegen.

Bis vor kurzem galt dies sinngemäß auch für die Wahrscheinlichkeit, dass ein politischer Akteur eine von mehreren Handlungsoder Antwortalternativen [1] wählt (Typ II in Tab. 2.4). In den letzten Jahren wurden aber verschiedene Verfahren entwickelt, die es ermöglichen, diesen Typ von latenten Variablen ohne allzu große Probleme auch im Kontext von Strukturgleichungsmodellen zu modellieren. Der in der Forschungspraxis bei weitem häufigste Fall ist jedoch, dass eine kontinuierliche latente Variable mit Hilfe eines oder mehrerer fehlerbehafteter Indikatoren gemessen werden soll, die ebenfalls als kontinuierlich betrachtet werden (Typ I in Tab. 2.4). Ein Beispiel für diese Konstellation stammt aus der empirischen Demokratieforschung. Theorien der „ethnischen Konkurrenz“ besagen, dass hohe Zuwanderungsraten in Zeiten hoher Arbeitslosigkeit zu einer Verschärfung der Konkurrenz im unteren Lohnsektor führen (für einen Überblick siehe Arzheimer 2008a). In Folge dessen steigt die Nachfrage nach politischen Konzepten für eine Begrenzung der Zuwanderung. In einem zweiten Schritt werden dann die zunächst primär ökonomischen Konflikte von den politischen Akteuren und der einheimischen Bevölkerung im Sinne einer (zusätzlichen) kulturellen Bedrohung umgedeutet, um über den Kreis der unmittelbar Betroffenen hinaus Unterstützer

zu mobilisieren und den eigenen Forderungen Legitimität zu verleihen. Dies hat drittens zur Folge, dass die Wahlbereitschaft zugunsten von Parteien der Extremen Rechten wächst (vgl. Abb. 1.1, Seite 2).

Wenn diese Überlegungen korrekt sind, müsste zwischen Gefühlen der wirtschaftlichen Bedrohung und der Wahrnehmung einer kulturellen Überfremdung ein enger Zusammenhang bestehen. Mit Hilfe des European Social Survey 2002

Tab. 2.4 Einige typische Konstellationen von latenten Variablen, Indikatoren und Modellierungsmöglichkeiten

Typ

Latente Variable

Indikator

Modelle

I

Kontinuierliche Eigenschaft (z. B. Fremdenfeindlichkeit)

Kontinuierlich/(quasi-) metrisch

(z. B. Rankingskala)

Standardmodell („LISREL“)

II

Kontinuierliche Tendenz/Wahrscheinlichkeit eines Verhaltens

(z. B. Wahlbeteiligung)

Diskret

Standardmodell („LISREL“) + spezielle Korrelationen oder allgemeines Modell („MPlus“)

III

Kontinuierliche Wahrscheinlichkeit eines Ereignisses über einen Zeitraum (z. B. Rücktritt der Regierung)

Diskrete Zählvariable (z. B. Dauer in Wochen bis zum Ereignis)

Allgemeines Modell („MPlus“)

IV

Diskrete Eigenschaft

(z. B. Parteiidentifizierer vs. Nicht-Identifizierer)

Kontinuierlich oder diskret

Latent Class Analysis oder allgemeines Modell („MPlus“)

Weitere Konstellationen ergeben sich u. a. durch die Erweiterung von Typ I oder Typ IV um die Zeitdimension (Latent Transition Analysis für diskrete, Latent Growth Analysis für kontinuierliche latente Variablen)

lässt sich diese Hypothese für Deutschland sehr einfach testen (vgl. Abb. 2.5) [2]. Auf beiden Skalen stehen also hohe Werte für positive, niedrige Werte hingegen für negative Einstellungen gegenüber Zuwanderern. Nach den Theorien der ethnischen Konkurrenz wäre deshalb eine hohe positive Korrelation zwischen beiden Variablen zu erwarten. Tatsächlich liegt die Korrelation jedoch nur bei r = 0.29.

Aus der Perspektive der klassischen Testund Messtheorie [3] (Lord und Novick 1968, siehe Gruijter und Kamp 2008 für eine Überblicksdarstellung) war dieser etwas enttäuschende Befund jedoch zu erwarten, da sozialwissenschaftliche Messungen stets mit einem zufälligen Messfehler behaftet, also nicht vollständig „reliabel“ sind. Vielmehr setzt sich jeder einzelne Messwert aus einem „wahren Wert“ (der zu messenden latenten Variablen) sowie aus weiteren Einflüssen zusammen, die als zufällig betrachtet werden können. Dieses konzeptuelle Modell

Fragetexte: (1) „Im Allgemeinen sinken die durchschnittlichen Löhne und Gehälter durch Zuwanderer, die nach Deutschland kommen“ (1=„stimme stark zu“, 5=„lehne stark ab“; imwgdwn), (2) „würdenSie sagen, dass das kulturelle Lebenin Deutschland im Allgemeinen durch Zuwanderer untergraben oder bereichert wird?“ (0=„kulturelles Leben wird untergraben“, 10=„kulturelles Leben wird bereichert“; imueclt). Quelle: European Social Survey 2002.

Abb. 2.5 Reliabilität einer politikwissenschaftlichen Messung

der sozialwissenschaftlichen Messung entspricht vollständig dem in Abschn. 2.2.3 vorgestellten linearen Regressionsmodell:

„Löhne sinken“ = Konstante (2.32)

+ β × Wahrnehmung Konkurrenz

+ zufällige Einflüsse

y = β0

+ β1x1

+ E

Dementsprechend kann die Varianz der Indikator-Variable wiederum in einen systematischen Teil, d. h. den Effekt der zu messenden latenten Variablen einerseits und einen zufälligen Teil, d. h. den Messfehler zerlegt werden. Je höher der Anteil der systematischen Effekte (R2), desto zuverlässiger ist das Messinstrument. R2 ist deshalb in diesem Zusammenhang ein Maß für die Reliabilität eines Indikators. Dabei ist allerdings zu beachten, dass die Konstante und β in der Forschungspraxis in dieser Konstellation nicht aus den Daten geschätzt werden können, da die latente Variable eben nicht direkt beobachtet werden kann. Es handelt sich also zunächst nur um ein nützliches Gedankenexperiment.

Je höher nun der Anteil zufälliger Messfehler an der Varianz, desto stärker unterschätzt die Korrelation zwischen den Indikatoren die (nicht direkt beobachtbare) Korrelation zwischen den latenten Variablen, da es durch die zufällige Variation der Messwerte zu einer „Verdünnung“ (englisch: „attenuation“) der beobachteten Korrelation kommt. Wenn die Reliabilität der Messinstrumente bekannt ist bzw. in ihrer Größenordnung abgeschätzt werden kann, lässt sich aus der beobachteten Korrelation sehr leicht die Korrelation zwischen den latenten Variablen errechnen. Aus der Umfrageforschung ist bekannt, dass die Beantwortung von sehr allgemein formulierten Aussagen wie denen aus Beispiel Abb. 2.5 stark vom Befragungskontext (z. B. unmittelbar vorangegangene positive Erfahrungen mit Migranten, Zeitungsbericht über Anstieg der Zuwanderung bei steigender Arbeitslosigkeit) beeinflusst wird. Hinzu kommen erfahrungsgemäß Verständnisfehler auf Seiten der Befragten, Fehler bei der Kodierung der Antworten und Fehler bei der Übertragung der Daten. Realistischerweise wird die Reliabilität beider Indikatoren den Wert von 0.5 kaum übersteigen. Wenn diese Schätzung korrekt ist, beträgt die Korrelation zwischen den beiden latenten Variablen somit:

Aufgrund der Messfehler wird tatsächliche Korrelation also um den Faktor 2 unterschätzt. Je unzuverlässiger die Messungen sind, desto stärker ist dieser Effekt. Dies ist der wichtigste Befund der klassischen Testund Messtheorie.

Im Rechenbeispiel stützt sich die Korrektur der Korrelation allerdings letztlich auf Vermutungen und Erfahrungswerte. Stehen hingegen für jede der latenten Variablen mehrere Indikatoren zur Verfügung, so können deren Reliabilitäten und die wahre Korrelation zwischen den latenten Variablen direkt aus den Daten geschätzt werden. Dies geschieht unter Rückgriff auf das Verfahren der Faktorenanalyse, das in der Einleitung bereits kurz vorgestellt wurde.

Bei der klassischen explorativen Faktorenanalyse geht es darum, eine kleine Zahl von latenten Variablen (=„Faktoren“) zu finden, die hinter einer empirisch beobachteten Varianz-Kovarianzmatrix stehen könnten. Ein typisches Beispiel stammt aus der Psychologie. Hier wurden schon früh Dutzende von verschiedenen Tests eingesetzt, um das Phänomen „Intelligenz“ messbar zu machen. Die Ergebnisse dieser Tests korrelieren keineswegs perfekt miteinander, bilden aber erkennbare Gruppen. Durch Faktorenanalysen lassen sich nun eine Reihe von Dimensionen (Rechenfähigkeit, verbales Verständnis, Gedächtnisleistung, räumliches Vorstellungsvermögen etc.) identifizieren, die diese Gruppenbildung erklären können.

Erfahrungsgemäß sind diese Zuordnungen aber in der Regel nicht völlig eindeutig. In der Terminologie der Faktorenanalyse spricht man davon, dass ein Test oder Item möglichst nur auf einen Faktor „laden“ und möglichst niedrige „Fremd-“ oder „Fehlladungen“ aufweisen sollte. Ziel der klassischen Faktorenanalyse ist es

Abb. 2.6 Ein komplexeres Messmodell

deshalb, Zahl und Struktur der Faktoren so zu wählen, dass ein möglichst leicht zu interpretierendes Muster entsteht [4].

Bei einer KONFIRMATORISCHEN FAKTORENANALYSE (CFA) werden die Zahl der Faktoren und deren Beziehungen zu den Items von der Forscherin vorgegeben und die Vereinbarkeit dieser Struktur mit den Daten getestet. Auf diese Weise lässt sich Abb. 2.5 zu einem komplexen und empirisch überprüfbaren Messmodell erweitern (siehe Abb. 2.6). Beispielsweise lässt sich testen, ob der Indikator k3 in nennenswertem Umfang von der latenten Variablen „Xenophobie“ beeinflusst wird (gestrichelter Pfeil), obwohl dies eigentlich nicht der Fall sein sollte.

Das Verfahren der CFA ist eine wesentliche Erweiterung des linearen Regressionsmodells: Im Regressionsmodell wird eine abhängige Variable (der Indikator) von einer oder mehreren unabhängigen Variablen beeinflusst, die aber ihrerseits direkt beobachtbar sein müssen. Im faktoranalytischen Modell hingegen sind latente unabhängige Variablen zulässig. Zudem kann ein und dieselbe unabhängige Variable mehrere Indikatoren zugleich beeinflussen. Mit Hilfe der CFA lassen sich zentrale Konzepte der empirischen Sozialforschung – Operationalisierung mit Hilfe multipler Indikatoren, Reliabilität und Validität – mathematisch abbilden. Zugleich bildet die CFA einen wichtigen Baustein des allgemeinen Strukturgleichungsmodells.

  • [1] Diese Alternativen können eine Nominaloder eine Ordinalskala bilden
  • [2] In Abschn. 3.2 wird ein etwas komplexeres Beispiel mit zusätzlichen bzw. alternativen Variablen eingeführt.
  • [3] Gemeint sind hier psychologische Tests, z. B. Intelligenzund Einstellungstests
  • [4] „Exploratory Factor Analysis is what the data get up to when theory takes a vacation“ (Anonymous).
 
< Zurück   INHALT   Weiter >