Kategoriale Indikatoren

Weil kategoriale Variablen in politikwissenschaftlichen Anwendungen auch außerhalb des Bereichs der Strukturgleichungsmodelle so häufig anzutreffen sind, sind einige Verfahren, mit denen sie sich analysieren lassen, inzwischen sehr weit verbreitet. Dazu zählen in erster Linie das binäre, das ordinale und das multinomiale logistische Modell (siehe Long und Freese 2006 für die Implementation in Stata).

Eine Möglichkeit, diese Modelle zu rekonstruieren, besteht im Rückgriff auf das mittlerweile vertraute Konzept der latenten Variablen. Demnach hat ein Respondent eine bestimmte latente Bereitschaft, etwa die Frage, ob er sich an der nächsten Bundestagswahl beteiligen werde, mit „ja“ zu beantworten [1]. Beobachtet wird in der Interviewsituation aber nicht die tatsächliche Bereitschaft, sondern nur die binäre Variable „Antwort = ‚ja'“ (1) bzw. „Antwort = ‚nein'“ (0). Mit größerer Zustimmungsbereitschaft steigt auch die Wahrscheinlichkeit einer positiven Antwort. Allerdings ist dieser Zusammenhang nicht linear, sondern S-förmig. So werden selbst unter den Befragten mit einer niedrigen Zustimmungsbereitschaft einige aus Unachtsamkeit positiv antworten. Befragte mit einer mittleren Zustimmungsbereitschaft sind ambivalent und werden sich mehr oder minder zufällig für einen Antwort entscheiden. Und selbst für Befragte mit einer sehr hohen Zustimmungsbereitschaft wird sich die Zustimmungsrate an den Wert von 100 % annähern, diesen aber nicht ganz erreichen, weil es auch hier immer wieder (wenn auch sehr selten) zufällig zu negativen Antworten kommen wird.

Auf der Ebene der latenten Variablen lässt sich dieser Mechanismus durch eine symmetrische und zufällige Streuung der Zustimmungsbereitschaft um einen zentralen, befragtenspezifischen Wert modellieren. Je nachdem, wo dieser zentrale Wert liegt, wird mit mehr oder minder großer Wahrscheinlichkeit ein Schwellenwert überschritten, oberhalb dessen die Frage nach der Wahlbeteiligung mit „ja“ beantwortet wird. Nimmt man für die Form der zufälligen Streuung eine standardlogistische Verteilung an, so ergibt sich daraus das binäre logistische Modell.

Ein ordinales logistisches Modell beinhaltet dieselbe Verteilungsannahme, benötigt aber zusätzliche Schwellenwerte, die aus den Daten geschätzt werden müssen. Die Zahl der Schwellenwerte entspricht dabei der Zahl der Antwortmöglichkeiten minus 1. So lässt sich beispielsweise das Format der Wahlbeteiligungsfrage differenzierter gestalten, indem drei Antwortvorgaben gemacht werden: „werde sicher nicht wählen“ 1), „bin unentschieden“ 2) und „werde sicher wählen“ 3). Ein Befragter mit geringer Zustimmungstendenz wird sich mit großer Wahrscheinlichkeit in Kategorie 1) einordnen. Allerdings besteht auch eine gewisse Wahrscheinlichkeit, dass er aufgrund zufälliger Einflüsse den unteren Schwellenwert überschreitet und sich deshalb für die mittlere Vorgabe entscheidet. Die Wahrscheinlichkeit, den oberen Schwellenwert zu überschreiten, ist hingegen extrem gering.

Anders stellt sich die Situation für einen Befragten mit mittlerer Tendenz dar. Zwar ist hier am häufigsten die Antwort „bin unentschieden“ zu erwarten. Die Wahrscheinlichkeit, dass der obere oder der untere Schwellenwert überschritten und dementsprechend eine der beiden „sicheren“ Antworten gegeben wird, ist aber relativ hoch.

Die Herleitung der logistischen Regression über latente Variablen bietet ein realistisches und flexibles Modell für das Antwortverhalten in standardisierten Interviews und allgemein für die Messung kategorialer politikwissenschaftlicher Variablen. Zudem können logistische Modelle, das bekannte lineare Regressionsmodell und eine ganze Reihe weiterer Modelle für spezielle Variablentypen in den größeren Zusammenhang des GENERALISIERTEN LINEAREN MODELLS (GLM) eingeordnet werden. Durch den technischen und wissenschaftlichen Fortschritt der letzten Jahre wurde es möglich, dieses generalisierte Modell in die Behandlung von Strukturgleichungsmodellen zu integrieren und so zu einem generalisierten Strukturgleichungsmodell zu gelangen, das auch Mehr-Ebenen-Strukturen in den Daten berücksichtigen kann.

Einer der Pioniere auf diesem Gebiet ist Bengt Muthén, der sich bereits Ende der 1970er Jahre mit der Integration von kategorialen Variablen in Strukturgleichungsmodelle beschäftigt hat (siehe Muthèn 1979 mit Verweisen auf ältere Literatur). Das von ihm entwickelte „General Latent Variable“ Modell (Muthèn 2002), auf dem Mplus basiert, geht nochmals über das GLM hinaus. Indem es kategoriale latente Variablen zulässt, stellt es eine Verbindung zwischen den klassischen Strukturgleichungsmodellen und einer Vielzahl weiterer Modelle aus anderen Teilgebieten der (angewandten) Statistik her. Bis heute ist Mplus das flexibelste und mächtigste Programm zur Schätzung von Strukturgleichungsmodellen.

Mit der Version 13 hat sich Stata dem Leistungsumfang von Mplus aber zumindest angenähert. Als Indikatoren können nun dichotome, polytome und ordinalskalierte Variablen sowie Zählvariablen und zensierte Variablen verwendet werden.

Das von Jöreskog und Sörbom entwickelte LISREL implementiert traditionell einen anderen Ansatz. Statt die Verteilung der kategorialen Variablen direkt zu modellieren, errechnet das vorgeschaltete Programm PRELIS beim Einlesen von Daten, die es aufgrund der geringen Zahl unterschiedlicher Werte als kategorial interpretiert, statt der gewohnten Kovarianzen bzw. Pearsonschen Korrelationen sogenannte tetrachorische (für dichotome Variablen) bzw. polychorische (für ordinalskalierte Variablen) Korrelationen (Jöreskog 1990, 1994). Diesen Korrelationen liegt die Annahme zugrunde, dass sich hinter den tatsächlich gemessenen Variablen normalverteilte Variablen verbergen. Polyund tetrachorische Korrelationen sind eine Schätzung für die Pearsonsche Korrelation, die sich ergeben würde, wenn

Abb. 4.1 Zwei Unterdimensionen politischer Wirksamkeit (efficacy)

diese Variablen direkt beobachtet werden könnten. Polytome Indikatoren können mit dieser Methode generell nicht berücksichtigt werden, da hier das Konzept der Korrelation, d. h. eines gerichteten Zusammenhangs nicht sinnvoll anwendbar ist.

Im Fall der dichotomen bzw. ordinalskalierten Variablen unterscheidet sich die Berechnung tetraund polychorischer Variablen zunächst kaum von der Herleitung des logistischen Modells über latente Variablen. Beide Ansätze gehen im Grunde davon aus, dass zwischen den latenten Faktorvariablen und den manifesten Antworten gewissermaßen eine zweite Schicht latenter Variablen, nämlich der Antworttendenzen liegt. Tatsächlich ist die Annahme einer latenten Normalverteilung aber problematisch, wenn die beobachteten Variablen sehr schief verteilt sind. In diesen (häufigen) Fällen ist der Rückgriff auf das logistische Modell mit seinen flexiblen Schwellenwerten sinnvoll, weil hier nur eine symmetrische Verteilung der zufälligen Einflüsse, nicht aber eine symmetrische Verteilung der zugrundeliegenden Werte angenommen wird.

Die aktuelle Version 9.5 von LISREL bietet ebenfalls die Möglichkeit, Messmodelle für ordinalskalierte Variablen mit einem Logitoder Probit-Link zu spezifizieren, erreicht aber noch nicht die Flexibilität von Mplus oder Stata. Polytome Variablen können nach wie vor nicht berücksichtigt werden.

  • [1] Diese Bereitschaft muss nicht der tatsächlichen Wahlbeteiligungsabsicht entsprechen, sondern kann ihrerseits eine Funktion der tatsächlichen Verhaltensabsicht und anderer Einflüsse wie z. B. der sozialen Erwünschtheit sein
 
< Zurück   INHALT   Weiter >