Kovarianz, Korrelation, Regression
Die Kovarianz: Maß für Zusammenhänge zwischen metrischen Variablen:
Im Beispiel in Tab. 2.1 (Seite 15) liegt der Durchschnittswert der Variable Religiosität bei 5.5 Skalenpunkten; der Mittelwert des Rassismus-Indikators beträgt 5 Skalenpunkte. In beiden Fällen sind die Befragten heterogen, d. h. ihre individuellen Messwerte streuen um den Mittelwert. Ein gängiges (wenn auch nicht sehr anschauliches) Maß für diese Streuung ist die VARIANZ (s2, vgl. für das folgende Gehring und Weins 2009, Kap. 6.2.2 und 7.4). Zur Berechnung der Varianz wird die Differenz eines Messwertes vom Mittelwert quadriert. Anschließend wird die
Abb. 2.1 Berechnung des Abweichungsproduktes für Befragte 1 und 2
Summe dieser quadrierten Abweichungen durch die Zahl der Fälle (n) geteilt [1]. Ein alternatives Maß für die Streuung ist die STANDARDABWEICHUNG s, d. h. die Quadratwurzel der Varianz [2].
Strukturgleichungsmodelle modellieren aber nicht nur die Streuung einer einzelnen Variablen, sondern auch Zusammenhänge zwischen Variablen. Die Stärke und Richtung dieser Zusammenhänge wird durch Kovarianzen beschrieben, die auf dem Konzept der gemeinsamen Abweichung zweier Variablen von ihren jeweiligen Mittelwerten basieren. Zur Berechnung der Kovarianz werden diese gemeinsamen Abweichungen miteinander multipliziert, um das Abweichungsprodukt zu erhalten.
Abbildung 2.1 illustriert die Bedeutung des Abweichungsproduktes: Der Befragte Nr. 1 weist sowohl auf dem Religiositätsals auch auf dem Rassismus-Item einen Wert von 0 auf. Daraus ergibt sich ein großes und positives Abweichungsprodukt von 5 × 5.5 = 27.5, was der unteren schraffierten Fläche entspricht. Befragter Nr. 2 hingegen liegt bei beiden Indikatoren leicht (1.5 bzw. 1 Punkt) über dem jeweiligen Mittelwert, woraus ein kleineres, aber ebenfalls positives Abweichungsprodukt von 1.5 resultiert. Teilt man die Summe der Abweichungsprodukte durch die Zahl der Fälle, so erhält man die Kovarianz als (wiederum wenig anschauliches) Maß für die Richtung und Stärke des Zusammenhangs. Negative Kovarianzen signalisieren negative Zusammenhänge, eine Kovarianz von 0 hingegen bedeutet, dass kein Zusammenhang zwischen beiden Variablen besteht. Die Berechnung von Kovarianz und Varianz ist äquivalent: Im ersten Fall werden zwei Variablen miteinander multipliziert, im zweiten Fall wird eine Variable quadriert, also mit sich selbst multipliziert.
Auch für die beiden übrigen Befragten müssen die Abweichungsprodukte positiv sein, da sie jeweils bei beiden Variablen positiv oder negativ vom Mittelwert abweichen. Damit ist die Kovarianz beider Variablen insgesamt positiv: (27.5 + 1.5 + 22.5 + 0.5)/4 = 13. Zumindest in diesen (konstruierten Daten) besteht also ein positiver Zusammenhang zwischen Religiosität und Rassismus.
Mit Hilfe der in Abschn. 2.1 eingeführten matrixalgebraischen Methoden lassen sich beide Maßzahlen sehr effizient bestimmen. Zunächst wird aus der Rohdatenmatrix D eine Submatrix mit den beiden relevanten Variablen extrahiert. Von dieser Submatrix zieht man dann eine Hilfsmatrix ab, die in jeder Spalte den Mittelwert der entsprechenden Variablen enthält. Auf diese Weise enthält man eine Matrix Z, in die für jeden Befragten die Abweichungen vom Mittelwert eingetragen sind, die für die Berechnung von Varianzen und Kovarianzen benötigt werden [3].
Aus dieser transformierten Datenmatrix Z kann man nun in drei Schritten die Varianz-Kovarianzmatrix S generieren. Zunächst wird Z transponiert und diese Matrix mit Z postmultipliziert. Auf diese Weise erhält man eine neue Matrix mit vier Elementen. Bei diesen handelt es sich um die Summe der quadrierten Abweichungen vom Mittelwert der Religionsvariablen (erstes Element der Hauptdiagonalen), die Summe der quadrierten Abweichungen vom Mittelwert der Rassismusvariablen (zweites Element der Hauptdiagonalen) sowie um die Summe der Abweichungsprodukte beider Variablen (zweites Element der ersten Zeile und erstes Element der zweiten Zeile).
Gleichung (2.18) zeigt, warum dies der Fall ist: Wenn entsprechend der Regeln für die Matrixmultiplikation die erste Zeile von Z× und die erste Spalte von Z
von links nach rechts bzw. von oben nach unten abgearbeitet wird, wird jede Abweichung für die Variable Religiosität mit sich selbst multipliziert, also quadriert. Das erste Element der Ergebnismatrix enthält deshalb die Summe der quadrierten Abweichungen für diese Variable. Für das zweite Element in der ersten Zeile der Ergebnismatrix werden die Abweichungen vom Mittelwert der Religionsvariablen mit den Abweichungen vom Mittelwert des Rassismus-Items multipliziert und aufsummiert, so dass die Summe der Abweichungsprodukte gebildet wird. Dasselbe geschieht auch in der ersten Zelle der zweiten Zeile, nur dass hier die Reihenfolge der Variablen vertauscht ist. Für die letzte Zelle werden schließlich die Abweichungen vom Mittelwert des Rassismus-Items mit sich selbst multipliziert, also quadriert, und aufsummiert. Teilt man diese Summen durch die Zahl der Beobachtungen, so erhält man die Varianz-Kovarianzmatrix S.
(2.19)
Der besondere Nutzen dieses matrixalgebraischen Zugangs liegt darin, dass die Ausgangsmatrix D beliebig groß sein kann. Unabhängig von der Zahl der Beobachtungen und Variablen sind stets nur vier Schritte erforderlich:
1. Zentrieren der Variablen an ihrem Mittelwert,
2. Transponieren der Matrix Z,
3. Postmultiplikation der transponierten Matrix mit Z und
4. Division der Summen durch die Zahl der Beobachtungen.
Die resultierende Varianz-Kovarianzmatrix für eine Gruppe von m Variablen hat stets die Dimension m × m. Auf der Hauptdiagonalen lassen sich die Varianzen der m Variablen ablesen. Die Reihenfolge entspricht dabei der Reihenfolge in der
Abb. 2.2 Aufbau einer Varianz-Kovarianzmatrix für drei Variablen v1, v2, v3
ursprünglichen Datenmatrix D. Im unteren Teil der Matrix finden sich die m×(m−1) Kovarianzen. Der obere Teil der Matrix enthält diese Information noch einmal und wird deshalb häufig weggelassen. Abbildung 2.2 zeigt für den Fall einer 3 × 3 Varianz-Kovarianzmatrix, wo welche Information zu finden ist.
Wie groß ist nun die Zahl der nicht-redundanten Informationen in einer Varianz-Kovarianzmatrix? Eine m × m-Matrix enthält, wie oben gezeigt, m×(m−1) nicht-redundante Kovarianzen (die untere bzw. die obere Dreiecksmatrix). Hinzu
kommen m Varianzen. Insgesamt liegen also
(2.20)
Informationen vor. Diese Formel wird wichtig, wenn es um die Identifikation des Modells geht (Abschn. 2.6.3).
- [1] Die Varianz in einer Zufallsstichprobe vom Umfang n unterschätzt die Varianz in der Grundgesamtheit, aus der diese Stichprobe gezogen wurde, um den Faktor n 1 . Wenn von der Stichprobe auf die Grundgesamtheit geschlossen werden soll, wird die quadrierten Abweichungen deshalb durch n − 1 geteilt
- [2] Varianzen basieren darauf, dass Messwerte quadriert werden. Dabei geht die ursprüngliche Maßeinheit (Meter, Kilogramm, Punkte auf einer Einstellungsskala) verloren. Standardabweichungen beziehen sich auf diese Einheiten und sind deshalb etwas anschaulicher
- [3] Z enthält die ursprünglichen Variablen in einer Form, die auch als „zentriert“ bezeichnet wird. Diese transformierten Variablen haben einen Mittelwert von 0