Das lineare Regressionsmodell: Baustein für Strukturgleichungsmodelle
Für Politikwissenschaftler ist das lineare Regressionsmodell das wichtigste statistische Verfahren überhaupt. Das lineare Regressionsmodell basiert auf der Annahme, dass sich die Werte einer abhängigen Variablen (z. B. Rassismus) auf die Wirkung von sogenannten unabhängigen Variablen (z. B. Religiosität, Lebensalter etc.) sowie auf eine Vielzahl weiterer Einflüsse zurückführen lassen, die in ihrer Summe als zufällig betrachtet werden können.
Als „linear“ wird das Modell bezeichnet, weil sich – so zumindest die dem Modell zugrundeliegende Vereinfachung – der Wert der abhängigen Variablen proportional zum Wert der unabhängigen Variablen verändert. Im bivariaten Fall resultiert aus dieser Beziehung eine gerade Linie (vgl. Abb. 2.3a). Die zufälligen Einflüsse führen dazu, dass die Datenpunkte, die die Antworten der vier Befragten repräsentieren, nicht exakt auf, sondern oberhalb oder unterhalb der Regressionslinie liegen.
Das Regressionsmodell in Abb. 2.3 kann deshalb so geschrieben werden:
Rassismus = Konstante + β × Religiosität + andere Faktoren + zufällige Einflüsse (2.24)
Dabei steht β für die Stärke des EFFEKTS der Religiosität [1]. Je größer β, desto stärker nimmt der Rassismus-Wert mit steigender Religiosität zu und desto steiler die Gerade. Bei einem negativen Zusammenhang zwischen beiden Variablen ist auch β negativ. Besteht keinerlei Zusammenhang zwischen beiden Variablen, so ist β = 0. Die resultierende Gerade ist dann völlig flach und liegt auf dem Niveau des Mittelwertes der abhängigen Variablen.
In der Literatur gibt es zahlreiche Bezeichnungen für β. Gebräuchlich sind unter anderem „Steigungskoeffizient“, „Regressionsgewicht“, „Regressionskoeffizient“, „Koeffizient“ oder einfach „Effekt“. Unabhängig davon entspricht β der Veränderung der abhängigen Variablen, die zu erwarten ist, wenn 1) der Wert der unabhängigen Variablen um eine Einheit zunimmt, 2) alle übrigen Umstände gleich bleiben und 3) das Modell die politische Realität korrekt beschreibt.
Auch die in der Literatur verwendeten Symbole unterscheiden sich teilweise: Häufig wird an Stelle von β der Kleinbuchstabe b verwendet. Die Verwendung lateinischer Buchstaben stellt meist auf die Anpassung einer Geraden an die vorhandenen Datenpunkte ab, während die Verwendung griechischer Buchstaben den Aspekt der Modellschätzung betont. Entsprechend der in Abschn. 1.3 eingeführten Konventionen werden auch in diesem Kapitel griechische Buchstaben für die unbekannten Parameter verwendet.
Gleichung (2.24) lässt sich verallgemeinern:
y = β0 + β1x1 + β2x2 + ••• + E (2.25)
Hierbei steht y für eine beliebige abhängige Variable, β0 für die Konstante, d. h. den Wert, den y annimmt, wenn alle unabhängigen Variablen den Wert 0 haben [2], x1, x2,... für eine oder mehrere unabhängige Variablen, β1, β2,... für die zugehörigen Effekte der unabhängigen Variablen, und e für die Differenz zwischen beobachtetem und erwartetem Wert. In Matrixschreibweise lässt sich dies noch kompakter darstellen:
y = Xβ + (2.26)
Ausgeschrieben bedeutet dies: Man erhält den Spaltenvektor y, der die Beobachtungen für die abhängige Variable (z. B. Rassismus) enthält, indem man die Matrix X (Beobachtungen für die unabhängigen Variablen, jeweils ein Fall pro Zeile plus ein Spaltenvektor mit dem Wert 1, der die Konstante aus Gl. (2.25) repräsentiert) mit dem Spaltenvektor β (Regressionskoeffizienten) postmultipliziert und den Vektor (Abweichungen zwischen erwarteten und beobachteten Werten) hinzuaddiert. Gemeinsam bilden y und X die Rohdatenmatrix.
In der Forschungspraxis ist diese Rohdatenmatrix bekannt, d. h. es liegen für y und x1, x2,... Beobachtungen vor, während die Werte für β0, β1, β2,... aufgrund dieser Daten bestimmt werden müssen. Hierzu dient ein algebraisches Verfahren, das die Regressionslinie optimal an die empirischen Daten anpasst. Das gängige Kriterium für die Qualität dieser Anpassung ist dabei, dass die Summe der quadrierten Abweichungen zwischen beobachteten und erwarteten Werten möglichst klein sein soll. Nach diesem Maßstab wurden in Abb. 2.3a optimale Parameter gewählt, da es keine andere Linie gibt, für die die Summe der quadrierten Abweichungen kleiner ist. Die Parameter in Abb. 2.3b (größerer Wert für β0, kleinerer Wert für β1) sind hingegen suboptimal.
Stützt man sich auf die Matrix-Notation des Regressionsmodells (2.26), so ist die Summe der quadrierten Abweichungen einfach
efe = (y − Xβˆ)×(y − Xβˆ) (2.27)
Die Summe der Abweichungsquadrate ist also eine Funktion der Daten (y und X) und der Schätzungen (darauf weist das Symbol ˆ über dem Vektor hin) für die Modellparameter (βˆ) [3]. Um das Minimum dieser Funktion zu finden, muss die partielle Ableitung nach βˆ gebildet werden. Setzt man diese auf 0 und löst nach βˆ auf, ergibt sich die algebraische Lösung für das Optimierungsproblem [4]:
βˆ = (X×X)−1X×y (2.28)
Um diese Berechnung für das Beispiel in Tab. 2.1, Seite 15 nachzuvollziehen, muss zunächst die transponierte Datenmatrix X mit sich selbst multipliziert werden:
Anschließend wird das Ergebnis invertiert und dann mit X× und y postmultipliziert:
Gerundet betragen die Werte für die Koeffizienten β0 und β1 also −0.396 und 0.981, d. h. pro Skalenpunkt auf dem Religiositätsindikator nimmt der erwartete Wert des Rassismus-Items um einen Punkt zu [5].
Da das Regressionsmodell in Gl. (2.26) in Matrix-Schreibweise formuliert wurde, lassen sich weitere unabhängige Variablen sehr leicht berücksichtigen, indem X entsprechend erweitert wird. Bezieht man etwa das Lebensalter der Befragten mit ein, so schwächt sich der Einfluss der Religiosität selbst in diesem konstruierten Beispiel sehr stark ab.
Es liegt nahe zu vermuten, dass mit zunehmendem Alter aufgrund verschiedener Effekte sowohl die Religiosität als auch die negative Haltung gegenüber Menschen mit anderer Hautfarbe zunehmen. Dementsprechend verliert der eigenständige Effekt der Religiosität an Bedeutung, sobald die Hintergrundvariable Alter in das Modell mit aufgenommen wird. Diese wichtigen Fragen werden weiter unten wieder aufgenommen.
In der Literatur wird die auf der Minimierung der quadrierten Abweichungen basierende Prozedur zur Bestimmung der Regressionsparameter häufig als ORDINARY-LEAST-SQUARES-VERFAHREN (OLS) bezeichnet. In diesem Kapitel wurde OLS zunächst als Verfahren zur optimalen Anpassung einer Regressionsgeraden an die Beobachtungen eingeführt, das auf diese Weise eine kompakte Beschreibung der Zusammenhänge in den Daten ermöglicht. Wichtig ist OLS aber vor allem als eines von mehreren Schätzverfahren, das es unter bestimmten Bedingungen gestattet, von den Daten auf eine größere Population zu schließen. Dieser Punkt wird in Abschn. 2.6 diskutiert.
Neben den Koeffizienten generiert das Regressionsmodell mit R2 eine weitere Maßzahl, deren Bedeutung jedoch häufig missverstanden bzw. überschätzt wird. Hinter der Berechnung von R2 steht die Überlegung, dass die gesamte Varianz von y (also die Summe der quadrierten Abweichungen geteilt durch die Zahl der Beobachtungen) in zwei Teile zerlegt werden kann: eine systematische Komponente, die auf die Effekte der unabhängigen Variablen zurückgeführt werden kann, und einen Rest, der auf zufällige bzw. als zufällig betrachtete Einflüsse zurückgeht.
Im Beispiel ordnet sich Befragter Nr. 5 auf Stufe 5 der Religiositätsskala ein.
Deshalb wird für ihn auf der Rassismus-Skala ein Wert von yˆ= −0.396 +5 × 0.981 = 4.509 erwartet. Tatsächlich liegt sein Rassismus-Wert aber nur bei 4. Die quadrierte Abweichung dieser Beobachtung vom Mittelwert (5) ist gleich (4 − 5)2 = 1. Die quadrierte Differenz zwischen dem prognostizierten und dem beobachteten Wert beträgt (4.509 − 4)2 = 0.259. Dementsprechend gehen für diesen Befragten etwa 74 % seines Rassismus-Wertes auf systematische Effekte (hier:seine Religiosität) zurück, während etwa 26 % das Ergebnis zufälliger, d. h. nicht im Modell spezifizierter Einflüsse sind.
Sinnvollerweise wird R2 nicht auf individueller Basis, sondern über alle Beobachtungen hinweg berechnet. Dies geschieht, indem die Summe der quadrierten Abweichungen von der Regressionsschätzung (e×e) zur Summe der quadrierten Abweichungen vom Mittelwert (y − y¯)×(y − y¯) ins Verhältnis gesetzt und das Ergebnis von 1 abgezogen wird.
Tab. 2.2 Amtszeit von Kabinetten in Italien 1945–2008
System |
Kabinette |
Mittlere Amtsdauer in Wochen |
„1. Republik“ (18.06.1945–24.04.1992) |
63 |
39 |
„2. Republik“ (28.06.1992–06.05.2008) |
9 |
93 |
Wenn alle Punkte exakt auf der Regressionsgeraden liegen, es also keinerlei zufällige Einflüsse auf y gibt, ist der Zähler des Bruchs gleich 0 und R2 dementsprechend gleich 1. Im umgekehrten Fall haben die im Modell enthaltenen unabhängigen Variablen keinerlei systematischen Effekt auf y. Dies bedeutet, dass alle Abweichungen vom Mittelwert rein zufällig sind: Die Koeffizienten β1, β2,... sind dann gleich 0, die Konstante β0 ist gleich dem Mittelwert von y und y − y¯ = e, so dass R2 seinen minimalen Wert von 0 annimmt.
In der Literatur wird R2 manchmal als Maß für die „erklärte Varianz“ und somit für die Qualität eines Modells präsentiert. Dies ist schon deshalb irreführend, weil ein hoher Wert von R2 ebensowenig wie ein hoher Wert des Korrelationskoeffizienten r als Beleg für eine kausale Beziehung (vgl. Abschn. 2.4.1) herangezogen werden kann [6]. Zudem nimmt der Wert von R2 unter ansonsten identischen Bedingungen mit der Varianz von x zu und ist somit nicht über verschiedene Datensätze hinweg vergleichbar (Achen 1977). R2 erfasst schlicht die relative Bedeutung von systematischen und zufälligen Einflüssen auf y und ist deshalb per se kein Maß für die Qualität eines Modells [7]. Wie in Abschn. 2.3 gezeigt wird, kann R2 aber durchaus genutzt werden, um die Qualität einer Messung zu analysieren.
- [1] Die Buchstaben α, β und E werden als Alpha, Beta und Epsilon ausgesprochen. Tabelle 1.1 auf Seite 6 gibt einen Überblick über das griechische Alphabet
- [2] Ebenfalls gebräuchlich ist die Verwendung von a, b0 oder auch α anstelle von β0
- [3] Analog zu dem oben über die Verwendung lateinischer bzw. griechischer Buchstaben Gesagten wird anstelle von βˆ manchmal auch b geschrieben, wenn die Anpassung an die gegebenen Daten im Vordergrund steht. Zu beachten ist außerdem, dass die Abweichungen in einem errechneten Vektore zusammengefasst werden, dessen Varianz als Annäherung an die Varianz des Vektors der prinzipiell nicht beobachtbaren zufälligen Einflüsse betrachtet wird
- [4] Diese Zwischenschritte sind nicht kompliziert. Ihr Verständnis erfordert aber (matrix-) algebraische Kenntnisse, die im Rahmen dieser Einführung weder vermittelt noch vorausgesetzt werden können. Eine vollständige Herleitung findet sich z. B. bei Greene (2003).
- [5] Dies entspricht selbstverständlich exakt den Werten, die sich aus Abb. 2.3a ablesen lassen
- [6] Im bivariaten Fall ist r2 = R2
- [7] Viel wichtiger als ein hoher Anteil der „erklärten“, also systematischen Varianz an der Gesamtvarianz ist es, dass das Modell möglichst viele der in der Realität wichtigen Erklärungsvariablen berücksichtigt