Modellvergleich: Fit-Indizes und Hypothesentests
Wenn das Problem der Identifikation gelöst ist, stellt sich als nächstes die Frage der Qualität der Anpassung des Modells an die Daten (FIT). Ein Modell, das gerade identifiziert ist, bei dem also die Zahl der zu schätzenden Parameter der Zahl der nicht-redundanten Elemente in der Varianz-Kovarianzmatrix entspricht, ist stets in der Lage, diese empirische Matrix exakt zu reproduzieren. Unter wissenschaftlichen Gesichtspunkten ist es damit relativ uninteressant, da tautologisch. Verfügt ein Modell hingegen über Freiheitsgrade, dann ist aufgrund von Stichprobenfehlern grundsätzlich selbst dann, wenn das Modell die Grundgesamtheit perfekt beschreiben würde, mit Abweichungen zwischen der vom Modell implizierten und der aus der Stichprobe berechneten Kovarianzmatrix zu rechnen.
Unter der Annahme, dass das Modell korrekt spezifiziert ist, folgen diese Abweichungen einer zufälligen, aber wohldefinierten χ 2 –VERTEILUNG [1]. Da diese Verteilung bekannt ist, lässt sich mit Hilfe der tabellierten Werte bzw. eines Computerprogramms leicht ermitteln, wie wahrscheinlich eine bestimmte Abweichung ist, wenn die Schätzungen auf einer Zufallsstichprobe basieren. Erreichen die Abweichungen eine Größenordnung, die nur mit einer geringen Wahrscheinlichkeit (typischerweise fünf Prozent) auf Stichprobenfehler zurückgehen können, dann muss man davon ausgehen, dass das Modell falsch spezifiziert wurde, d. h. tatsächlich relevante Pfade nicht enthält.
Der χ 2-Wert [2] liefert deshalb in Verbindung mit den Freiheitsgraden eine wichtige Information über die Anpassung an die Daten und wird von allen Programmen ausgewiesen. Problematisch ist allerdings, dass mit steigender Stichprobengröße die Empfindlichkeit des χ 2-Tests gegenüber trivialen Abweichungen immer mehr zunimmt. Mit den in der Politikwissenschaft üblichen Stichprobengrößen werden deshalb häufig auch inhaltlich bedeutungslose Differenzen zwischen Modell und Wirklichkeit als statistisch signifikant ausgewiesen [3].Orientiert man sich alleine an diesem Kriterium, so besteht die Gefahr, dass das Modell zu eng an die vorliegende Stichprobe angepasst wird und zu viele Parameter enthält, die aus einer theoretischen Perspektive irrelevant sind. Dieses Problem wird auch als OVERFITTING bezeichnet.
Deshalb wurde eine Vielzahl von FIT-INDIZES entwickelt, die unabhängig vom Stichprobenumfang einen Eindruck davon vermitteln sollen, wie gut das Modell zu den Daten passt. Historisch gehören der GOODNESS OF FIT-INDEX (GFI) sowie dessen für die Zahl der Freiheitsgrade korrigierte Variante, der ADJUSTED GOODNESS OF FIT-INDEX (AGFI) zu den wichtigsten dieser Maße. In der neueren Literatur wird aber von ihrer Nutzung abgeraten. Daneben existiert eine ganze Reihe weiterer Indizes, die in je unterschiedlicher Weise die Diskrepanz zwischen Modellschätzung und Daten bewerten [4].
Unter all diesen Maßen erfreut sich derzeit der ROOT MEAN SQUARE ERROR OF APPROXIMATION (RMSEA) besonderer Beliebtheit in der angewandten Forschung (Hooper et al. 2008, S. 54). Seine Konstruktion basiert auf der Überlegung, dass ein perfekter Modellfit selbst dann höchst unwahrscheinlich wäre, wenn die gesamte Population untersucht würde, da Modelle stets eine nützliche Vereinfachung der Realität darstellen. Eine gewisse Diskrepanz zwischen Realität und näherungsweise korrektem Modell ist in der Forschungspraxis deshalb unvermeidlich. Der RMSEA vermittelt einen (standardisierten) Eindruck von der Größe dieser Diskrepanz und berücksichtigt dabei auch die Zahl der Freiheitsgrade, um der Tendenz zum overfitting entgegenzuwirken (Reinecke 2014, Kap. 6.6.1). Werte bis 0.1 gelten als akzeptabel, Werte zwischen 0.05 und 0.08 als Hinweis auf einen guten, Werte kleiner als 0.05 als Beleg für einen sehr guten Fit.
Ähnlich wie χ 2 folgt der RMSEA einer bekannten Verteilung. Häufig wird deshalb zusätzlich zum skalaren Wert ein Konfidenzintervall (üblicherweise mit einer Vertrauenswahrscheinlichkeit von 90 %) berechnet. Zudem kann statt der wenig plausiblen Nullhypothese einer perfekten Modellanpassung die realistischere Nullhypothese eines näherungsweisen Fits getestet werden. Der RMSEA wird von allen einschlägigen Programmen berechnet und ist in vielen aktuellen Studien der einzige Fit-Index, der kommuniziert wird.
Ebenfalls populär ist der TUCKER-LEWIS-INDEX (TLI), der manchmal auch als NON-NORMED FIT-INDEX (NNFI) bezeichnet wird und ähnlich wie der RMSEA die Komplexität des Modells negativ gewichtet. Als Grenzwert für eine gute Modellanpassung wird häufig ein TLI von ≥ 0.95 genannt (Hu und Bentler 1995), vereinzelt kursieren auch niedrigere Werte. Nach der Simulationsstudie von Sharma et al. (2005, S. 942) ist der TLI eher als der RMSEA in der Lage, Fehlspezifikationen aufzuspüren. Allerdings kann der TLI in Einzelfällen den Wert von 1 überschreiten, was die Interpretation erschwert (Hooper et al. 2008, S. 55). Zudem reagiert der TLI empfindlich auf Situationen, in denen nur schwache Zusammenhänge zwischen einigen Variablen bestehen [5]. In solchen Fällen sind die Werte des TLI zu niedrig [6]. In der Forschungspraxis empfiehlt es sich deshalb, sowohl den RMSEA als auch den TLI zu berechnen und beide in die Diskussion der Modellgüte einzubeziehen.
Eine weitere Maßzahl, die häufig publiziert wird, ist der COMPARATIVE FITINDEX (CFI). Dieser ist mit dem TLI eng verwandt, gewichtet allerdings die Modellkomplexität weniger stark. Deshalb sollte nur einer der beiden Werte (vorzugsweise den TLI) ausgewiesen werden.
In der bisherigen Darstellung wurde davon ausgegangen, dass ein einziges Modell spezifiziert, geschätzt und evaluiert werden soll. Diese Situation ist dann gegeben, wenn es klare theoretische Vorstellungen darüber gibt, welche Variablen wie miteinander zusammenhängen, und diese Vermutungen empirisch getestet werden sollen. In der Forschungspraxis ist dies allerdings eher die Ausnahme als die Regel. Idealtypisch lassen sich mindestens zwei weitere Szenarien unterscheiden:
1) Das ursprünglich formulierte Modell passt nur unzureichend zu den Daten und wird deshalb auf der Grundlage theoretisch plausibler Überlegungen schrittweise modifiziert oder 2) es existieren in der Literatur mindestens zwei konfligierende theoretische Ansätze, auf deren Grundlage konkurrierende Modelle spezifiziert und gegeneinander getestet werden (Jöreskog und Sörbom 1993, S. 115).
Im ersten Fall kann beispielsweise ein hoher Wert für den RMSEA auf einen insgesamt unbefriedigenden Modellfit hindeuten. Dieser lässt sich im Prinzip durch die Aufnahme weiterer Pfade in das Modell verbessern. Um diese Strategie zu verstehen, muss man sich klarmachen, dass ein im Modell nicht enthaltener Pfad zwischen zwei Variablen einer Restriktion entspricht, die den Wert des zugehörigen Koeffizienten auf den Wert von 0 setzt. Wenn diese ursprüngliche Modellierungsentscheidung falsch war, d. h. wenn in der Grundgesamtheit tatsächlich ein Zusammenhang zwischen den beiden Variablen besteht, so verschlechtert sich hierdurch der Fit. MODIFIKATIONSINDIZES, die auf Wunsch vom jeweiligen Programm ausgegeben werden, zeigen, durch welche Veränderungen am Modell sich der Fit in welchem Umfang verbessern ließe.
Allerdings sollten diese Indizes mit einer gewissen Zurückhaltung betrachtet werden, da sie ebenfalls auf χ 2-Tests basieren (Reinecke 2014, Kap. 6.6.2). Somit besteht – insbesondere in großen Stichproben – auch hier die Gefahr des overfitting durch die Aufnahme von Pfaden, deren inhaltliche Bedeutung trivial ist. Keinesfalls sollte man sich verleiten lassen, einen theoretisch unplausiblen Pfad zu spezifizieren, um die Qualität des Modells scheinbar zu verbessern. Lässt sich ein befriedigender Fit nur um den Preis solcher unsinnigen Pfade erreichen, so sollten stattdessen nach Fehlern bei der Stichprobenziehung, Kodierung und Modellspezifikation gesucht oder nötigenfalls die theoretischen Annahmen revidiert werden.
Sollen zwei oder mehr konkurrierende Modelle, die theoretisch gleichermaßen plausibel sind, miteinander verglichen werden, so gibt es hierfür zwei Kriterien: den Modellfit und die Sparsamkeit der Modellierung. Die verschiedenen Indizes, die in der Literatur vorgeschlagen werden, unterscheiden sich inhaltlich vor allem darin, wie diese beiden Faktoren gewichtet werden.
Ein eher technischer Unterschied ergibt sich daraus, ob zwischen den zu vergleichenden Modellen ein hierarchisches Verhältnis besteht (NESTING). Eine solche
„Verschachtelung“ liegt vor, wenn ein Modell M2 als Spezialfall eines allgemeineren Modells M1 betrachtet werden kann, von dem es sich durch zusätzliche Restriktionen unterscheidet, mit denen Modellparameter auf einen bestimmten Wert fixiert werden [7]. Durch diese Restriktionen wird eine entsprechende Zahl von Freiheitsgraden gewonnen, die genutzt werden können um zu testen, ob der Unterschied in der Diskrepanzfunktion beider Modelle statistisch signifikant ist. Dies ist möglich, weil die Differenz zweier χ 2-verteilter Teststatistiken ihrerseits wieder einer χ 2-Verteilung mit einer entsprechenden Zahl von Freiheitsgraden folgt (Steiger et al. 1985, siehe auch Seite 68 weiter unten). Diverse Indizes normieren diese Differenz in je unterschiedlicher Weise (Reinecke 2014, Kap. 6.6.2).
Eine weitere Gruppe von Maßzahlen ist besonders nützlich, weil sie nicht voraussetzen, dass die zu vergleichenden Modelle ineinander verschachtelt sind, und dabei zugleich die Sparsamkeit der Modellierung berücksichtigen. Dabei handelt es sich um die Familie der INFORMATIONSKRITERIEN.
Während die (informations)theoretischen Grundlagen, auf denen diese Maße basieren, höchst komplex sind (siehe Kaplan 2009, Kap. 6.1.3 für einen knappen Überblick), lassen sich die eigentliche Berechnung und vor allem die Konstruktionslogik recht einfach nachvollziehen: Informationsmaße stellen den Vorzügen eines gegebenen Modells (der über die maximierte Log-Likelihood ausgedrückten Plausibilität der Parameterschätzungen in Bezug auf die Daten, d. h. also die Güte der Anpassung) dessen Nachteile (die über die Zahl der zu schätzenden Parameter ausgedrückte Komplexität) gegenüber und fassen beide Größen zu einer einzigen Maßzahl zusammen.
Im Gegensatz zu den bisher vorgestellten Indizes ist diese nicht auf einen bestimmten Wertebereich normiert und damit zur Beurteilung des absoluten Modellfits ungeeignet [8]. Ihr Nutzen liegt vielmehr im direkten Vergleich zweier Modelle. Dabei ist demjenigen mit dem niedrigeren Wert der Vorzug zu geben.
Dieser niedrigere Wert kann beispielsweise dadurch zustandekommen, dass ein alternatives Modell bei geringfügig größerer Komplexität (etwa durch einen zusätzlichen Parameter) eine deutlich bessere Anpassung an die Daten erzielt oder aber etwas schlechter an die Daten angepasst ist, aber dabei mit deutlich weniger Parametern auskommt. Dabei wird lediglich vorausgesetzt, dass beide Modelle auf Grundlage derselben empirischen Kovarianzmatrix S geschätzt werden. Die Zahl der Parameter und die Modellstruktur müssen nicht übereinstimmen.
Die beiden bekanntesten Informationsmaße sind das AKAIKE INFORMATION CRITERION (AIC) und das BAYESIAN INFORMATION CRITERION (BIC).
Letzteres bestraft die Komplexität des Modells etwas stärker als das AIC und bevorzugt somit sparsamere Modelle. Mit AIC und BIC verwandt sind das CONSISTENT AKAIKE INFORMATION CRITERION (CAIC) und der EXPECTED CROSS
VALIDATION INDEX (ECVI).
Fit-Indizes liefern eine globale Beurteilung der Modellschätzungen. Darüber hinaus ist es aber auch möglich, jeden einzelnen Koeffizienten des Modells individuell zu beurteilen und mit Hilfe inferenzstatistischer Methoden Hypothesen über den Wert des Koeffizienten zu testen.
Analog zur Vorgehensweise bei der multivariaten Regression wird dabei in der Regel der sogenannten „Nullhypothese“ (in der Grundgesamtheit besteht überhaupt kein Zusammenhang zwischen den betreffenden Variablen) eine unspezifische „Alternativhypothese“ (in der Grundgesamtheit besteht ein positiver oder negativer Zusammenhang, über dessen Stärke nichts ausgesagt wird) gegenübergestellt.
Diese bislang weitverbreitete Vorgehensweise ist in den letzten Jahren verstärkt in die Kritik geraten (Gill 1999), weil es unrealistisch ist anzunehmen, dass zwischen zwei Variablen überhaupt kein Zusammenhang besteht. Was oben auf Seite 62 über den globalen χ 2-Test gesagt wurde, gilt deshalb gleichermaßen für Tests auf der Ebene einzelner Koeffizienten: Mit einer hinreichend großen Stichprobe wird man stets statistisch signifikante Abweichungen bzw. Effekte finden. Entscheidend ist aber deren inhaltliche Bedeutsamkeit.
Grundsätzlich lassen sich mit Hilfe des Apparats der klassischen Inferenzstatistik auch spezifischere, inhaltlich bedeutsame Hypothesen testen, indem der Ablehnungsbereich entsprechend gewählt wird: Statt zu fragen, wie wahrscheinlich ein Stichprobenergebnis ist, wenn der Wert des Koeffizienten in der Grundgesamtheit exakt bei 0 liegt, mag es beispielsweise interessanter sein zu überlegen, wie plausibel der empirische Befund erscheint, wenn der entsprechende Wert in der
Realität nicht wenigstens +1.5 beträgt.
Technisch ist die Implementation solcher spezifischen Tests in modernen Statistikprogrammen leicht möglich (in Stata z. B. mit dem test-Befehl). Oft sind aber bereits die politikwissenschaftlichen Theorien so vage formuliert, dass nur schwer
zu entscheiden ist, wie stark ein Zusammenhang sein muss, um als bedeutsam zu gelten.
Unabhängig davon, wie die Hypothesen formuliert werden, ist die zugrundeliegende Logik stets die gleiche: Für zwei Varianten des Modells wird eine Prüfgröße errechnet. Die Verteilung dieser Größe bzw. der Differenz ist bekannt und kann deshalb als Maßstab für den Test verwendet werden. Anders als dies bei der multivariaten Regression üblich ist, kommen hier aber mehrere verschiedene Testverfahren zum Einsatz.
Am einfachsten nachzuvollziehen ist die Vorgehensweise beim z-Test (manchmal auch als t-Test bezeichnet). Wurde ein Modell geschätzt, so wird für jeden Koeffizienten ein Standardfehler ausgegeben. Da in großen Stichproben und unter Annahme einer Multinomialverteilung die ML-Schätzungen näherungsweise normalverteilt (=z-verteilt) sind, kann man wie bei einem „normalen“ Regressionsmodell davon ausgehen, dass ein Koeffizient signifikant von 0 verschieden ist, wenn er mindestens rund zweimal so groß ist wie sein Standardfehler [9].
Der LIKELIHOOD-RATIO-TEST (LR-Test) bezieht sich hingegen auf Schätzungen zweier verschiedener Modelle, die ineinander verschachtelt sein müssen (nesting). Zu jeder dieser Schätzungen gehört, wie oben bereits erwähnt, ein χ 2Wert. Für das komplexere Modell ist dieser niedriger, weil sich durch die zusätzlichen Parameter eine bessere Anpassung an die empirischen Daten erreichen lässt. Diese Differenz folgt über eine große Zahl von Modellvergleichen hinweg wiederum einer χ 2-Verteilung, deren Freiheitsgrade der Zahl der zusätzlich geschätzten Parameter entsprechen [10].
Oben auf Seite 65 wurde dieser Test als Werkzeug zum Vergleich konkurrierender Modelle bzw. zum Vergleich mit einem Basismodell eingeführt, und in der Tat besteht der große Vorteil des LR-Tests darin, dass eine Reihe von Koeffizienten simultan getestet werden können, etwa um festzustellen, ob eine Gruppe von Indikatoren gemeinsam auf einen Faktor lädt, obwohl dies nicht der Fall sein sollte.
Der Test kann jedoch auch genutzt werden, um zu prüfen, ob sich ein bestimmter Koeffizient signifikant von 0 unterscheidet.
Zu diesem Zweck wird der entsprechende Pfad aus dem Modell entfernt oder äquivalent dazu der Koeffizient auf den Wert 0 fixiert. Auf diese Weise ergibt sich ein neues, restriktiveres Modell, das einen Freiheitsgrad weniger verbraucht. Dieses kann dann mit Hilfe des LR-Tests mit dem Ausgangsmodell verglichen werden.
Während der LR-Test immer auf zwei verschiedenen Schätzungen basiert, kommen zwei alternative Tests mit einer einzigen Schätzung aus. Dabei handelt es sich einerseits um den LAGRANGE-MULTIPLIER-TEST (LM-Test), der manchmal auch Score-Test bezeichnet wird, und andererseits um den WALD-TEST (W-Test). Beide sind in gewisser Weise komplementär zueinander.
Der LM-Test basiert auf dem sogenannten Score-Vektor, der während der Schätzung des Modells generiert wird und für jeden (potentiellen) Parameter des Modells die mögliche Veränderung der Likelihood enthält, die sich aus der Aufnahme des zugehörigen Pfades in das Modell ergeben würde (Kaplan 2009, S. 31). Für die bereits vorhandenen Werte ist der „Score“ naturgemäß gleich 0. Für Parameter, die bisher nicht im Modell enthalten, also auf den Wert 0 fixiert sind, folgen die Score-Werte hingegen wiederum jeweils einer χ 2-Verteilung mit einem Freiheitsgrad. Auf diese Weise lässt sich für jeden potentiellen Pfad ablesen, ob seine Aufnahme in das Modell zu einer statistisch signifikanten Verbesserung der Anpassung an die Daten führen würde.
Score-Werte sind mit den oben auf Seite 65 angesprochenen Modifikationsindizes identisch. Dabei ist zu beachten, dass fast alle Programme einen univariaten LM-Test implementieren: Aus dem Test lässt sich nicht ablesen, welchen Effekt die simultane Aufnahme von zwei oder mehr Pfaden in das Modell hätte.
Beim Wald-Test kehrt sich die Perspektive gegenüber dem LM-Test um: Hier wird gefragt, wie sich der Ausschluss eines Pfades aus dem Modell auf die Anpassung und damit auf die Log-Likelihood auswirken würde. Die zu erwartende Differenz, d. h. der Anstieg der Log-Likelihood ist wiederum χ 2-verteilt, so dass hier geprüft werden kann, ob ein restriktiveres Modell eine statistisch signifikante Verschlechterung darstellen würde.
In der Literatur finden sich verstreute Hinweise darauf, dass der LR-Test vor allem in kleineren Stichproben bessere Eigenschaften hat (z. B. Fox 2010). Asymptotisch (d. h. unter Gültigkeit der Annahmen und in sehr großen Stichproben) sind die drei Tests äquivalent. In der Forschungspraxis bedeutet dies, dass sie zumindest bei einfachen Modellen zu sehr ähnlichen Ergebnissen kommen sollten. Unterscheiden sich die Resultate stark, so ist dies ein Hinweis auf mögliche Probleme (zu geringer Stichprobenumfang, Annahmeverletzungen, Fehlspezifikationen).
Historisch hatte der LR-Test den Nachteil, dass stets zwei Modelle geschätzt werden müssen. Angesichts der Leistungsfähigkeit moderner Computer spielt diese Überlegung aber keine Rolle mehr, so dass sich die Anwender frei zwischen allen Varianten entscheiden können.
- [1] Die χ 2-Verteilung ist ein theoretisches Modell für die Verteilung von Zufallsvariablen. Ihre Form und Lage werden durch einen Parameter bestimmt, der der Zahl der Freiheitsgrade des Strukturgleichungsmodells entspricht
- [2] 46 In gewisser Weise ist es irreführend, von dem χ 2-Wert zu sprechen. Tatsächlich basiert jedes Schätzverfahren (ML, WLS/ADF etc.) auf einer eigenen Diskrepanzfunktion, aus der eine Größe abgeleitet wird, die einer χ 2-Verteilung folgt. Teilweise werden diese Werte danach noch einmal skaliert, um Annahmeverletzungen zu kompensieren (Reinecke 2014, Kap. 6.6.1)
- [3] Viele Forscher ignorieren deshalb den χ 2-Test gänzlich. Kritisch zu dieser Praxis äußert sich Kline (2010, S. 363)
- [4] Siehe Hu und Bentler (1995) für einen umfassenden Überblick über die Vorund Nachteile verschiedener Indizes sowie Reinecke (2014, Kap. 6.6) für eine deutschsprachige Zusammenfassung. Eine grundlegende Systematik von Fit-Indizes, auf die in der Literatur häufig zurückgegriffen wird, haben Browne und Cudeck (1993) entwickelt
- [5] 49 Sharma et al. (2005) nennen als Faustregel (standardisierte) Faktorladungen ≤ 0.5, die auf eine geringe Reliabilität zurückzuführen sind. David Kenny weist in seiner Übersicht über die gängigsten Indizes (davidakenny.net/cm/fit.htm) allerdings zurecht darauf hin, dass das Problem nicht auf die Faktorladungen beschränkt ist und beispielsweise auch in experimentellen Designs auftreten kann
- [6] RMSEA, TLI und die meisten anderen Indizes sind in kleinen Stichproben zudem nach unten verzerrt, d. h. sie zeigen oft zu Unrecht einen schlechten Fit an (Sharma et al. 2005). Dieses Problem ist in der politikwissenschaftlichen Umfrageforschung allerdings weniger gravierend, da hier normalerweise Stichproben zum Einsatz kommen, die gemessen an den psychologischen und erziehungswissenschaftlichen Ursprüngen des Verfahrens als „groß“ gelten können
- [7] Wie oben dargelegt, ist auch das Weglassen eines Pfades als Fixierung des zugehörigen Koeffizienten zu betrachten
- [8] Möglich ist aber der Vergleich mit einem Basismodell, das keine latenten Variablen enthält (siehe Abschn. 3.2, Seite 80)
- [9] 53 Diese Faustregel ergibt sich daraus, dass die Parameterschätzungen normalverteilt sind mit einer Streuung, die dem Standardfehler entspricht. In einer Normalverteilung sind nur fünf Prozent der Werte mehr als ±1.96 Standardabweichungen bzw. Standardfehler vom Mittelwert entfernt. Wenn der wahre Parameterwert in der Grundgesamtheit gleich 0 ist und die Parameterschätzungen um diesen (Mittel)wert von 0 normalverteilt sind, beträgt die (Irrtums)wahrscheinlichkeit, eine Schätzung mit einem Betrag von mindestens zwei Standardfehlern zu beobachten, weniger als fünf Prozent. Nach konventionellen Maßstäben ist dies signifikant
- [10] Die Differenz zwischen den beiden χ 2-Werten entspricht außerdem dem doppelten Betrag der Differenz zwischen den beiden Log-Likelihood-Werten. Diese Differenz wiederum ist mit dem Quotienten der nicht-logarithmierten Likelihood-Werte identisch