Modellschätzung und Respezifikation
9. Eher zum Erfolg mit schrittweisem Vorgehen
Probleme lassen sich einfacher erkennen, wenn ein komplexes Modell schrittweise aus seinen Einzelteilen aufgebaut wird. So lassen sich die Messmodelle für die zwei Faktoren aus Abschn. 3.2 auch separat schätzen. Bei dem Beispiel in Abschn. 3.3 ist es möglich, das Modell vor dem Einstieg in die MGCFA zunächst in beiden Regionen getrennt zu schätzen. In der Regel werden sich die Resultate solcher separater Schätzungen leicht von den Ergebnissen für das Gesamtmodell unterscheiden. Kommt es zu dramatischen Veränderungen, deutet dies oft auf einen Fehler hin. Umgekehrt lässt sich ein Fehler in der Spezifikation eines komplexen Modells einkreisen, indem dieses sukzessive in seine Einzelteile zerlegt wird.
10. Schätzverfahren und Robustheit
Wie in Abschn. 2.6.2 dargelegt, erfordert das ML-Verfahren kontinuierliche, multivariat normalverteilte Daten. In politikwissenschaftlichen Kontexten ist dies eine völlig unrealistische Annahme. Wenn die eigenen Daten sehr stark von dieser Anforderung abweichen, sollte die Modellschätzung deshalb mit WLS/ADF wiederholt werden. Alternativ kann eventuell auf spezielle Verfahren für kategoriale Daten zurückgegriffen werden (vgl. Abschn. 4.1). In jedem Fall sollte man die Schätzung mit verschiedenen Optionen wiederholen, um sich ein Bild davon zu machen, wie robust die Ergebnisse sind.
11. Vorsicht bei Konvergenzproblemen
Die Parameter einfacher Modelle können normalerweise problemlos geschätzt werden. Kommt es doch einmal zu Problemen, die eine Konvergenz verhindern, werden diese von modernen Programmen in aller Regel erkannt. Manchmal präsentiert die Software dennoch eine Modellschätzung. Diese entspricht einfach dem letzten Stand des zugrundeliegenden iterativen Algorithmus und darf auf keinen Fall akzeptiert und interpretiert werden. Vielmehr muss man jedem Warnhinweis nachgehen.
Echte Identifikationsprobleme – die Zahl der zu schätzenden Parameter ist größer als die Zahl der unabhängigen Informationen (vgl. Abschn. 2.6.3) – gehen meist auf syntaktische Fehler bei der Modellspezifikation oder fehlende Kenntnis der vom Programm verwendeten Voreinstellungen für die identifizierenden Restriktionen zurück. Schwerer einzukreisen sind empirische Identifikationprobleme (Abschn. 2.6.3, Seite 61), hinter denen sich oft Kodierungsfehler oder
-probleme verbergen, die sich nur durch eine erneute explorative Analyse der Daten aufspüren lassen (Punkte 6 und 7).
Für viele Anwender überraschend ist die Erkenntnis, dass auch moderne Computer mit einer relativ beschränkten Genauigkeit rechnen (Altman et al. 2004). Unterscheidet sich der Wertebereich zweier Variablen sehr stark (Jahreseinkommen in Euro vs. subjektiv geschätzte Wahrscheinlichkeit, im nächsten Jahr den Arbeitsplatz zu verlieren, auf einer Skala von 0 bis 1), können Rundungsfehler dazu führen, dass die Schätzungen nicht konvergieren. Solche Probleme lassen sich in der Rekodierungsphase vermeiden, indem die Wertebereiche der Variablen aneinander angenähert werden (Umrechnung in Monatseinkommen bzw. subjektive Wahrscheinlichkeit in Prozent).
In seltenen Fällen konvergieren die Schätzungen, aber die gefundene Lösung ist instabil. Unerwartet große oder kleine Schätzungen für Varianzen sowie große Unterschiede in den geschätzten Varianzen vergleichbarer Variablen sollten deshalb ebenfalls als Warnhinweis interpretiert werden.
12. Modelle müssen zu den Daten passen (aber nicht zu gut)
Die in Abschn. 2.6.4 vorgestellten Fit-Indizes vermitteln einen globalen Eindruck davon, wie gut Modell und Daten zueinander passen. Modifikationsindizes geben darüber hinaus Hinweise darauf, durch welche zusätzlichen Pfade sich der Fit des Modells verbessern ließe. Als Anwender sollte man diese Informationen nutzen, ohne das Modell blindlings zu optimieren. Wichtig ist es dabei, stets die Forschungsfrage im Blick zu behalten. Ein Modell mit einem sehr schlechten Fit ist offensichtlich unbrauchbar, aber was bedeutet dies für das konkrete Forschungsproblem? Welche Verbesserungsvorschläge des Programms sind inhaltlich plausibel, und welche dienen nur der Koeffizientenkosmetik? Diese Fragen lassen sich nur auf Grundlage der theoretischen Vorüberlegungen und des vorhandenen domänenspezifischen Wissens beantworten.
13. Respezifikationen: Systematisch und transparent
Die Vorstellung, dass Sozialwissenschaftler eine einzige Hypothese aus einer Theorie ableiten, diese empirisch überprüfen und im Falle der Falsifikation das ganze Theoriegebäude verwerfen, um sich einem neuen Problem zuzuwenden, ist wissenschaftstheoretisch ansprechend, aber naiv und der Natur probabilistischer Daten und Modelle letztlich nicht angemessen. Vielmehr ist die Schätzung von Strukturgleichungsmodellen ein im doppelten Sinne iterativer Prozess, bei dem ein Ausgangsmodell im Licht der Daten mehrfach modifiziert bzw. eine ganze Serie von Modellen geschätzt wird. Dies ist einerseits vernünftig und nachvollziehbar, andererseits aber problematisch, weil in der Regel nur das „beste“ Modell mit den höchsten Fit-Indizes und der größten Zahl signifikanter Pfade präsentiert wird. Die wiederholte Anwendung von Signifikanztests und die implizite Optimierung des Modells für eine spezifische Stichprobe führt dazu, dass die Stärke und statistische Signifikanz der Effekte systematisch überschätzt wird. Um diesem Effekt zumindest etwas entgegenzuwirken, ist es wichtig zu dokumentieren, welche Varianten des Modells geschätzt und warum diese in welcher Form modifiziert wurden [1]. Wenn Platzrestriktionen eine Darstellung aller Ergebnisse nicht zulassen, können diese alternativen Schätzungen online oder auf CD-ROM zugänglich gemacht werden.
- [1] Schlichte Fehlspezifikationen können dabei natürlich unberücksichtigt bleiben