Identifikation

Eine wichtige Voraussetzung für die Parameterschätzung ist die IDENTIFIKATION des Modells. Ein Modell ist dann identifiziert, wenn genau eine Lösung für die Schätzung der Parameter existiert. Dazu müssen zwei Bedingungen erfüllt sein. Einerseits muss die Zahl der unabhängigen Informationen, auf denen die Schätzung basiert, mindestens so groß wie die Zahl der zu schätzenden Parameter sein [1]. Für eine m × m Varianz-Kovarianzmatrix beträgt die Zahl der unabhängigen Informationen normalerweise m × (m − 1)/2 (vgl. Gl. (2.20), Seite 26). Die Differenz zwischen dieser Zahl und der Zahl der zu schätzenden Parameter entspricht der Zahl der sogenannten Freiheitsgrade, die zur Beurteilung der Modellgüte benötigt werden.

Die Zahl der Modellparameter ist allerdings nicht immer leicht zu bestimmen. In der älteren Literatur nimmt diese Frage deshalb relativ breiten Raum ein (für einen knappen Überblick siehe Kaplan 2009, Kap. 2.2 sowie Hayduk 1987, Kap. 5.3.1 für eine ausführliche Darstellung). Alle aktuellen Programme zur Schätzung von Strukturgleichungsmodellen nehmen diese Berechnungen aber selbständig vor und informieren (meist) über mögliche Probleme mit der Identifikation des Modells (Brown 2006, S. 202).

Eine zweite Voraussetzung für die Identifikation des Modells ist, dass die jeweilige Varianz der latenten Variablen festgelegt wird. Diese Notwendigkeit ergibt sich daraus, dass diese Variablen nicht gemessen werden und deshalb keine Einheit haben.

Es gibt zwei Möglichkeiten, um eine solche Einheit festzulegen. Entweder wird für jeweils einen Indikator der betreffenden latenten Variablen die Faktorladung auf den Wert von 1 gesetzt [2]. In diesem Fall entspricht die Varianz der latenten Variablen der empirisch gemessenen Varianz des betreffenden Indikators. Alternativ dazu kann die Varianz der latenten Variablen auf den Wert 1 gesetzt werden, d. h. die latente Variable wird als standardisiert betrachtet. Dies mag auf den ersten Blick willkürlich erscheinen, erleichtert aber besonders im Falle latenter Einstellungsvariablen, die keine natürliche Einheit haben, die Interpretation.

Je nachdem, welche Variante zur Identifikation gewählt wird, ergeben sich unterschiedliche Pfadkoeffizienten, da diese ja der erwarteten Veränderung der Indikatorvariablen entsprechen, wenn die latente Variable um eine Einheit zunimmt (vgl. Abschn. 2.6.5). Auf die Anpassungsgüte hat dies aber keinen Einfluss.

Selbst wenn die Zahl der Freiheitsgrade hinreichend groß und die Varianz der latenten Variablen fixiert ist, besteht aber immer noch die Möglichkeit, dass das Modell nicht geschätzt werden kann. Dies kann zum einen auf Fehler (Widersprüche) bei der Modellspezifikation zurückgehen. Diese sind zumindest bei einfachen Modellen aber eher selten und werden zudem meist von der Software abgefangen. Wahrscheinlicher ist, dass ein empirisches Identifikationsproblem vorliegt. In diesem Fall enthält die empirische Kovarianzmatrix zwar nominell hinreichend viele unabhängige Einträge. Diese haben aber für die Schätzung der Parameter nur einen geringen Informationswert, weil zwischen mindestens zwei Variablen ein hohes Maß von linearer Abhängigkeit (Kollinearität) besteht. In solchen Fällen wird – meist nach vielen Iterationen – gar kein oder nur ein instabiles Schätzergebnis erreicht. Warnmeldungen, die sich auf „nicht-positiv definite“, d. h. nicht invertierbare (siehe Abschn. 2.1.4) Matrizen beziehen, deuten auf solche empirischen Identifikationsprobleme hin.

Meist sind Fehler bei der Messung oder der Eingabe der Daten die Ursache. Wenn sich die Varianzen der Variablen sehr stark unterscheiden, etwa weil Einstellungen auf einer fünfstufigen Likert-Skala erfasst werden, das jährliche NettoEinkommen hingegen in Euro gemessen wird, kann es auch durch Rundungsfehler zu empirischen Identifikationsproblemen kommen. In solchen Fällen bietet es sich an, eine oder mehrere Variablen zu transformieren, um zu einem vergleichbaren Maßstab zu kommen. Im konkreten Fall könnte dies geschehen, indem aus dem Jahreseinkommen in Euro das monatliche Einkommen, ausgedrückt in 1000-EuroSchritten, errechnet wird.

Selbst bei Verwendung heutiger Programme ist nicht immer leicht zu erkennen, ob ein Modell identifiziert ist. Hilfreich ist deshalb eine ausführliche und mit zahlreichen Abbildungen versehene moderne Gesamtdarstellung der Problematik im Kontext der CFA, die sich bei Brown (2006, S. 62–72) findet.

  • [1] Noch besser ist es, wenn die Zahl der unabhängigen Informationen größer ist als die Zahl der zu schätzenden Parameter – mehr dazu weiter unten
  • [2] Dabei sollte der Indikator gewählt werden, von dem zu erwarten ist, dass er die latente Variable am besten abbildet
 
< Zurück   INHALT   Weiter >