< Zurück   INHALT   Weiter >

3.4.2 Datenauswahl und -aufbereitung

5. Die Daten müssen der Fragestellung angemessen sein

Die Schätzung von Strukturgleichungsmodellen setzt voraus, dass die Daten tatsächlich valide sind, also möglichst keine systematischen Fehler aufweisen, und in engem Bezug zum Gegenstandsbereich der Theorie stehen. Forscher, die selbst Daten erheben, müssen dies vorab durch Pretests und andere Validierungsstrategien sicherstellen. Bei der Sekundäranalyse bereits vorhandener Daten wird man fast immer Kompromisse eingehen müssen, sollte aber besser ganz auf die Schätzung von Strukturgleichungsmodellen verzichten, wenn die Daten aufgrund inhaltlicher Bedenken als ungeeignet erscheinen.

6. Jeder Datensatz muss vorab untersucht werden

Die Komplexität der Strukturgleichungsmodelle und die Vielzahl der ausgegebenen Parameterschätzungen, Standardfehler und Kennwerte verstellt oft den Blick auf die basalen Eigenschaften der Daten. Vor der Modellschätzung sollte man sich deshalb unbedingt mit Hilfe eines allgemeinen Statistikpaketes (SPSS, Stata, R) unter Anwendung einfacher explorativer Verfahren (Tabellen, Scatterplots, Korrelationen und lineare Regression etc.) ein allgemeines Bild von der univariaten, bivariaten und multivariaten Verteilung der Daten machen. Wichtig ist u. a. zu wissen, ob sich grundsätzlich die erwarteten Zusammenhänge zeigen, ob Variablen extrem schief verteilt sind, wie viele Ausprägungen die Variablen aufweisen, und ob es unioder multivariate Ausreißer gibt.

7. Fast alle Daten müssen vorab rekodiert werden

Ausreißer, d. h. Fälle mit sehr ungewöhnlichen Kombinationen von Werten deuten ebenso wie fehlende oder kontraintuitive Zusammenhänge auf Messbzw. Übertragungsoder Kodierungsfehler in den Daten hin, die an dieser Stelle abgeklärt werden müssen. Im Falle einer eigenständigen Datenerhebung ist dies in der Regel durch Rückgriff auf die ursprünglichen Fragebögen, Messprotokolle etc. möglich; bei Sekundäranalysen müssen die Primärforscher kontaktiert werden, sofern diese noch erreichbar sind. Alle Rekodierungen sollten innerhalb eines allgemeinen Statistikpaketes und programmatisch, d. h. mit Hilfe dokumentierter Skripte durchgeführt werden, ohne die ursprünglichen Dateien zu verändern. Nur so lassen sich die getroffenen Entscheidungen später nachvollziehen, reproduzieren und gegebenenfalls revidieren.

Hat man die Daten über eines der großen Archive bezogen, wurde in der Regel bereits dort eine grundlegende Plausibilitätsprüfung durchgeführt. Zeigen sich dennoch Ausreißer, so liegt dies in diesem Zusammenhang häufig daran, dass es kein standardisiertes Format für die Kodierung fehlender Werte gibt und diese beim Transfer zwischen verschiedenen Computerprogrammen nicht als solche erkannt werden. Weit verbreitet sind beispielsweise die Werte 9, 98, 99, 999 und 9999, die manchmal noch mit einem negativen Vorzeichen kombiniert werden. Tauchen solche Werte in einer Verteilung auf, in der die meisten anderen Messwerte wesentlich kleiner sind, zeigt ein Blick in die Dokumentation oft, dass es sich hier eigentlich um fehlende Werte handelt. Wenn sich jedoch nicht klären lässt, ob ein Ausreißer real ist oder auf einen Kodierungsfehler zurückgeht, muss die Forscherin eine begründete und dokumentierte Entscheidung darüber treffen, ob der entsprechende Fall/Messert beibehalten oder gegebenenfalls durch das Rekodierungsskript gelöscht wird.

8. Fehlende Werte dürfen nicht einfach ignoriert werden

Fast jeder Datensatz weist eine mehr oder minder große Zahl von fehlenden Werten (MISSING DATA) auf. In den meisten Statistikprogrammen werden alle Fälle, bei denen zumindest eine Variable einen fehlenden Wert aufweist, aus der Analyse ausgeschlossen (listwise deletion). Dies kann dazu führen, dass die Modellschätzungen verzerrt und die Standardfehler zu klein, also zu optimistisch sind. Außerdem kann sich in Modellen mit sehr vielen Variablen durch die Strategie des listenweisen Löschens die Fallzahl sehr stark reduzieren (King et al. 2001). Ist der Anteil fehlender Werte jedoch gering und die Annahme zufälliger Ausfälle haltbar, kann das listenweise Löschen eine einfache und robuste Analysestrategie sein (Allison 2002).

Bei der Analyse von Kovarianzen ist es grundsätzlich auch denkbar, Fälle paarweise zu löschen (pairwise deletion). Dies bedeutet, dass ein Fall mit fehlenden Werten für eine oder mehrere Variablen nicht gänzlich aus dem Datensatz gelöscht, sondern nur bei der Berechnung der betroffenen Varianzen und Kovarianzen ausgeschlossen wird

[1]. Der Vorteil dieser Vorgehensweise liegt darin, dass vor allem bei Modellen mit vielen Variablen deutlich weniger Informationen verlorengehen. Allerdings basieren die Schätzungen für Varianzen und Kovarianzen dann auf je unterschiedlichen Fällen und Fallzahlen. Damit ist die resultierende Varianz-Kovarianzmatrix möglicherweise kein geeigneter Schätzer für die tatsächlichen Zusammenhänge zwischen den Variablen (King et al. 2001).

Alternativ zum listenoder paarweisen Löschen ist es möglich, die fehlenden Beobachtungen durch mehrere plausible Werte zu ersetzen (multiple Imputation) oder das Modell unter Einbeziehung der unvollständigen Beobachtungen zu schätzen (FULL INFORMATION MAXIMUM-LIKELIHOOD-VERFAHREN (FIML)). Beide Ansätze gehen weit über die in diesem Buch vermittelten Grundkenntnisse hinaus und erfordern zwingend den Rückgriff auf die einschlägige Literatur (zur Einführung z. B. Allison 2002) sowie die Dokumentation der verwendeten Programme. In jedem Fall müssen die fehlenden Werte zunächst korrekt als solche (re)kodiert werden. Entscheidet man sich für das listenweise Löschen, ist es oft am einfachsten, fehlende Werte bei der Rekodierung innerhalb eines allgemeinen Statistikprogramms zu löschen, bevor die Daten in ein für LISREL/PRELIS oder Mplus lesbares Format übertragen werden. Auf diese Weise lassen sich die unter Punkt 7 beschriebenen Fehler vermeiden. Nähere Informationen zur Behandlung fehlender Werte finden sich in Abschn. 4.3.1

  • [1] Am besten lässt sich dies mit einem Beispiel verdeutlichen. Gegeben seien drei Variablen, für die empirische Messwerte erhoben wurden. Die Beziehungen zwischen diesen Variablen werden durch eine Varianz-Kovarianzmatrix mit 3 × 2 = 6 nicht-redundanten Elementen beschrieben (Abschn. 2.2.1, Seite 26). Fehlt bei einem Fall beispielsweise nur der erste von drei Messwerten, so muss er zwangsläufig von Berechnung der Varianz dieser Variablen sowie von der Berechnung der beiden Kovarianzen der betroffenen Variable mit den

    beiden übrigen Variablen ausgeschlossen werden. Die Informationen aus den beiden anderen Messwerten können aber für die Berechnung der beiden übrigen Varianzen sowie der verbleibenden Kovarianz genutzt werden

 
< Zurück   INHALT   Weiter >