< Zurück   INHALT   Weiter >

7.3.3 Güteprüfung der clusterbildenden Variablen

Zur Güteprüfung der clusterbildenden Variablen werden folgende Tests angewendet. Zunächst wird überprüft, ob die Motivvariablen korrelieren. Dazu wird der Pearson Korrelationskoeffizient[1] berechnet. Eine Methode zur Prüfung der univariaten Normalverteilung ist der Kolmogorov-Smirnov-Test (KS-Test) mit Signifikanzkorrektur nach Lillefors[2], der die Abweichung der beobachteten Häufigkeiten der Ausprägungen Fx von einer zu erwartenden Normalverteilung F0(x) misst, und der Shapiro-Wilk-Test, der vor allem für kleinere Stichproben geeignet ist und direkt untersucht, ob die Variable normalverteilt ist (Shapiro und Wilk 1965; Ostermann und Wolf-Ostermann 2010; Rasch 2010; Weiber und Mühlhaus 2009, S. 2). Dabei ist der Quotient W das Verhältnis zwischen der Varianz, wie sie bei einer normalverteilten Grundgesamtheit aussehen müsste b², und der korrigierten Stichprobenvarianz, wie sie tatsächlich vorliegt s².

Weiterhin werden Schiefe und Wölbung betrachtet. Der Schiefekoeffizient (Skewness) ss. misst ausgehend vom Mittelwert die symmetrische Verteilung ober- und unterhalb des Mittelwertes einer Variablen[3]. Der Wölbungskoeffizient (Kurtosis) sk misst die sog. Dichteverteilung[4]. Werte, die größer oder kleiner Null sind, weisen auf eine Streuung hin, die von Extremwerten beein- flusst ist und die Verteilung spitzoder flachwinklig macht (Rönz et al. 1994, S. 323 f.). Eine perfekte Normalverteilung würde erreicht, wenn sk und ss Werte von Null annehmen. In der Literatur finden sich unterschiedliche Grenzwerte für die Verletzung der Normalverteilungsannahme. Scholderer und Balderjahn (Scholderer und Balderjahn 2006, S. 62) merken an, dass nur in den wenigsten Fällen Normalverteilungen der Daten gegeben sind und eher die Verletzung der Verteilungsannahmen die Regel ist. Die Prüfung auf Normalverteilung dient daher eher der Aufklärung, wie stark die Abweichung ist (Weiber und Mühlhaus 2010, S. 147). West und Kollegen (1995, S. 74) nennen Grenzwerte des Wölbungskoeffizienten von sk = 7 und des Schiefekoeffizienten von ss = 2, während andere Autoren bereits von einer Verletzung der Verteilungsannahmen bei Wer-ten von ss = 1 und sk = 1 sprechen (Temme und Hildebrandt 2009, S. 166; Weiber und Mühlhaus 2009, S. 4). Bollen (1989, S. 425) postuliert, dass weiterführende Schätzungen[5] nur bei einer groben Verletzung der Schwellenwerte nicht mehr ohne z.B. verzerrte Fitindizes, fälschliche Annahmen von signifikanten Effekten und Unterschätzungen von Standardfehlern möglich sind. Deshalb werden im Folgenden die Richtwerte von West und Kollegen (1995, S. 74) berücksichtigt.

Das Maß von Mardia wird zur Prüfung der multivariaten Normalverteilung

herangezogen. Er misst die multivariate Wölbung und sollte so nah an

heranreichen wie möglich. s M = 0

Um zu überprüfen, ob die Motivvariablen auch innerhalb der gefundenen Cluster ausreichend streuen, wird der Levene-Test durchgeführt (Levene 1960). Ist ausreichend Varianz vorhanden, können Varianzanalysen durchgeführt werden. Die H0 besagt, dass die Varianzen in allen Gruppen identisch sind. Durch Teilen der Summe der Abweichungsquadrate, die durch die Gruppenvariable erklärt wird, zwischen den Stichproben durch die Summe der Abweichungsquadrate innerhalb der Stichproben, die nicht durch die Gruppenvariable erklärt wird, wird die Teststatistik berechnet. Je heterogener die Varianz, desto größer wird die Teststatistik und die H1 kann angenommen werden. Zur Prüfung der Heterogenität der ermittelten Cluster werden die Mittelwertunterschiede der Motivvari-ablen mit F-Test und q² berechnet. Der F-Test238 setzt die mittleren quadratischen Abweichungen zwischen MSb und innerhalb der Faktorstufen einer Variablen MSw zueinander in Beziehung und vergleicht diesen Wert mit den theoretischen F-Werten der F-Tabelle in Abhängigkeit der Freiheitsgrade von Spalten und Zählern. Ist der empirische Wert größer als der theoretische Wert in der FTabelle, kann davon ausgegangen werden, dass ein Einfluss des Faktors gegeben ist (Backhaus et al. 2008, S. 156 ff.). q² misst den Zusammenhang der Summe der quadrierten Abweichungen der Werte einer Variablen innerhalb der Gruppen vom arithmetischen Mittel Qzw und zwischen den Gruppen vom arithmetischen Mittel Qges [6](Rasch 2010, S. 78 f.). Der folgende Post-Hoc-Test mit der Scheffé-Prozedur (Tabelle A 25) Dcrit misst, ob sich die Mittelwerte zwischen den Gruppen p signifikant unterscheiden. Erreicht die Prüfgröße den kritischen F-Wert Fp-1,N-p;1-a, unterscheiden sich die Mittelwertpaare signifikant. Dabei betrachtet er jeweils zwei Mittelwertpaare der Cluster. Anschließend werden deskriptive Analysen nach den gefundenen Clustern ausgeführt. Dabei werden die Zusammenhangsmaße verwenden, die bereits in Kapitel 7.3 dargestellt wurden.

  • [1] r = cov (x;y) mit cov (x; ) 1 .Ln
  • [2] D = max IF (x) = <P (x-µ)I Auf die Darstellung des Lillefors (1967, S. 399) Signifikanz- tests wird verzichtet. „Die Nullhypothese H0 lautet somit: Die empirische Verteilung der Vari- able x stimmt mit der Referenzverteilung (Normalverteilung mit µ = Mittelwert von x, und a = Standardabweichung von x) überein“ (Weiber und Mühlhaus 2009, S. 2). H0: Fx(x) = F0(x)
  • [3] Negativer Wert = rechtsschiefe Verteilung, positiver Wert = linksschiefe Verteilung (Weiber und Mühlhaus 2010, S. 146)
  • [4] Mehr dazu z.B. in Weiber und Mühlhaus (2010)
  • [5] z.B. die Maximum-Likelihood Methode bei Strukturgleichungsmodellen
  • [6] 112 = QSzw mit QS = .Ln
 
< Zurück   INHALT   Weiter >