< Zurück   INHALT   Weiter >

9.2.3.2 Kennwerte der Übereinstimmung und Reliabilität

Je nach Art des Beobachtungssystems wurden unterschiedliche Kennwerte für die Übereinstimmungen und Reliabilitäten berechnet. Für nominalskalierten Kategoriensysteme wurden die prozentuale Übereinstimmung sowie Cohens Kappa (bei Time-Sampling-Verfahren) berichtet, bei intervallskalierten, hoch inferent einzuschätzenden Ratingsystemen der Generalisierbarkeitskoeffizient und die Varianzkomponenten. Diese Kennwerte wurden bereits bei Lotz und Kollegen (2013a) als Standard für alle Auswertungen im Rahmen der PERLE-Videostudien festgelegt (vgl. Tabelle 3). Da bei nominalskalierten Kategoriensystemen lediglich eine exakte Übereinstimmung der Kodierenden wünschenswert ist, wird hier von Beobachterübereinstimmung gesprochen. Bei intervallskalierten Ratingsystemen genügt es hingegen, wenn die Tendenz der Beurteilungen und die Rangreihen der Bewertungen sehr ähnlich sind. Daher wird hier von Reliabilität bzw. Interraterreliabilität gesprochen.

Tabelle 3 Kennwerte der Beobachterübereinstimmung und -reliabilität (Lotz et al., 2013a, S. 94)

Die in Tabelle 3 angegebenen Mindestwerte geben jeweils die Übereinstimmungen/ Reliabilitäten an, die im ersten Test nach der Schulung mindestens erreicht werden mussten, um mit der eigenständigen Kodierung beginnen zu können. Anderenfalls hätte eine nochmalige Schulung stattfinden müssen. Auch in den Übereinstimmungstests, die im Verlauf der weiteren Kodierungen immer wieder stattfanden, mussten diese Mindestwerte immer von allen Kodiererinnen (sowohl in der Übereinstimmung untereinander als auch mit der MasterKodierung) erreicht werden, um die Kodierungen anschließend ohne Nachschulung fortsetzen zu können.

Wirtz und Caspar (2002) weisen darauf hin, dass solche Werte immer nur als grobe Richtlinie verstanden werden dürfen, da deren Höhe von mehreren Faktoren wie beispielsweise der Varianz oder der Grundrate abhängig ist. In der vorliegenden Studie wurde deshalb, auch wenn die Mindestwerte für die Beobachterübereinstimmungen erreicht wurden, immer alle auftretenden Nicht-Übereinstimmungen betrachtet, um gegebenenfalls mit den Kodiererinnen anschließend zu besprechen, bei welchen Kategorienzuordnungen noch Uneinheitlichkeit besteht und gegebenenfalls die Kodierregeln aufzufrischen. Die einzelnen Kennwerte werden im Folgenden knapp dargestellt.

9.2.3.2.1 Prozentuale Übereinstimmung

Bei nominalskalierten Kategoriensystemen wird zur Berechnung der Beobachterübereinstimmung lediglich die Information über die Gleichheit bzw. Ungleichheit jeder Kodierung benötigt. Der einfachste und zugleich anschaulichste Kennwert ist dabei die prozentuale Übereinstimmung (), die das Verhältnis übereinstimmender Kodierungen und nicht-übereinstimmender Kodierungen an der Gesamtzahl der Kodierungen relativiert. Damit gibt der Wert den prozentualen Anteil derjenigen Fälle an, in denen zwei oder mehr Kodierende ein exakt gleiches Urteil abgeben (Fleiss, 1973). Die prozentuale Übereinstimmung berechnet sich wie folgt (Wirtz & Caspar, 2002):

Die prozentualen Übereinstimmungen für die vorliegende Arbeit wurden immer paarweise berechnet, das heißt es wurde geprüft, inwiefern jede einzelne Kodiererin mit dem Master übereinstimmt und wie jede einzelne Kodiererin mit jeder anderen Kodiererin übereinstimmt. In Anlehnung an Hugener (2006b), Seidel (2003b) und Lotz und Kollegen (2013a) wurde der Mindestwert auf ≥ 85.00 % festgelegt.

9.2.3.2.2 Cohens Kappa

An der prozentualen Übereinstimmung kann kritisiert werden, dass sie nicht berücksichtigt, wie hoch die Übereinstimmung allein aufgrund des Zufalls wäre (Wirtz & Caspar, 2002). Besonders gut zu verdeutlichen ist dies anhand eines dichotomen Kategoriensystems, das lediglich aus zwei Kategorien besteht. Bei jeder Kodierentscheidung besteht eine fünfzigprozentige Chance, dass allein zufällig zwei Kodierer oder Kodiererinnen den gleichen Wert vergeben.

Deshalb wird für nominalskalierte Kategoriensysteme, die im Time-Sampling-Verfahren ausgewertet werden, zusätzlich zur prozentualen Übereinstimmung Cohens Kappa berechnet, das zwar auf der basiert, aber zusätzlich auf Basis einer Kreuztabelle die Zufallswahrscheinlichkeit übereinstimmender Kodierungen berücksichtigt. Die Werte für Cohens Kappa können potenziell zwischen -1 und +1 liegen, wobei ein Wert von +1 eine perfekte Übereinstimmung angibt. Cohens Kappa wird wie folgt berechnet:

Auch Cohens Kappa wird wie bereits die prozentuale Übereinstimmung für alle Kodiererinnenpaare einzeln ermittelt, wobei der Mindestwert auf k = .70 festgelegt wurde (vgl. Fleiss & Cohen, 1973; Lotz et al., 2013a). Bei sehr ungleichen Randsummenverteilungen kann es allerdings insbesondere bei dichotom zu kodierenden Items dazu kommen, dass Cohens Kappa sehr gering ausfällt, obwohl die prozentuale Übereinstimmung hoch ist. Dies ist meist dann der Fall, wenn ein Ereignis nur sehr selten auftritt (Feinstein & Cicchetti, 1990; Cicchetti & Feinstein, 1990; Spitznagel & Helzer, 1985). In solchen Fällen kann das Zustandekommen des geringen Kappa-Werts überprüft werden, um entscheiden zu können, ob dennoch von einer ausreichend hohen Übereinstimmung ausgegangen werden kann, um mit den Daten weiter zu arbeiten.

9.2.3.2.3 Generalisierbarkeitskoeffizient und Varianzkomponenten

Der Generalisierbarkeitskoeffizient wurde für alle intervallskalierten Kategorienund Ratingsysteme zur Berechnung der Reliabilität verwendet. Die Generalisierbarkeitstheorie (Cronbach et al., 1972), eine Erweiterung und Liberalisierung der Klassischen Testtheorie, geht davon aus, dass jeder beobachtete Wert eine Stichprobe aus dem Universum möglicher Beobachtungen unter verschiedenen Bedingungen darstellt. Dabei können mehrere Fehlerquellen simultan und interagierend wirken, sodass nicht-übereinstimmende Beobachtungen auf verschiedene Varianzquellen zurückgeführt werden können (Clausen et al., 2003).

Der Generalisierbarkeitskoeffizient (G-Koeffizient) ist – analog zum Reliabilitätskoeffizienten der Klassischen Testtheorie (Clausen et al., 2003) – der Anteil der universalen Varianz (σ2p) an der Gesamtvarianz (universale plus relative Fehlervarianz: σ2p + σ2fehler) (Renkl & Helmke, 1993; Stumpp & Großmann, 2004) und zeigt an, inwieweit die Einschätzungen ausreichende Generalisierbarkeit (Zuverlässigkeit) aufweisen.

Während beim relativen G-Koeffizienten nur überprüft wird, inwieweit die Rangreihen der unterschiedlichen Beobachtenden übereinstimmen, wird bei der Berechnung des absoluten GKoeffizienten auch die Höhe der Einschätzungen mit einbezogen (Brennan & Kane, 1977). Daher ist der absolute G-Koeffizient ein genaueres Maß, weil er auch eine Aussage dazu treffen kann, ob ein Beobachter oder eine Beobachterin beispielsweise grundsätzlich milder oder strenger urteilt. In der vorliegenden Studie wird der absolute G-Koeffizient deshalb zusätzlich für alle Beobachtungssysteme angegeben, bei denen das Videomaterial auf die Beobachterinnen aufgeteilt wurde, also nicht jedes Video von allen Beobachterinnen beurteilt wurde. Hier ist die absolute Höhe der Beobachtungsurteile von Bedeutung, da weitere Analysen auf den Auswertungen einer Kodiererin basieren und nicht auf den Mittelwerten mehrerer Raterinnen.

Die Wertebereiche der Koeffizienten liegen zwischen Null und Eins. Für die PERLE-Videostudien wurde der Minimalwert der Reliabilität in Anlehnung an Rakoczy und Pauli (2006) auf g ≥.70 festgelegt (vgl. Lotz et al., 2013a), was auch für die vorliegende Studie so übernommen wird.

Neben dem G-Koeffizienten wird in der Ergebnisdarstellung (vgl. 9.3) immer auch die Zerlegung der Varianzkomponenten dargestellt. Unterschiede in den Unterrichtsbeobachtungen können potenziell auf drei Varianzquellen zurückgehen: (1) die Unterrichtsvideos selbst (V), (2) die Beobachterinnen (B) oder (3) die Interaktion zwischen Video und Beobachterin und die unsystematische Fehlervarianz (U). Zur Gewährleistung einer größtmöglichen Unabhängigkeit der Auswertungen von der Person des Beobachtenden (Objektivität) besteht das Ziel darin, dass der größte Teil der Varianz auf tatsächlichen Unterschieden zwischen verschiedenen Unterrichtsstunden beruht (wahre Varianz). Systematische Fehler, also der Teil der Varianz, der auf die Person des Raters oder der Raterin zurückgeht, sollten hingegen möglichst gering sein (Clausen et al., 2003), da diese Fehler z. B. durch eine unterschiedliche Interpretation der Ratingskalen oder eine subjektiv gefärbte Wahrnehmung des Unterrichts zustande kommen (Pietsch & Tosana, 2008). Auch die unsystematische Fehlervarianz sollte möglichst gering ausfallen (Praetorius et al., 2012).

Der G-Koeffizient und die Varianzkomponenten wurden mit dem GT-Programm für Generalisierbarkeitsstudien (Ysewijn, 1996) berechnet.

 
< Zurück   INHALT   Weiter >