< Zurück   INHALT   Weiter >

9.2.2. Training der Beobachterinnen

Für jedes Manual wurden Beobachterinnen (Studentinnen aus erziehungswissenschaftlichen Fächern) trainiert, wobei die Schulungen je nach Umfang des Manuals zwischen einem Tag und einer Woche dauerten. Ziel der Schulungen war es, dass die Beobachterinnen ein gemeinsames theoretisches Verständnis des zu beobachtenden Merkmals erlangen. Dazu wurden alle Systeme ausführlich besprochen und diskutiert sowie anhand von Beispielen veranschaulicht.

Für die Analyse der Unterrichtsvideos wurde das Programm Videograph (Rimmele, 2002) verwendet. Hier sind beide Kameraperspektiven parallel abspielbar und das Transkript ist während der Kodierungen sichtbar. Die Kodierung der Videos mit Hilfe unterschiedlicher Stichprobenpläne (Timeund Event-Sampling-Verfahren) wird unterstützt und die Beobachtungsdaten können direkt in SPSS exportiert und dort weiterverarbeitet werden. Nach einer Einführung in den Umgang mit dem Programm Videograph für die jeweilige Art der Kodierung wurden noch während der Schulung erste Überprüfungen der Beobachterübereinstimmung/Reliabilität durchgeführt, indem ausgewählte Unterrichtsaufnahmen von den Kodiererinnen und von der Verfasserin der Arbeit unabhängig voneinander analysiert und die Ergebnisse anschließend verglichen und besprochen wurden.

9.2.3. Überprüfung der Übereinstimmung bzw. Reliabilität

Im Folgenden wird zunächst das allgemeine Vorgehen bei der Berechnung der Beobachterübereinstimmung und -reliabilität beschrieben, bevor auf die einzelnen Kennwerte, die berechnet wurden, eingegangen wird.

9.2.3.1 Vorgehen

Abbildung 5 stellt das Vorgehen bei der Überprüfung der Beobachterübereinstimmungen und Reliabilitäten dar und verdeutlicht dabei den Unterschied zwischen niedrig bis mittel inferenten nominalskalierten Kategoriensystemen und hoch inferenten intervallskalierten Ratinginstrumenten.

Abbildung 5 Schematische Darstellung des Vorgehens bei der Überprüfung der Übereinstimmung/Reliabilität (vgl. Lotz et al., 2013a, S. 90)

Da bei einem niedrig bis mittel inferenten Kategoriensystem pro Unterrichtsaufnahme bereits viele Kodierentscheidungen getroffen werden (z. B. für jede 10-Sekunden-Einheit oder für jedes auftretende Ereignis, z. B. jede Lehrerfrage), liegen bereits nach der Auswertung weniger Unterrichtsvideos genügend Daten vor, um eine erste Übereinstimmungsprüfung vorzunehmen. Ist hier die Übereinstimmung zufriedenstellend (zu den festgelegten Mindestwerten vgl. 9.2.3.2), kann mit der Auswertung des restlichen Materials begonnen werden. In der vorliegenden Studie wurde bei den niedrig bis mittel inferenten Auswertungen so verfahren, dass die einzelnen Videos auf die Kodiererinnen aufgeteilt wurden, sodass jede Kodiererin einen Teil des Materials auswertete (Ausnahme: Auswertung der Reflexionsphasen, vgl. 9.3.4.1.2). Im Verlauf der Kodierungen fanden dann weitere Übereinstimmungsprüfungen statt, um eine hohe Reliabilität über den Verlauf der gesamten Kodierungen zu gewährleisten und mögliche Schwierigkeiten erkennen und besprechen zu können. Hierzu wurden dieselben Videos immer sowohl von allen Kodiererinnen als auch von der Entwicklerin der Beobachtungssysteme (Master) kodiert. Die Unterrichtsvideos, anhand derer die Übereinstimmungen geprüft wurden, werden in die weiteren Analysen mit einbezogen, um die Stichprobengröße nicht zu verringern. Dazu wird mit der Master-Kodierung weiter gearbeitet.

Bei einem hoch inferenten Rating erhält man für jedes Item des Beobachtungsystems lediglich einen Wert pro Unterrichtsstunde, sodass eine sinnvolle quantitative Überprüfung der Reliabilität erst nach der Auswertung einiger Videos sinnvoll ist (Hugener et al., 2006b). Daher wurde hierbei so vorgegangen, dass nach dem Rating eines Videos lediglich die Werte verglichen wurden und über nicht übereinstimmende Qualitätsurteile gesprochen wurde, um das während der Schulung entwickelte gemeinsame Verständnis unmittelbar prüfen und gegebenenfalls anpassen zu können. Die erste rechnerische Überprüfung der Reliabilität fand nach dem Rating der ersten vier Videos statt und wurde nach jeweils vier weiteren Videos über den gesamten Ratingprozess weiter getestet. Aufgrund der höheren Inferenz des Beobachtungssystems wurden alle Unterrichtsvideos von beiden Kodiererinnen unabhängig voneinander ausgewertet. So kann zum einen die Reliabilität über die gesamte Stichprobe hinweg überprüft werden, zum anderen können für die weiteren Analysen die Mittelwerte der beiden Raterinnen verwendet werden. Zur Überprüfung der Reliabilität mit der Master-Kodierung wertete die Entwicklerin des Kategoriensystems zusätzlich 15 Videos aus.

Bei der Darstellung der Ergebnisse werden immer nur die Übereinstimmungen über alle Videos angegeben, nicht die Ergebnisse aufgeteilt nach Messzeitpunkt der Beobachterübereinstimmung.

 
< Zurück   INHALT   Weiter >