Die Wahl der Beobachtungsmethode: Niedrig und hoch inferente Methoden der Unterrichtsbeobachtung

Dalehefte (2006) beschreibt, dass bei der Entwicklung von Beobachtungsverfahren grundsätzlich zwei Möglichkeiten in Frage kommen: Zum einen können bereits bestehende Beobachtungssysteme benutzt werden, was die Vergleichbarkeit von Ergebnissen über Studien hinweg sowie die Verständigung über Forschungsergebnisse erleichtert und die Validität der Beobachtungsergebnisse erhöhen kann. Zum anderen können neue Instrumente selbst entwickelt werden, was immer dann notwendig ist, wenn zu einem Bereich noch keine passenden Verfahren existieren. Eine Zwischenlösung stellt die Adaption bestehender Beobachtungsverfahren an die spezifischen Gegebenheiten der vorliegenden Studie dar.

Beobachtungssysteme lassen sich dabei einerseits auf einem Kontinuum zwischen niedrig und hoch inferenter Beobachtung einordnen. Andererseits können sie anhand des Stichprobenplans in Timeund Event-Sampling-Verfahren klassifiziert werden (z. B. Clausen 2002; Clausen et al., 2003; Hugener, 2006b; Lotz et al., 2013a/b; Rosenshine, 1970; Seidel, 2003b). Da für die vorliegende Studie je nach fokussiertem Merkmal verschiedene Methoden angewandt werden, werden deren Grundzüge sowie Vorund Nachteile im Folgenden aufgezeigt. Tabelle 1 wurde inhaltlich einem Kapitel aus dem Technischen Bericht zu den PERLE-Videostudien entnommen (Lotz et al., 2013a) und zeigt die grundlegenden Aspekte bei der Unterscheidung verschiedener Inferenzgrade bei systematischer Unterrichtsbeobachtung.

Tabelle 1 Verschiedene Inferenzgrade bei der systematischen Unterrichtsbeobachtung (vgl. Lotz et al., 2013a, S. 84)

Ein klassisches niedrig inferentes Verfahren stellt beispielsweise die Kodierung der Sozialformen (z. B. Einzelarbeit, öffentlicher Unterricht) dar. Nachdem die einzelnen Sozialformen klar definiert wurden und Regeln dafür festgelegt wurden, wie mit Wechseln zwischen verschiedenen Phasen oder Kombinationen umzugehen ist, muss der Kodierer oder die Kodiererin die einzelnen Unterrichtsabschnitte auf Basis dieser Regeln klassifizieren. Dazu sind kaum interpretative Schlussfolgerungen notwendig. Dabei können niedrig inferente Verfahren sowohl im Rahmen von Zeitals auch Ereignisstichprobenplänen (Timeund EventSampling-Verfahren) angewandt werden. Während beim Time-Sampling vorab festgelegt ist, dass beispielsweise für jedes 10-Sekunden-Intervall eine Kodierung vergeben wird, werden beim Event-Sampling-Verfahren der Beginn und das Ende verschiedener Ereignisse je nach Auftreten erst durch die Kodierung selbst festgelegt (Hugener, 2006b; Seidel, 2003b). Ein TimeSampling-Verfahren bietet sich daher an, wenn es um die Beschreibung eher konstanterer Zeitverläufe – im Gegensatz zu nur kurz auftretenden Ereignissen – geht.

Hoch inferente Verfahren sind meist Schätzverfahren, bei denen längere Unterrichtsabschnitte auf einer vorab definierten Skala (z. B. von „1“ bis „4“) in ihrer Qualität beurteilt werden. Auch hier ist zwar die Grundidee vorgegeben und es werden Indikatoren formuliert, anhand derer sich das jeweilige Qualitätsmerkmal beobachten lässt, um eine möglichst reliable Erfassung zu ermöglichen. Allerdings muss der Rater oder die Raterin dennoch viele Einzeleindrücke über den Verlauf der Unterrichtsstunde hinweg zu einem globalen Gesamteindruck integrieren, wozu interpretative Schlussfolgerungen nötig sind. Dadurch werden komplexe, miteinander interagierende Merkmale des Unterrichts bewertet (Hugener, Rakoczy, Pauli & Reusser, 2006; Petko et al., 2003; Waldis et al., 2010b). Hoch inferente Verfahren stellen eine spezielle Form des Event-Sampling-Verfahrens dar, da ein vorab definiertes Ereignis/Event (meist die gesamte Unterrichtsstunde oder eine bestimmte Unterrichtsphase) in seiner Qualität eingeschätzt wird (Hugener, 2006b; Lotz et al., 2013a).

Als mittel inferente Verfahren können Methoden bezeichnet werden, bei denen zwar interpretative Schlussfolgerungen erforderlich sind, die aber geringer sind als bei einem hoch inferenten Rating. Dies ist einerseits der Fall, wenn zwar ähnlich wie bei hoch inferenten Verfahren eine Einschätzung auf einer ordinalen Skala verlangt wird, das zu beurteilende Ereignis aber nicht die gesamte Unterrichtsstunde umfasst, sondern ein kürzeres, vorab definiertes Verhalten oder eine einzelne Unterrichtsphase. Soll beispielsweise für eine von der Lehrperson gestellte Aufgabe im Unterricht beurteilt werden, inwiefern diese verständlich formuliert ist (sehr unverständlicheher unverständlichverständlichsehr verständlich), kann zwar nicht vorab vollständig durch die Regeln definiert werden, wann welcher Wert vergeben wird, die Kodierenden müssen aber im Gegensatz zu einem hoch inferenten Rating deutlich weniger Einzelereignisse zu einem Gesamteindruck integrieren, da die Analyseeinheit kleiner ist als bei einem klassischen hoch inferenten Verfahren. Allerdings können nicht nur ordinalskalierte Ratingsysteme mittel inferent sein, sondern auch nominalskalierte Kategoriensysteme können einen höheren Grad an Schlussfolgerungen erforderlich machen als klassische niedrig inferente Kodierungen. Soll beispielsweise beurteilt werden, ob ein Feedback eine positive oder negative affektive Tönung enthält (vgl. 9.3.3.5.1), ist hierzu trotz der Definition der einzelnen Kategorien ein gewisser Grad an Interpretation aufseiten der Beobachtenden erforderlich, sodass auch dies als Beobachtung mittlerer Inferenz bezeichnet werden kann.

Niedrig und mittel inferente Kategoriensysteme liefern zum Teil sehr detaillierte Aussagen über die Gestaltung des Unterrichts sowie dessen zeitlichen Verlauf und können somit sehr gut zur Deskription des Unterrichtsgeschehens herangezogen werden. Aufgrund des geringeren Ausmaßes an interpretativen Schlussfolgerungen sind zudem höhere Übereinstimmungen zwischen verschiedenen Kodierenden zu erwarten als bei hoch inferenten Ratings. Bei diesen wird die Rolle von Beurteilungsfehlern kritisch diskutiert (zsf. Eckes, 2004; Pietsch & Tosana, 2008; Praetorius et al., 2014; Waldis et al., 2006). Praetorius (2014; vgl. auch Praetorius, Lenske & Helmke, 2012) zeigt beispielsweise, dass bei hoch inferenten Ratings die Beobachter und Beobachterinnen die einzelnen Items oft unterschiedlich verstehen, was dazu führen kann, dass „existierende Zusammenhänge mit Merkmalen – wie z. B. der Leistungsentwicklung von Schülerinnen und Schülern – nicht aufgedeckt werden können“ (S. 94). Wenn einzelne Rater oder Raterinnen die Items unterschiedlich interpretieren, kann dies die Validität der Daten einschränken. Selbst wenn die Beobachtenden in ihren Beurteilungen übereinstimmen, kann es sich nämlich dabei theoretisch um einen sogenannten kollektiven Irrtum handeln (Helmke, 2009; vgl. auch Strong et al., 2011). Indem Zusammenhänge zwischen hoch und niedrig inferent erfassten Daten aus dem PERLE-Projekt analysiert wurden, konnte zudem Hinweise dafür gewonnen werden, dass die klare Abgrenzung der Ratingstufen bei hoch inferenten Ratings zum Teil schwerfällt (vgl. Lotz et al., 2013b), was eine inhaltliche Interpretation des Ausprägungsgrades von Merkmalen der Unterrichtsqualität allein anhand hoch inferenter Ratings erschwert. Einige Unterrichtsforscher (z. B. Clausen, 2002; Reyer, 2004) schreiben hoch inferenten Ratings aber einen höheren Bezug zur Theorie zu, was als ein Grund dafür angesehen wird, dass deren Zusammenhänge mit dem Lernerfolg der Schülerinnen und Schüler höher ausfallen als bei niedrig inferenten Verfahren (Clausen et al., 2003). Daher wurde auch bei der Entwicklung der niedrig inferenten Kategoriensysteme im Rahmen dieser Arbeit darauf geachtet, explizite Bezüge zur Theorie herzustellen, welche jeweils in den Manualen zu den einzelnen Beobachtungssystemen im Anhang nachgelesen werden können. Mit niedrig inferenten Kodierungen sind Aussagen zur Unterrichtsqualität nicht immer unmittelbar möglich (vgl. zusammenfassend Lotz et al., 2013a). Im Gegensatz zu hoch inferenten Rating, bei denen meist aufgrund der Skalierung bereits klar wird, welches Ende der Ratingskala das aus theoretischer Sicht positiv beurteilte Verhalten darstellt, ist dies bei niedrig inferenten Verfahren meist nicht unmittelbar ersichtlich. Hier kann es auch vorkommen, dass sich erst im Zusammenspiel mit weiteren erfassten Merkmalen Qualitätsaspekte ergeben. Während mit einem hoch inferenten Rating beispielsweise durch einen Wert erfasst werden kann, ob eine Lehrkraft auf Schülerfehler sachlich-konstruktiv reagiert, lassen sich mit einer niedrig inferenten Kodierung zwar die Feedbacks der Lehrperson gut kategorisieren, zur Ableitung der Qualitätsaussage muss dies aber beispielsweise mit dem vorausgegangenen Schülerverhalten in Beziehung gesetzt werden. In der vorliegenden Studie wird davon ausgegangen, dass sich Qualitätsaussagen auch sinnvoll aus niedrig inferenten Kodierungen generieren lassen. Es werden zusätzlich aber auch einige Aspekte, bei denen komplexere Interaktionsprozesse in ihrem Zusammenspiel beurteilt werden müssen, hoch inferent erfasst.

 
< Zurück   INHALT   Weiter >