< Zurück   INHALT   Weiter >

12. Zusammenfassung, weiterführende Forschungsfragen und praktische Implikationen

Abschließend werden die Ergebnisse der drei Teilstudien noch einmal zusammengefasst, es werden weiterführende Forschungsfragen aufgeführt und es wird diskutiert, inwiefern sich aus der vorliegenden Studie Implikationen für die Lehrerbildung ableiten lassen.

12.1. Zusammenfassung der drei Studien

Das zentrale Ziel der ersten Studie bestand in der Operationalisierung und videobasierten Erfassung kognitiv aktivierender Leseübungen und stellte damit die Basis und das methodische Vorgehen für die beiden folgenden Teilstudien dar. Die kognitive Aktivierung als eine der drei Basisdimensionen guten Unterrichts (Klieme et al., 2006) wurde ausgewählt, da sie die Aspekte der fachlichen Qualität des Unterrichts am besten repräsentiert, wohingegen bei der Klassenführung und dem Unterrichtsklima davon auszugehen ist, dass sie weitgehend fachunspezifisch konzeptualisiert werden können (vgl. Gabriel, 2014). Dabei stand folgende Frage im Vordergrund:

Nach Einschätzung von Pauli (2008) ist die Operationalisierung des Merkmals kognitive Aktivierung „aufgrund des derzeitigen theoretischen und empirischen Erkenntnisstands und der Mehrdimensionalität dieses Konstrukts schwieriger“ (S. 152) als beispielsweise für die Klassenführung oder das Unterrichtsklima. Sie schlägt daher vor, die Beobachtungskriterien

„entlang der Achsen des ‚didaktischen Dreiecks' (Lehrstoffund Aufgabenkultur, Lernprozessund Interaktionskultur, Lernhilfeund Unterstützungskultur)“ (S. 152) nach Reusser (2006) zu entwickeln. Die im Rahmen dieser Arbeit entwickelten Merkmale kognitiv aktivierender Leseübungen lassen sich hier gut einordnen: Die Lehrstoffund Aufgabenkultur wurden anhand der niedrig inferenten Analysen der Aufgaben und Fragen sowie der Anregungen zum Einsatz von Lesestrategien untersucht. Zur Beurteilung der Lernprozessund Interaktionskultur können die niedrig inferenten Kodierungen des Feedbacks und auch der Reflexionsphasen herangezogen werden. Die Lernhilfeund Unterstützungskultur wurde explizit anhand der niedrig inferenten Kodierung der individuellen Lernunterstützung in Schülerarbeitsphasen untersucht. Zusätzlich wurden als Rahmenbedingungen zur Ermöglichung eines hohen Ausmaßes an aktiver Lernzeit die effektive Klassenführung, die entspannte Lernatmosphäre sowie die Differenzierung und Individualisierung des Unterrichts vorwiegend über hoch inferente Ratings erfasst. Im Modell kognitiv aktivierender Leseübungen (Kapitel 6) wurde die kognitive Aktivierung also sehr breit gefasst, indem auch Rahmenbedingungen kognitiv anregenden Leseunterrichts einbezogen wurden. Dies wurde insbesondere deshalb entschieden, weil es sich bei den zu beurteilenden Aufnahmen um Anfangsunterricht in der Grundschule handelt. Hier ist – noch stärker als im Sekundarstufenunterricht, welcher bisher im Fokus videobasierter Studien zur kognitiven Aktivierung stand – davon auszugehen, dass die Anregung einer intensiven Auseinandersetzung mit dem Unterrichtsgegenstand nicht nur anspruchsvoller Aufgabenund Fragestellungen bedarf, sondern die Lernenden beispielsweise auch intensiv unterstützt werden sollten. Zusätzlich ist die eher breite Konzeptualisierung darauf zurückzuführen, dass das Modell kognitiv aktivierender Leseübungen nicht nur auf Basis des Forschungsstands zur kognitiven Aktivierung entwickelt wurde, sondern auch Theorien und empirische Untersuchungen aus der Leseund der Übungsforschung berücksichtigt wurden.

In Studie 1 konnte gezeigt werden, dass alle entwickelten Beobachtungsinstrumente eine reliable Unterrichtsbeobachtung ermöglichen. Für die niedrig bis mittel inferenten, nominalskalierten Kategoriensysteme wurden die prozentuale Übereinstimmung und Cohens Kappa zur Beurteilung der Objektivität herangezogen. Die Reliabilität der mittel bis hoch inferenten Ratingsysteme wurde anhand des Generalisierbarkeitskoeffizienten und der Varianzkomponentenverteilung überprüft. Die vorab festgelegten Mindestwerte wurden in den meisten Fällen deutlich übertroffen. Dass sowohl die Übereinstimmungen der Kodiererinnen mit der Master-Kodierung als auch die Übereinstimmungen der Kodiererinnen untereinander gut ausfallen, kann vermutlich auf die ausführlichen Manuale und das intensive Beobachtertraining zurückgeführt werden. Für jedes Beobachtungsinstrument fand eine eigene Schulung statt, die jeweils zwischen drei Tagen und einer Woche dauerte, sodass genügend Zeit zur Verfügung stand, die Kodierregeln ausführlich zu besprechen und insbesondere über unklare Fälle zu diskutieren. Für die Kodiererinnen hilfreich waren außerdem die relativ umfassenden Beobachtungsmanuale, welche neben den Kategoriensystemen und den Kodierregeln auch viele Beispiele enthielten (vgl. Anhang).

In Studie 2 ging es anschließend um die Beschreibung der videografierten Unterichtsstunden anhand der entwickelten Beobachtungsinstrumente, wobei folgende übergeordnete Frage beantwortet werden sollte:

Durch die zahlreichen Kodierungen konnten die Merkmale der Leseübungen umfassend beschrieben werden. Dabei wurde im Rahmen dieser Arbeit ein summatives Vorgehen gewählt, welches zu allen einzelnen Merkmalen die deskriptiven Ergebnisse berichtete, ohne dabei auf den Prozess, das Zusammenspiel und die Aufeinanderfolge der Merkmale innerhalb der einzelnen Unterrichtsstunden einzugehen.

Da auf die Ergebnisse hier im Einzelnen nicht mehr eingegangen werden kann, sollen lediglich zwei Hauptergebnisse noch einmal aufgegriffen werden. Zunächst resultiert aus der ersten Studie, dass die hier videografierten Leseübungen nur selten Merkmale kognitiver Aktivierung im engeren Sinn in hoher Ausprägung aufweisen. Während den Lehrpersonen das Herstellen einer entspannten Lernatmosphäre gut gelingt und auch das Classroom Management weitgehend positiv beurteilt wird, fällt bereits bei den Differenzierungsmaßnahmen auf, dass diese zwar zahlreich umgesetzt werden, dass dies aber nicht unbedingt qualitativ hochwertig gelingt. Orientiert man sich wieder am didaktischen Dreieck (Reusser, 2006), fällt insbesondere auf der Ebene der Lehrstoffund Aufgabenkultur auf, dass vorwiegend einfache Aufgaben und Fragen gestellt werden und den Schülerinnen und Schülern nur wenig Zeit zum Nachdenken gewährt wird. Zwar wird häufig zum Einsatz von Strategien angeregt, dies geschieht aber implizit, sodass unklar bleibt, inwiefern die Lernenden die Strategien bewusst und langfristig auch selbstständig verwenden. Auch auf der Ebene der Lernprozessund Interaktionskultur fällt auf, dass die Lehrpersonen zwar sehr häufig Rückmeldungen geben, dass diese aber vorwiegend wenig elaboriert sind und den Schülerinnen und Schülern somit nur wenig weiterführende Impulse geben. Dies könnte in Zusammenhang mit den eher einfachen Aufgaben und Fragen stehen, welche dazu führen, dass im Unterricht nur sehr selten Fehler vorkommen. Die meist richtigen Schülerantworten werden von der Lehrperson daher nur kurz bestätigt oder gelobt. Ein differenziertes Feedback scheint den Lehrpersonen hier eventuell nicht nötig. Für die kognitive Aktivierung der Schülerinnen und Schüler wäre es aber vielleicht gerade wichtig, herausfordernde Fragen und Aufgaben zu stellen, die nicht sofort richtig gelöst werden können und die Lernenden dann durch spezifisches und informatives Feedback schrittweise im Finden der Lösung zu unterstützen. Dass kaum Reflexionsphasen beobachtet werden konnten, könnte daran liegen, dass den Lehrpersonen nicht bewusst ist, dass dem Rückblick auf den eigenen Lernprozess eine zentrale Bedeutung zukommt. Hier sollten aber weiterführende Untersuchungen stattfinden, da nicht ausgeschlossen werden kann, dass auch die relativ umfangreichen Lehrervorgaben (vgl. 8.2.1) dazu beigetragen haben, dass weniger Zeit für solch eine abschließende Phase blieb als im alltäglichen Unterricht. Auf der Ebene der Lernhilfeund Unterstützungskultur zeigt sich ein ähnliches Ergebnis wie bereits bei der Differenzierung: Die Lernenden werden zwar zahlreich unterstützt, allerdings wird die Qualität der Unterstützung eher als gering eingeschätzt.

Damit steht auch das zweite Hauptergebnis der Teilstudie 2 in Zusammenhang. Es konnte gezeigt werden, dass in den videografierten Unterrichtsstunden eine sehr hohe Interaktionsdichte vorliegt. Die meisten Lehrpersonen stehen nahezu die gesamte Unterrichtszeit mit der Klasse oder einzelnen Schülerinnen und Schülern in Kontakt, instruieren sie durch Aufgaben, Fragen und Strategieanregungen und interagieren mit ihnen beispielsweise in Form von Hilfestellungen und Feedback. Im Durchschnitt werden in einer Minute Unterrichtszeit etwa zwei Aufgaben gegeben, zwei Fragen gestellt, es wird zweimal zum Einsatz einer Lesestrategie angeregt und die Lehrperson gibt fünfmal Feedback. In Schülerarbeitsphasen finden durchschnittlich drei individuelle Lehrer-Schüler-Interaktionen pro Minute statt und es werden drei Hilfestellungen erteilt. Zwar überschneiden sich diese Ereignisse in einigen Fällen, insgesamt ist dennoch erstaunlich, wie viel im Unterricht innerhalb nur einer Minute passiert. Betrachtet man die Häufigkeit von Instruktionen und Interaktionen, erklärt dies vielleicht auch zum Teil die geringe Qualität der einzelnen Merkmale. Allein die geringe Dauer der einzelnen Ereignisse (die mittlere Dauer eines Feedbacks beträgt beispielsweise drei Sekunden) deutet darauf hin, dass hier nur selten genauere Erläuterungen vorkommen können. Die Lehrperson stellt diese sehr hohe Interaktionsdichte vor eine enorme Herausforderung, da – trotz der vorausgehenden Planung – in kurzer Zeit viele didaktische Entscheidungen getroffen werden müssen und sich die Lehrperson immer wieder auf die Bedürfnisse und Schwierigkeiten einzelner Schülerinnen und Schüler einstellen muss. Daher vergleicht Sieland (1999) den Lehrberuf auch mit dem eines Fluglotsen, da eine Lehrkraft im Laufe eines Schulvormittags etwa 6000 Entscheidungen treffen müsse. Angesichts der hier gezeigten enormen Instruktionsund Interaktionsdichte im Unterricht überrascht diese Anzahl nicht. Inwiefern aber diese hohe Anzahl von Interaktionen zur Qualität des Unterrichts positiv oder negativ beiträgt, oder ob es nicht vielmehr auf die Qualität der Interaktion ankommt, müsste weiter untersucht werden (vgl. 12.2).

Auf die Qualität des Unterrichts fokussierte Studie 3, in der die hoch inferent eingeschätzten Items anhand einer explorativen Hauptkomponentenanalysen zu übergeordneten Merkmalen der Unterrichtsqualität zusammengefasst wurden. Dabei wurde folgende Frage analysiert:

Die dritte Studie ist noch einmal in drei untergeordnete Abschnitte aufgeteilt. Im ersten Teil stand das Finden einer angemessenen Faktorlösung im Vordergrund. Von den ursprünglich

28 Items ließen sich 24 zu fünf übergeordneten Komponenten der Unterrichtsqualität zusammenfassen. Dabei können zwei Komponenten – die „Anregung von Denkprozessen“ und die „Konstruktive Lernunterstützung“ – als Merkmale kognitiver Aktivierung im engeren Sinn gelten. Die drei übrigen Merkmale „Schaffen einer lernförderlichen Umgebung“, „Förderung einer eigenständigen Auseinandersetzung mit dem Lerngegenstand“ und „Motivierende Haltung der Lehrperson“ beschreiben eher Rahmenbedingungen kognitiv anregenden Unterrichts. Zwischen den beiden Merkmalen kognitiver Aktiverung im engeren Sinn besteht ein mäßig hoher positiver Zusammenhang, wohingegen die übrigen Merkmale untereinander nicht korrelieren. Dies bestätigt noch einmal, dass in der vorliegenden Arbeit ein eher heterogenes Verständnis kognitiver Aktivierung vorliegt. Auch die Ausprägungen der Komponenten belegen die bereits in Studie 2 gezeigten Ergebnisse: Insbesondere die „Anregung von Denkprozessen“ ist in der untersuchten Stichprobe gering ausgeprägt, wohingegen das „Schaffen einer lernförderlichen Umgebung“ die höchsten Werte erreicht.

Im zweiten Teil wurde überprüft, ob die Qualität und die Sichtstruktur des Unterrichts miteinander in Zusammenhang stehen, wobei insbesondere noch einmal die Zusammenhänge der beiden Komponenten „Anregung von Denkprozessen“ und „Konstruktive Lernunterstützung“ mit der Unterrichtszeit hervorgehoben werden sollen. Für diese Merkmale kognitiver Aktivierung im engeren Sinn zeigte sich, dass sie umso besser beurteilt werden, je länger der videografierte Unterrichtsausschnitt ist. Dies deutet zum einen darauf hin, dass für eine kognitiv aktivierende Übungsphase genügend Zeit eingeplant werden sollte, zeigt aber zum anderen auch, dass die Dauer des beobachteten Unterrichts je nach Beobachtungsfokus eine nicht zu unterschätzende Variable in der videobasierten Unterrichtsforschung darstellt.

Im dritten Teil wurden schließlich Zusammenhänge der übergeordneten Komponenten der Unterrichtsqualität mit den niedrig inferent erfassten Aspekten der Unterrichtsgestaltung überprüft. Da in der vorliegenden Arbeit eine Kombination aus niedrig und hoch inferenter Beobachtung sowie aus Timeund Event-Sampling-Verfahren eingesetzt wurde, um ein umfassenderes Bild zur Beschreibung und Beurteilung des unterrichtlichen Geschehens zu erhalten, bot es sich an, wechselseitige Zusammenhänge zu analysieren: „Durch die Anwendung beider Beobachtungsverfahren kann überprüft werden, ob gewisse Lernaktivitäten mit ausgewählten Qualitätseinschätzungen zusammenhängen.“ (Hugener et al., 2006, S. 49). Die mittelhohen Zusammenhänge, die im Rahmen der dritten Studie zwischen den einzelnen Komponenten und den niedrig inferent erfassten Daten resultierten, sprechen für die konvergente und diskriminative Validität der Komponenten. Je heterogener allerdings die Faktoren der Unterrichtsqualität sind, desto schwieriger ist es, passende niedrig inferente Indikatoren auszuwählen, mit denen sich Zusammenhänge nachweisen lassen. Dies wurde deutlich, da die relativ heterogene Komponente „Schaffen einer lernförderlichen Umgebung“ am wenigsten Zusammenhänge zu den niedrig inferent erfassten Merkmalen aufwies. Insbesondere für die übrigen vier Komponenten konnten aber viele Hypothesen bestätigt werden, was aufzeigt, dass niedrig und hoch inferente Verfahren nicht grundsätzlich Unterschiedliches messen. Lediglich der Fokus und die Breite des Beobachtungsspektrums unterscheiden sich. Diesen Mehrwert der Kombination niedrig und hoch inferenter Methoden betonen auch Hugener und Kollegen (2006):

Beide […] Methoden zur Analyse der Unterrichtsvideos erfassen je einen Teil der Unterrichtsrealität: Das deskriptive Verfahren der niedrig inferenten Codierung erfasst die von der Lehrperson geschaffenen didaktischen Settings, welche mittels geeigneter Organisationsformen oder guter Aufgaben wichtige Bedingungen für die kognitive Aktivierung der Schülerinnen und Schüler darstellen. Jedoch werden Merkmale der Unterrichtsqualität […] nicht erhoben. Auch ist keine Aussage zur kognitiven Aktivierung oder Motivationsqualität des Unterrichts möglich. Diese Ergänzung ist mit dem hoch inferenten Qualitätsrating möglich. (S. 49)

Zwar kann der Grundaussage zugestimmt werden, dass sich beide Verahren ergänzen, indem der Unterricht sowohl beschrieben als auch beurteilt wird, allerdings ist fraglich, ob nicht auch niedrig inferente Kodierungen bereits Aussagen zur Unterrichtsqualität im Allgemeinen oder zur kognitiven Aktivierung im Speziellen ermöglichen. Zwar erhält man durch niedrig inferente Kodierungen keine Ergebnisse, die bereits ein direktes Werturteil enthalten. Dennoch ist mit Bezug zu den zugrundegelegten Theorien auch anhand der niedrig inferenten Kodierungen bereits ein (normatives) Qualitätsurteil möglich. So können niedrig inferente Kodierungen beispielsweise Auskunft darüber geben, inwiefern die Lehrperson Fragen oder Aufgaben stellt, welche das Potenzial haben, die Schülerinnen und Schüler zum Denken anzuregen, ob elaboriertes Feedback gegeben wird oder ob die Kinder zur Reflexion des eigenen Lernprozesses angeregt werden. All diese Beobachtungen tragen zur Einschätzung des unterrichtlichen Potenzials zur kognitiven Aktivierung der Lernenden bei. Es unterscheidet sich vorwiegend die Erfassungsmethode: Während bei der niedrig inferenten Kodierung beispielsweise jede einzelne Aufgabe identifiziert und kategorisiert wird, wird beim hoch inferenten Rating die Aufgabenqualität direkt beurteilt. Bei vielen Merkmalsbereichen lassen sich hoch inferente Ratingitems in niedrig inferente Kodierungen übersetzen (z. B. Vorhandensein von Unterstützungsmaßnahmen bei Fragen und Problemen oder Prozessuale statt inhaltliche Hilfe). Bei wiederum anderen Merkmalen (z. B. Entspannte Lernatmosphäre, Positive Fehlerkultur oder Qualität differenzierender Maßnahmen) können die hoch inferenten Items tatsächlich ‚mehr' Qualitätsaspekte erfassen als dies eine niedrig inferente Kodierung ermöglicht. Der Vorteil der niedrig inferenten Kodierung bleibt aber, dass die Aussagen zur Unterrichtsgestaltung konkreter sind. Während ein hoch inferentes Rating beispielsweise Auskunft darüber gibt, dass die Lehrperson „selten“ oder „häufig“ lobt, liefert die niedrig inferente Kodierung genauere Aussagen, indem beispielsweise die Häufigkeit von Lob pro Minute oder der prozentuale Anteil von Lob an der Gesamtanzahl der Rückmeldungen bestimmt werden kann. Insbesondere für den Vergleich der Ergebnisse unterschiedlicher Studien aus verschiedenen Fächern oder Schulstufen kann dies interessant sein. Da bei hoch inferenten Ratings der interne Bezugsrahmen und der soziale Vergleich eine Rolle spielt, ist es sehr wahrscheinlich, dass der Einsatz hoch inferenter Ratingitems zwar zu augenscheinlich ähnlichen Ergebnissen führt, sich die Unterrichtsgestaltung zwischen den Studien aber dennoch beträchtlich unterscheidet. Wird beispielsweise die Motivierungsqualität des Unterrichts mit demselben Instrument im Grundschulunterricht und im Sekundarstufenunterricht beobachtet, könnte in beiden Studien resultieren, dass die Motivierungsqualität hoch ausgeprägt ist. Würde man allerdings den Grundschulunterricht direkt mit dem Sekundarstufenunterricht vergleichen, könnte sich zeigen, dass die Grundschullehrpersonen beispielsweise deutlich bemühter um eine ansprechende Themeneinführung sind als die Sekundarstufenlehrpersonen. Diese Unterschiede in der absoluten Ausprägung der Unterrichtsmerkmale können niedrig inferente Kodierungen besser aufdecken. Für einen relativen Vergleich der Qualitätsmerkmale inerhalb einer Studie eignen sich hoch inferente Ratings hingegen gut.

 
< Zurück   INHALT   Weiter >