< Zurück   INHALT   Weiter >

9.3.4.2 Hoch inferentes Rating

Mit Hilfe des hoch inferenten Manuals sollte abschließend eingeschätzt werden, inwiefern die Lehrpersonen die Leseübungen so gestalten, dass diese das Potenzial zur kognitiven Aktivierung der Schülerinnen und Schüler haben. Die bisherigen Kodierungen sollen damit um explizite Einschätzungen der Unterrichtsqualität ergänzt werden, wobei folgende Bereiche jeweils durch vier bis sieben Items abgedeckt wurden: (1) Aktivieren und Einfordern von eigenen Denkprozessen (2) Unterstützungsmaßnahmen als Scaffolding, (3) Umgang mit Schüleräußerungen, (4) Charakter der Übungssituation, (5) Individualisierung und Differenzierung und (6) Effektive Klassenführung. Die einzelnen Items wurden diesen Bereichen inhaltlich vorab zugeordnet, um die einzelnen Beobachtungsaspekte für die Auswerter inhaltlich zu strukturieren. Die Überprüfung der tatsächlichen Faktorenstruktur erfolgt in Studie 3, wobei nicht davon ausgegangen wird, dass sich die hier genannten thematisch geordneten Bereiche faktorenanalytisch gleichermaßen abbilden lassen. Die Zuordnung zu den Bereichen wurde zunächst vorgenommen, um die Items für die Beobachterinnen zu strukturieren.

9.3.4.2.1 Darstellung des Ratingsystems

Tabelle 24 stellt die 28 Items und einen Auszug der Grundidee dar. Für jedes Item wurde ein Wert von „1“ bis „4“ vergeben, wobei die „1“ für eine geringe, die „4“ für eine hohe Ausprägung steht. Da alle Items vierstufig eingeschätzt wurden, wird im Gegensatz zu den bisherigen Tabellen die Anzahl der Ratingstufen nicht für jedes Item einzeln angegeben. Das Ratingsystem wird mit den Grundideen, Indikatoren, Negativindikatoren, Beispielen und Quellen sowie theoretischen Bezügen im Manual (vgl. Anhang: Abschnitt 8; S. 341) detailliert dargestellt.

Tabelle 24 Hoch inferentes Ratingsystem – Merkmale und Rahmenbedingungen kognitiv aktivierender Leseübungen

Tabelle 24 Hoch inferentes Ratingsystem – Merkmale und Rahmenbedingungen kognitiv aktivierender Leseübungen (Fortsetzung)

Tabelle 24 Hoch inferentes Ratingsystem – Merkmale und Rahmenbedingungen kognitiv aktivierender Leseübungen (Fortsetzung)

9.3.4.2.2 Vorgehen beim Rating und Reliabilität

Mit dem hoch inferenten Ratingsystem wurden 47 der insgesamt 48 Videos mit Leseübungen ausgewertet. Da die Leseübung in einem Video lediglich zwei Minuten und 40 Sekunden dauerte, war eine sinnvolle hoch inferente Einschätzung hier nicht möglich. Jedes der 47 verbleibenden Videos wurde von zwei Raterinnen unabhängig voneinander beurteilt, sodass zum einen die Interraterreliabilität über die gesamte Stichprobe berechnet werden konnte und zum anderen für die weiteren Analysen die Mittelwerte aus den Einschätzungen beider Raterinnen gebildet werden können. Zusätzlich wurden 15 Unterrichtsvideos auch durch den Master ausgewertet, um auch die Reliabilität zwischen Master und Raterinnen prüfen zu können (vgl. Tabelle 25).

Tabelle 25 Reliabilität des hoch inferenten Ratingsystems

Tabelle 25 Reliabilität des hoch inferenten Ratingsystems (Fortsetzung)

N = 47 Videos zur Berechnung der Reliabilität zwischen den beiden trainierten Raterinnen

N = 15 Videos zur Berechnung der Reliabilität zwischen dem Master und den beiden trainierten Beobachterinnen

Da das GT-Programm auf ganze Zahlen gerundete Prozentwerte ausgibt, ergibt die Addition der drei Varianzanteile nicht immer 100 % (Clausen et al., 2003).

Zunächst wird auf die Reliabilität der Beobachtungen beider Raterinnen eingegangen. Der relative Generalisierbarkeitskoeffizient bewegt sich hier für die einzelnen Items zwischen g = .896 (Hinführung einzelner Schüler zu on-task-Verhalten) und g = 1.000 (Verständnisorientierte Eigeninitiative der Schüler). Damit wird für alle Items der Mindestwert von grelativ ≥ .70 (vgl. 9.2.3.2.3) deutlich übertroffen, sodass für das gesamte Ratingsystem von einer reliablen Einschätzung ausgegangen werden kann. Der absolute G-Koeffizient gibt zusätzlich an, inwiefern die Raterinnen auch in der Höhe der getroffenen Einschätzungen übereinstimmen. Dass auch er in einem Bereich zwischen gabsolut ≥ .896 und gabsolut ≤ 1.000 liegt und sich meist nicht oder lediglich unwesentlich in der Höhe vom relativen G-Koeffizienten unterscheidet, kann als Hinweis darauf gedeutet werden, dass beide Raterinnen ähnlich milde/streng bewertet haben. Die Varianzkomponente „Raterin“, also der Teil der Unterschiede, die auf die Person der Raterin zurückgeführt werden kann, ist bei fast allen Items 0 %. Lediglich beim Item Aktivitäten zur Herstellung aufgabenbezogener Motivation liegt er bei 2 %. Hingegen kann der Großteil der Varianz auf tatsächliche Unterschiede zwischen den Videos zurückgeführt werden (81 % bis 100 %). Positiv ist zudem, dass auch der Anteil unaufgeklärter Varianz bei der Mehrheit der Items sehr gering ist, er liegt bei 23 Items unter 10 %, bei 5 Items zwischen 10 % und 20 %.

Um zu gewährleisten, dass die Raterinnen nicht nur untereinander auf Basis eines gemeinsamen Verständnisses der Items die Unterrichtsvideos ähnlich, sondern dem Verständnis des Manuals entsprechend auswerten, wurden 15 Unterrichtsvideos zusätzlich durch den Master ausgewertet. Die Generalisierbarkeitskoeffizienten liegen für die Reliabilität zwischen Raterin 1 und dem Master immer bei mindestens g ≥ .925, wobei sich relativer und absoluter Generalisierbarkeitskoeffizient nicht unterscheiden. Die Varianz fällt ausschließlich auf die Komponente „Video“ und die „Restvarianz“, die maximal 14 % (für das Item Hinführung einzelner Schüler zu on-task-Verhalten) beträgt. Auch die Reliabilität zwischen Raterin 2 und dem Master erreicht vergleichbar gute Werte, wenn auch bei einem Item (Reduzierung der Komplexität von Lerninhalten durch Sequenzierungen) der relative Generalisierbarkeitskoeffizient bei g = .898 liegt und die Restvarianz 18 % beträgt. Bei zwei weiteren Items fällt 1 % der Varianz auf die Komponente „Raterin“.

 
< Zurück   INHALT   Weiter >