Reliabilität und Validität als zentrale Forderungen an eine Messung

Wir hatten schon kurz die Frage angesprochen, ob unsere Skalen und Messinstrumente eigentlich geeignet sind, das zu messen, was wir messen wollen. In diesem Abschnitt werden deshalb zwei Grundvoraussetzungen für ein erfolgreiches Messen und Zählen diskutiert. Das sind die Begriffe Reliabilität und Validität von Messinstrumenten.

Reliabilität eines Messinstruments heißt Zuverlässigkeit der Messung. Wiederholt man die Messung, sollte man das gleiche Ergebnis erzielen.

Validität wird mit Gültigkeit übersetzt. Validität stellt sicher, dass man das misst, was man messen will.

Reliabilität

Eine Messung ist dann zuverlässig, wenn das Messinstrument bei wiederholter Messung immer wieder dasselbe Ergebnis anzeigt. Man stelle sich ein Metermaß aus Gummi vor. Es mag zwar sein, dass die Zentimetereinteilung korrekt abgetragen wurde, aber vermutlich werden verschiedene Messungen ein und desselben Objektes immer wieder andere Ergebnisse bringen. Anders ausgedrückt: Das empirische Relativ wird nicht zuverlässig in das ihm adäquate numerische Relativ überführt. Wenn ein Messinstrument derart unzuverlässig ist, ist es für wissenschaftliche Untersuchungen unbrauchbar. Die Kommunikationsforschung verwendet natürlich keine Gummibänder als Messinstrumente, wohl aber Fragebatterien in Befragungen oder Kategorienschemata in Inhaltsanalysen. Fragen sind Messinstrumente, die bestimmte Merkmalsausprägungen zuverlässig und gültig erheben sollen.

Am Beispiel einer Skala von 0 bis 100, auf der Befragte ihre politische Parteienpräferenz darstellen sollten, wurde dieses Problem schon implizit erörtert. Eine solche Messung wird vermutlich nicht zuverlässig, also nicht reliabel sein, weil die Befragten ihre politische Einstellung nicht so fein abstufen können, wie das Messinstrument es von ihnen verlangt. Sie werden zu Recht keine Differenz zwischen 23 und 27 erkennen können und deshalb einigermaßen willkürlich irgendwo eine Zahl in diesem Bereich angeben. Wenn das alle Befragten tun, wird man am Ende zu einem Ergebnis kommen, das in dieser Form nicht reproduzierbar ist. Wenn Messergebnisse aber nicht reproduzierbar sind, können sie die tatsächliche politische Einstellung der Befragten nicht zuverlässig erfassen. Wenn man diese Befragten eine Woche später bitten würde, nochmals ihre politische Einstellung auf dieser Skala abzutragen, würden möglicherweise ganz andere Werte herauskommen.

Bei einer nur fünfteiligen Skala wäre die Zuverlässigkeit des Messinstrumentes bedeutend höher, weil ein Befragter schon von sich weiß, ob er politisch ganz oder eher rechts, ganz oder eher links steht. Reliabel ist das Messinstrument also dann, wenn es bei wiederholten Messungen das gleiche Messergebnis bringt. Das bedeutet, dass das Messinstrument sowohl unabhängig vom Messenden funktionieren als auch robust gegen bewusste oder unbewusste Einflüsse des Befragten sein muss. Viele Messinstrumente, mit denen wir täglich umgehen, sind fast hundertprozentig reliabel. Wir wären sehr erstaunt, wenn wir einen Gegenstand zweimal mit einem Metermaß messen und unterschiedliche Längen herausbekommen würden.

In den Sozialwissenschaften kämpft man mit zwei grundlegenden Problemen bezüglich der Reliabilität. Eigentlich müsste sich bei jeder Messung mit einem bestimmten Messinstrument immer wieder dasselbe Ergebnis herausstellen, also eine hundertprozentige Zuverlässigkeit. Dies ist jedoch aus zwei Gründen nicht der Fall: Der eine Grund ist, dass alle Messungen in der empirischen Kommunikationswissenschaft mit einem Zufallsfehler behaftet sind. Stellen Sie sich vor, Sie haben einem Interview zugestimmt und erwarten den Interviewer um 10 Uhr morgens. Alles ist so weit vorbereitet. Pünktlich um 10 Uhr erscheint der Mann und beginnt mit seinen Fragen. Nach fünf Minuten beginnt eine Baukolonne, die Straßendecke vor Ihrem Haus aufzureißen … Es ist leicht denkbar, dass Ihre Antworten in so einem Fall anders als unter normalen Umständen ausfallen. Der zweite Grund für die Unzuverlässigkeit eines Messinstrumentes ist davon nicht ganz unabhängig. Die Untersuchungsobjekte und diejenigen, die die Messung durchführen, sind zumeist Menschen, die sich verhalten und verändern; sie reifen und sie lernen. Angenommen, die Befragung, an der Sie teilnahmen, ist eine sogenannte Panelbefragung, d. h., der Interviewer wird ein zweites Mal kommen – vielleicht nach vier Wochen – und Sie nochmals zu demselben Thema befragen. Vermutlich ist in der Zwischenzeit nicht nur die Baukolonne fertig, sondern auch Sie haben sich verändert: Sie haben über die Fragen nachgedacht, hatten vielleicht Diskussionen mit Freunden, nach denen Sie ihre Einstellung zu einem Thema geändert haben, haben eine bestimmte Einstellung zu dem Interviewer gewonnen, kurz: Sie haben bezüglich dieses Ausschnittes Ihrer Wirklichkeit gelernt. Reifungsprozesse erfolgen vor allem in den ersten Lebensjahren. Keiner würde behaupten, dass ein Maßband nicht reliabel messen würde, weil eine Messung der Körpergröße im Abstand von einem Jahr bei Jugendlichen unterschiedliche Werte hervorbringen würde. Die Jugendlichen sind eben „gereift“, also gewachsen. Ebenso können aber auch Befragungsteilnehmer hinsichtlich des Untersuchungsgegenstandes reifen. Aber auch ein Interviewer selbst kann die Reliabilität des Messinstrumentes beeinflussen. Auch er entwickelt sich im Laufe der Untersuchung, gerade wenn sich diese über einen längeren Zeitraum erstreckt. Welche Effekte dies haben kann, wird im Zusammenhang mit Versuchsleitereffekten im Rahmen von Experimenten beschrieben (vgl. Kap. 14.3).

Reifungsund Lernprozesse beeinfl die Reliabilität eines Messinstrumentes. Reifung führt in der Regel zu einer Unterschätzung der Reliabilität des Messinstruments, Lernen zu einer Überschätzung.

Zufällige Fehler haben wir bei den uns bekannten Messinstrumenten auch, zumindest wenn wir genau genug messen. Eine digitale Personenwaage wird, wenn sie in Milligramm misst, nicht immer genau das gleiche Gewicht anzeigen. Gravierender ist das Reifungsbzw. Lernproblem. Denn wenn wir eine Person zweimal befragen und wir stellen Unterschiede in den Antworten fest, so kann das einmal an der mangelnden Zuverlässigkeit des Messinstrumentes und einmal an Lernprozessen liegen. In der Praxis wird trotzdem die Reliabilität und damit die Brauchbarkeit des Messinstruments reduziert. Dies bedeutet, dass der Forscher alle Randbedingungen der Untersuchung so weit wie möglich unter Kontrolle haben muss, damit sein Messinstrument weniger anfällig auf Zufallsfehler und Lernprozesse reagiert.

Die Reliabilität von Messinstrumenten beschreibt man als Koeffien auf einer Skala von 0 bis 1.

„Null“ steht für keine Reliabilität, „Eins“ repräsentiert perfekte Reliabilität. Es handelt sich also um ein Wahrscheinlichkeitsmaß, das die Zuverlässigkeit von im Prinzip unendlich vielen Messungen eines Messinstrumentes angibt: Ziel ist es, zu zeigen, dass das Ergebnis einer Messung so gut ist wie das aller anderen und dass das Ergebnis derselben Messung so gut ist wie ihre Messung vier Wochen später. Dies ist schematisch in Abb. 3.2 dargestellt. Es gibt prinzipiell zwei Arten, die Reliabilität zu messen, die sogenannte Paralleltest-Methode und die Messwiederholungsmethode (Test-Retest).

Die Überprüfung der Reliabilität durch Messwiederholung erfolgt zu zwei verschiedenen Zeitpunkten: Sofern dasselbe Messinstrument an derselben Person zweimal dieselben Ergebnisse erbringt, gilt das Messinstrument als reliabel.

Die Test-Retest-Reliabilität ist die intuitiv angemessene Methode. Ich messe zweimal und vergleiche diese Ergebnisse. Allerdings haben wir es in der Kommunikationswissenschaft mit Menschen zu tun, die sich daran erinnern, dass wir sie „gemessen“ haben. Wenn ich also heute jemanden frage, ob er gerne Talkshows sieht, dann wird er sich morgen daran erinnern und deshalb möglicherweise die gleiche oder vielleicht auch eine andere Antwort geben. Menschen sind zumindest teilweise unberechenbar. Wenn ich also zu kurz hintereinander befrage, wird die Reliabilität des Messin-

Abb. 3.2 Überprüfung der Reliabilität eines Messinstrumentes durch Paralleltests und Messwiederholung (Test-Retest)

struments durch Erinnerungseffekte beeinflusst. Wenn ich allerdings zu zwei weit auseinanderliegenden Zeitpunkten befrage, erhalte ich möglicherweise unterschiedliche Antworten, weil der Befragte vielleicht tatsächlich seine Meinung geändert hat. Das Messinstrument wäre zwar reliabel, aber das Untersuchungsobjekt hat sich geändert. Genauso gut könnte ich die Größe von Kindern, die ja kontinuierlich wachsen, im Abstand von einem Jahr mit dem Metermaß messen und mich darüber wundern, dass die beiden Messungen nicht übereinstimmen. In einem solchen Fall wäre zwar das Messinstrument reliabel, durch den zeitlichen Abstand zwischen den Messungen unterschätzt man aber die Reliabilität. Die Test-Retest-Reliabilität ist also mit davon abhängig, wie groß der Zeitabstand zwischen den beiden Messungen ist. Aus diesem Grund, und weil die wiederholte Messung sehr aufwendig ist, wird häufig die Paralleltest-Methode verwendet [1].

Die Überprüfung der Reliabilität durch Paralleltest erfolgt zu einem Zeitpunkt: Eine Gruppe von Personen wird in zwei vergleichbare Teilgruppen unterteilt, die beide untersucht werden. Ergibt sich bei beiden Gruppen ein ähnlicher Messwert, gilt das Messinstrument als reliabel.

Die Paralleltest-Reliabilität vermeidet also das Problem der wiederholten Befragung der gleichen Person, indem sie mittels Zufallsauswahl zwei Parallelgruppen herstellt und diese jeweils nur einmal befragt. Der Nachteil dabei ist, dass man die Vergleichbarkeit der Gruppen nicht beweisen kann, sondern es aufgrund der Zufallsauswahl statistisch wahrscheinlich ist, dass in beiden Gruppen die zu messenden Merkmale gleich verteilt sind, eine Messung also gleiche Ergebnisse bringen muss. Problematisch wird dieses Vorgehen dann, wenn man feststellt, dass in einer Gruppe systematisch andere Antwortmuster vorkommen. Dann wäre die Vergleichbarkeit systematisch gestört, der Test müsste mit neuen Gruppen wiederholt werden. Gibt es keine derartigen Verzerrungen, ist der Rückschluss auf die Zuverlässigkeit des Messinstruments möglich.

Reliabilitätstests haben vor allem bei der Anwendung von Inhaltsanalysen – neben der Befragung wohl die wichtigste Methode der empirischen Kommunikationsforschung – ihre Bedeutung. Dies wird in den entsprechenden Abschnitten noch ausführlicher dargestellt. Nur so viel schon vorweg: Gerade bei Inhaltsanalysen, die nicht nur bestimmte Worte oder Themen zählen, sondern zum Beispiel Bewertungen von Sachverhalten messen wollen, ist die Zuverlässigkeit der Messung von großer Wichtigkeit. Nur wenn sichergestellt werden kann, dass alle Codiererinnen und Codierer dasselbe verschlüsseln, ist das verwendete Codebuch reliabel und die Ergebnisse sind verwertbar. An einem Beispiel wird das Problem deutlich: In einer Untersuchung über Ausländerfeindlichkeit wird die Berichterstattung der Massenmedien anhand von fünf Tageszeitungen über sieben Jahre hinweg ausgewertet. Die Codierung wird von einem Team von Codierern vorgenommen. Sie arbeiten alle nach demselben Codebuch, das heißt nach denselben Anweisungen, welche Artikel überhaupt in die Erhebung kommen und was bei diesen Artikeln gemessen werden muss. Die Anweisungen betreffen die Messung des Umfanges eines Artikels genauso wie die Erhebung der Themenbereiche innerhalb eines Artikels. Voraussetzung für die Reliabilität der gesamten Analyse ist nun, dass jede Codiererin und jeder Codierer genau das Gleiche tut. Sonst weisen die Ergebnisse innerhalb des siebenjährigen Zeitraumes Schwankungen auf, die nicht auf Entwicklungen in der Realität zurückzuführen sind, sondern nur etwas damit zu tun haben, dass ein Codierer anders als die anderen gearbeitet hatte. Das Problem der Zuverlässigkeit einer Messung geht schon bei der Bestimmung des Umfanges von Artikeln los. Wenn dazu keine besonderen Anweisungen mitgegeben werden, dann wird Codierer A vielleicht die Quadratzentimeteranzahl so berechnen, dass er Aussparungen mit berücksichtigt, während Codiererin B dies nicht tut. In dem Fall ist das Messinstrument, diese Kategorie „Umfang des Beitrags“ im Codebuch, nicht reliabel. Noch komplizierter wird es, wenn nicht formale, sondern inhaltliche Gesichtspunkte gemessen werden sollen.

Im Fall formaler Merkmale erwartet man eine hohe Reliabilität, bei inhaltlichen Kategorien ist man in der Regel mit einem Quotienten von 0,7 zufrieden. Es gibt keine Faustregel, wie hoch der Reliabilitätskoeffizient sein muss. Je schwieriger eine Messung, desto eher nimmt man Abstriche in Kauf. Ergibt sich allerdings ein Koeffizient mit einem Wert kleiner als 0,5 bis 0,6, sollte man auf eine solche Messung verzichten und das Messinstrument in geeigneter Weise verändern.

  • [1] In der Literatur (vgl. Friedrichs 1990; Schnell et al. 2011) wird unter Paralleltest häufi ein anderes, wenn auch selten angewendetes Testverfahren verstanden: Die Messung der Untersuchungsobjekte erfolgt sowohl mit dem zu testenden und mit einem inhaltlich vergleichbaren Instrument, das sich bereits bewährt hat. Der Quotient der Ergebnisse kann dann als Zuverlässigkeit des einen Messinstruments interpretiert werden: Je näher die Ergebnisse beieinanderliegen, je stärker also der Zusammenhang zwischen beiden Ergebnissen ist, desto höher ist die Reliabilität des getesteten Messinstruments. Das Problem der Vergleichbarkeit beider Messinstrumente ist allerdings derart gravierend, dass dieser Test selten zum Einsatz kommt. Wir verstehen unter Paralleltest die tatsächlich in der Praxis angewendete Methode, Reliabilität innerhalb der Untersuchung zu testen und sicherzustellen
 
< Zurück   INHALT   Weiter >