Methodische Vorüberlegungen
Die Methode der Sequenzdatenanalyse
Die Methode der Wahl zur Exploration der hier aufgeworfenen Fragen ist die Sequenzdatenanalyse. Ihren Ursprung hat die Sequenzdatenanalyse in den Naturwissenschaften. Der von Vladimir Levenshtein entwickelte Ansatz wurde primär zur Analyse von DNA Strängen und in den Computerwissenschaften verwendet (Abbott/Tsay 2000). Mitte der 1980er Jahre wendeten Abbott und Forrest (1986) erstmals sequenzanalytische Verfahren auf sozialwissenschaftliche Fragestellungen an. Seither finden sich Arbeiten zu Berufsverläufen (bspw. Brzinsky-Fay 2007, Fasang 2012), Partnerschaftsund Fertilitätsverläufen (bspw. Elzinga/Liefbroer 2007, Berghammer 2010, Feldhaus/Huinink 2011, Fasang im Erscheinen) sowie weiteren sozialwissenschaftlichen Untersuchungsgegenständen (bspw. Abbott/Hrycak 1990).
Genaugenommen gilt es bei der Sequenzanalyse weniger von einer Methode als von einer Sammlung mehrerer Techniken zu sprechen (Abbott 1995: 93). Gemeinsam ist diesen, dass ihnen die, beispielsweise zeitliche, Abfolge von Elementen bzw. Status für jedes beobachtete Individuum als Analysegegenstand zugrunde liegt. Tabelle 5 veranschaulicht dies:
Element/Status |
A |
B |
B |
A |
C |
C |
C |
B |
Zeitachse |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Anmerkung: vgl. Scherer/Brüderl 2010: 1035.
Tabelle 5: Beispielsequenz
Die Elemente können dabei beispielsweise Berufs-, Partnerschaftsstatus oder Aufenthaltsorte sein, die Zeitintervalle beispielsweise Jahre, Monate oder Stunden. Der Beobachtungsraum kann sich etwa über einen Tag, eine Episode im Lebenslauf oder den gesamten Lebenslauf erstrecken.
Techniken zur Analyse von Sequenzdaten
Während sich die klassische Sequenzanalyse vordergründig auf das sogenannte Optimal Matching als Ausgangsverfahren konzentriert (Macndoe/Abbott 1992, siehe unten), sind darüber hinaus weitere, primär beschreibende, Techniken zur Analyse von Sequenzdaten fruchtbar (vgl. Scherer/Brüderl 2010: 1034). Im Folgenden werden in dieser Studie relevante Techniken beschrieben.
Um einen ersten groben Eindruck über die Verteilung der untersuchten Status zu gewinnen, bietet es sich an die Sequenzen zu aggregieren. So sind Aussagen darüber möglich, welchen Anteil einzelne Status, insgesamt oder zu bestimmten Zeitpunkten für gewisse Personengruppen, ausmachen. Ein Beispiel wäre eine Aussage, die etwa so lauten könnte: Im Alter 30 sind 20 Prozent der untersuchten Personen alleinerziehend. Oder: Insgesamt waren die untersuchten Frauen 17 Prozent des Beobachtungszeitraumes alleinerziehend. Von höherer Detailliertheit sind Kennzahlen individueller Sequenzen. Beispielsweise lässt sich hier sagen, wie viele Partnerschaftswechsel im Durchschnitt je Sequenz zu beobachten sind. Zur Visualisierung individueller Sequenzen wird häufig auf Sequenzindexplots zurückgegriffen (Brzinsky-Fay/Kohler/Luniak.2006, Kohler/Brzinsky-Fay 2005, Scherer 2001). Sie stellen in jeder Phase der Sequenzanalyse eine anwendbare Form der Veranschaulichung dar. Sequenzindexplots bilden jede Sequenz vollständig als waagerechte Linie (N=Y-Achse) über den gesamten Beobachtungszeitraum (X-Achse) hinweg ab. Damit basiert diese Form der Widergabe auf der gesamten Fülle an Informationen, die in Sequenzdaten stecken: Exakte Anzahl, Abfolge und Dauer der Status jeder einzelnen Sequenz.[1] Sequenzindexplots und die durch sie vermittelten Eindrücke beruhen weithin auf subjektiver Wahrnehmung und werden kaum durch objektive Maßzahlen unterstützt. Da der Eindruck stark von der Ordnungsstruktur der Sequenzen beeinflusst wird, ist hier ein inhaltlich zentrales Ordnungskriterium
zu wählen. Ferner ist bei Vorliegen großer Fall-zahlen die Gefahr des Overplottings und bei Gruppenvergleichen die Abhängigkeit der Darstellung von der Gruppengröße zu bedenken (Fasang/Brzinsky-Fay/ Aisenbrey 2012).
Schließlich wird häufig ein Vergleich von Sequenzen zur aussagekräftigen Beschreibung und Verlaufsmusteridentifikation angestrebt. In dieser Studie basiert der Vergleich auf einem paarweisen Vergleich der Sequenzen. Beispielsweise das Optimal Matching berechnet anhand eines Algorithmus die Ähnlichkeit bzw. Unähnlichkeit zwischen den Sequenzen. Anhand dieser Unähnlichkeiten ist eine Gruppierung in Verlaufsmuster möglich.
Die Verfahren der Aggregation und der Berechnung von Kennzahlen individueller Sequenzen sind leicht zugänglich. Das Optimal Matching und sich daran anschließende Gruppierungsverfahren unterliegen hingegen variablen, teils komplexen Annahmen und Algorithmen, sodass diese im folgenden Absatz ausführlicher beschrieben werden. Die Sequenzanalysen werden mit Hilfe der Analysesoftware Stata geschätzt (Stata/SE 11: StataCorp 2009).
Das Prinzip des Optimal Matchings
Ein Großteil sequenzanalytischer Arbeiten, insbesondere die originären Arbeiten von Abbott und Kollegen (bspw. Abbott/Forrest 1986, Abbott 1990, Abbott/Hrycak 1990), konzentrieren sich auf die Identifikation von Sequenzmustern, indem die Verläufe verglichen und gruppiert werden. Das sogenannte Optimal Matching (OM) stellt nach MacIndoe und Abbott (2004: 388) in diesem Sinne die Ausgangstechnik einer jeden Sequenzanalyse dar. Bei einem Vergleich der Sequenzen wird berechnet, welche Transformationen nötig sind, um eine Sequenz in eine andere zu überführen. Durch Ersetzen („Substitute“), Einfügen oder Entfernen („Insertion“ und „Deletion“, kurz: Indel) von Elementen bzw. Zuständen können die Sequenzen aneinander angeglichen werden. Die resultierenden Transformationskosten bilden die sogenannten LevenshteinDistanzen. Mit Hilfe des Needleman-Wunsch Algorithmus wird identifiziert, welche Transformationen minimal notwendig sind, um eine Sequenz in eine andere zu überführen. Ein hoher Distanzwert spricht für eine geringe Ähnlichkeit der Sequenzen. Da das Ersetzen eines Elements das Entfernen eines alten und das Einfügen eines neuen Elements darstellt, werden „Substitutionskosten“ in der Regel doppelt so hoch bewertet wie „Indel-kosten“. Ein abweichendes Verhältnis zwischen Substitutionsund Indelkosten führt dazu, dass die jeweils teurere Form der Transformation seltener durchgeführt wird.[2] Auch dies kann aus folgenden Gründen im Sinne der Forschungsfrage sein: Relativ hohe Indelkosten betonen die zeitliche Verortung von Ereignissen und Zuständen, relativ hohe Substitutionskosten ihre Reihenfolge bzw. ihr Auftreten. Darüber hinaus ist der Forscher frei, für das Ersetzen verschiedener Elemente durch bestimmte
andere, unterschiedliche Kosten festzusetzen. So mögen theoretische Annahmen nahelegen, dass zwei ähnliche Elemente mit nur geringen Kosten ersetzt werden können (Brzinsky-Fay et al. 2006: 450). Insgesamt hat das Festsetzen der Transformationskosten bedeutsamen Einfluss auf das Ergebnis der OM Analyse und ist dennoch, oder gerade deshalb, ein ambivalent diskutiertes Thema. Einerseits wird plädiert, wenig an der Kostenstruktur zu verändern, da die theoretische Fundierung in den seltensten Fällen ausreiche (Dijkstra/Taris 1995, Aisen- brey/Fasang 2010: 430). Andernorts wird hervorgehoben, dass ein Experimentieren mit den Kosten unter genauer Beobachtung des Einflusses auf die OMErgebnisse anzuraten sei (Abbott/Tsay 2000: 13). Gleichzeitig wird auch hier betont, dass in der Wissenschaft bislang unzureichende Kenntnis und Einigkeit über das Festlegen der Transformationskosten in der OM vorliege (ebd.: 13). Selbst die Möglichkeit datenbasierte Transformationskosten anzuwenden, welche sich an der empirischen Häufigkeit auftretender Wechsel zwischen bestimmten Status orientiert, bedarf einer bewussten Entscheidung für alle damit einhergehenden Vorund Nachteile (für eine ausführlichere Darstellung und Diskussion siehe Aisenbrey und Fasang 2010: 430). In diesem Sinne gilt auch aktuell noch immer, was Stovel et al. (1996) treffend formulieren: „The assignment of transformation costs haunts all optimal matching analyses“ (Stovel/Savage/Bearman 1996: 394).
Clusteranalyse
Auf Basis der durch die OM-Analyse gewonnenen Sequenzähnlichkeiten bietet es sich an, ähnliche Sequenzen zu gruppieren (MacIndoe/Abbott 2004: 388). Hierzu wird häufig das Verfahren der Clusteranalyse angewendet. Durch diesen induktiven Schritt lassen sich schließlich grundlegende Fragen der Sequenzanalyse beantworten: Können Verlaufsmuster unterschieden werden? Welche Verläufe lassen sich erkennen? Wie distinkt sind diese? Herrscht eine eher große oder geringe Homogenität der Verläufe innerhalb der Untersuchungspopulation? Die Schwierigkeit der Clusteranalyse – im Allgemeinen, sowie hinsichtlich der Gruppierung von Sequenzen im Besonderen, liegt darin, dass aufgrund häufig recht ähnlicher Sequenzen mehrere Gruppierungsmöglichkeiten, sprich Lösungen mit unterschiedlicher Anzahl an Gruppen, angeboten werden. Ein fruchtbares Verfahren ist Wards agglomeratives hierarchisches Clustering (vgl. Aisenbrey/Fasang 2010: 431), welches Gruppen ähnlicher Größe herbeiführt. Nichtsdestoweniger gilt es anhand verschiedener Kriterien die „richtige“ Anzahl an Clustern zu bestimmen. Aisenbrey und Fasang (ebd.) stellen dar, dass beispielsweise Calinski und Harabasz (1974) ein für Sequenzclustering geeignetes Cutoff Kriterium entwickelt haben. Dieses spiegelt das Verhältnis zwischen der Ähnlichkeit innerhalb eines Clusters und den Unterschieden zu weiteren Clustern wider (vgl. Brüderl/Scherer 2004: 335, ArcGIS Resources 2013). Auch das Duda-Hart-Kriterium (Duda/Hart 1973) wird mitunter in aktueller sozialwissenschaftlicher Sequenzanalyse zur Bestimmung der Anzahl an Clustern herangezogen. Nichtsdestoweniger ist das oberste Ziel der Clusteranalyse der Erhalt
„möglichst homogener Cluster, die sich möglichst deutlich unterscheiden“ (Brüderl/Scherer 2004: 335). Somit stellen die „Interpretierbarkeit der Typolo- gie“ (ebd.) bzw. ihre Konstruktvalidität (Aisenbrey/Fasang 2010: 433) sehr wichtige Kriterien bei der Festlegung der Clusterzahl dar.
Kritik und wissenschaftliche Tradition
Einige Forscher äußern Kritik an den genannten Freiheiten und der scheinbaren Willkür bei der Bestimmung der Sequenzähnlichkeiten (Levine 2000) sowie der Anzahl relevanter Verlaufsgruppen (Wu 2000). Vertreter der recht jungen Methode reagierten darauf in der Vergangenheit zum einen mit der Verfeinerung von Techniken, die zum einen gezielte Kritik beantworten, zum anderen die Robustheit von sequenzanalytischen Ergebnissen testen sollten (zur sogenannten
„Zweiten Welle“ des Optimal Matchings bzw. der Sequenzanalyse siehe bspw. Aisenbrey/Fasang 2010). Darunter fallen beispielsweise Verfahren, welche empirische Statuswahrscheinlichkeiten zu bestimmten Zeitpunkten bei der Substitutionskostenfestsetzung beachten (siehe ‚Lesnard's dynamic Hamming measure' bei ebd.: 436, Lesnard 2010) oder Vergleiche auf Basis passender Subsequenzen ziehen (ebd. 444). Es bleibt jedoch auch hier die Notwendigkeit theoretisch begründeter Auswahl der expliziten Methodik. Zum anderen heben Forscher in eben diesen „Freiheiten“ liegende Stärken hervor (Abbott 1992). So zeigt sich an dieser Stelle, dass die Sequenzanalyse an der Schnittstelle zwischen quantitativer und qualitativer Forschung zu verorten ist. Sie stellt die
„quantitative Analyse von Sequenzen qualitativer Status“ dar (Fasang et al. 2012). Während klassische Analyseverfahren, wie Ereignisoder Panelanalyse, der Tradition kausaler stochastischer Datenmodellierung folgen, ist die Sequenzanalyse dem narrativen Positivismus zuzuordnen (Abbott 1992) und vordergründig deskriptiv (MacIndoe/Abbott 2004: 388). Sie konzentriert sich eben nicht auf enge Zeiträume bzw. singuläre Ereignisse, um schließlich „variablenbasiert“ Hypothesen zu bebzw. widerlegen, sondern betrachtet prozessbasiert den gesamten Verlauf von Ereignissen. Der Kontext wird damit ins Analysezentrum gerückt. Im Kern eignet sich die Sequenzanalyse damit primär für explorative Vorhaben. Gleichzeitig haben Anwendungen jedoch bereits gezeigt, dass Sequenzanalysen auch zur Bestätigung bzw. Widerlegung von Annahmen über empirisch relevante Sequenzverläufe fruchtbar sind (Fasang/ Raab 2013). Zudem münden aus Optimal Matching und Clusteranalyse gewonnene Ergebnisse häufig in schließlich doch stochastisch tradierte Methoden. So kann beispielsweise mittels multinomialer logistischer Regression die Wahrscheinlichkeit einer bestimmten Verlaufsgruppe zuzugehören, in Abhängigkeit von individuellen Merkmalen wie Geschlecht oder Bildung, bestimmt werden. Oder die Clustereinteilung wird als unabhängige Variable zur regressiven Analyse der Auswirkungen bestimmter Verläufe verwendet. Damit kann sowohl die Frage beantwortet werden, was die Verläufe determiniert, wie auch was sie determinieren (MacIndoe/Abbott 2004: 388).