ELITE NETZWERK BAYERN

English  Sprachen Icon  |  Gebärdensprache  |  Leichte Sprache  |  Kontakt


Forschungsarbeit

Von der Schwierigkeit aus Zahlen eine zutreffende Aussage zu generieren

von Dr. Mariana Nold (02.12.2014)

Das Sprichwort, dass man nur der Statistik glauben soll, die man selbst gefälscht hat, kennen viele. Was weniger Menschen wissen: Wie schwer es ist, aus Zahlen eine zutreffende Aussage herauszubekommen.

Die logistische Regression ist ein statistisches Verfahren, dass sehr häufig in der Datenanalyse Anwendung findet. In vielen solcher Analysen basieren Schlussfolgerungen auf der asymptotischen Verteilung diverser Teststatistiken wie beispielsweise auf der asymptotischen χ²-Verteilung der Likelihood-Ratio-Teststatistik.

Ob diese Asymptotik greift, muss in jedem Einzelfall untersucht werden.

In meiner Arbeit geht es darum, an dieser Stelle Licht ins Dunkel zu bringen. Zunächst führe ich im theoretischen Teil meiner Arbeit exemplarisch Beweise aus der mathematischen Statistik an, die besonders geeignet sind, zu verstehen, welche mathematischen Gesetze den asymptotischen Verfahren in der logistischen Regression mit binären Kovariablen zu Grunde liegen. Sie helfen, den Leser für Stärken und Schwächen dieser Methoden zu sensibilisieren.

Im praktischen Teil entwickele ich grafische Methoden, und diskutiere an realen Datensätzen, in wie weit sich diese Methoden eignen, um zu beurteilen, ob man bestimmte asymptotische Tests valide anwenden kann. Hierbei wird der Kolmogorov-Abstand zwischen der aktuellen Verteilung der betreffenden Teststatistik und der entsprechenden asymptotischen Verteilung jeweils in Abhängigkeit vom Stichprobenumfang veranschaulicht. Mit kleiner werdendem Kolmogorov-Abstand nähert sich dabei die Verteilung der p-Werte des entsprechenden Tests der Gleichverteilung.

Die folgende Grafik zeigt exemplarisch wie so dieser Konvergenzprozess ablaufen kann. Für eine Likelihood-Ratio-Teststatistik die gegen eine χ²-Verteilung mit einem Freiheitsgrad konvergiert veranschaulicht sie, wie die entsprechenden p-Werte geben die Gleichverteilung konvergieren. Wie man deutlich erkennt, ist die Verteilung der p-Werte bei einem Stichprobenumfang von 500 noch weit von der Gleichverteilung entfernt. Daraus lässt sich schließen, dass in diesem Fall für die valide Anwendung des entsprechenden Tests deutlich höhere Stichprobenumfänge nötig sind. Bei genauerer Betrachtung der Verteilung der p-Werte für den Stichprobenumfang 500 erkennt man, dass der Test zu konservativ ist. Das liefert einen Hinweis darauf, dass die Power des Tests relativ niedrig ist. Weitere grafische Verfahren erlauben es, diesem Hinweis nachzugehen.

[Bildunterschrift / Subline]: Diese Grafik zeigt exemplarisch den Konvergenzprozess einer Likelihood-Ratio-Teststatistik gegen die entsprechende χ²-Verteilung. Dieser Prozess wurde, vermöge der Inversionsmethode, auf die p-Wert-Skala transformiert. Die Grenzverteilung ist somit die Gleichverteilung auf dem Intervall (0,1). Diese Grenzverteilung wird durch die Farbskala am Rand deutlich.

Die Weiterentwicklung dieses Ansatzes führt zu diagnostischen Plots. Ähnlich wie bei der grafischen Residuenanalyse können diese Grafiken nach der Datenanalyse erstellt werden. Sie dienen dazu Hinweise zu liefern, ob die Annahme, dass der Stichprobenumfang groß genug ist um die verwendeten asymptotischen Verfahren valide durchzuführen, erfüllt ist. Derzeit arbeite ich am Institut für Medizinische Statistik, Informatik und Dokumentation des Universitätsklinikums Jena daran, die entsprechenden grafischen Analyseverfahren weiterzuentwickeln und ihre Anwendung in der medizinischen statistischen Forschung zu explorieren.


Wissenschaftlicher Werdegang
  • seit 2014
  • Wissenschaftliche Mitarbeiterin, Universitätsklinikum Jena, IMSID
  • 2014
  • Promotion, Universität Bamberg
  • 2008-2010
  • Wissenschaftliche Mitarbeiterin, Universität Bamberg
  • 2002-2008
  • Studium der Statistik (Diplom), Ludwig-Maximilians-Universität München

Preise und Stipendien
  • * Forschungsstipendium im Rahmen des BayEFG (2010-2012)
  • * Anschubfinanzierung für Promotion, Programm zur Förderung von Gleichberechtigung und Chancengleichheit an bayerischen Hochschulen – Step by Step (2010)