Statistik: wie und warum sie funktioniert

Ein mathematisches Lesebuch (Statistikbuch)

Jörg Bewersdorff


Download des EBook-Inhalts zur Anzeige im Browser ...






Vorwort


Ich vertraue nur der Statistik, die ich selbst gefälscht habe

Selbst wer versucht, der Mathematik möglichst aus dem Weg zu gehen, wird es in Bezug auf die Statistik und der mit ihrer Hilfe gezogenen Schlussfolgerungen kaum schaffen. So werden wir fast wöchentlich durch die Medien mit mehr oder minder besorgniserregenden Erkenntnissen konfrontiert. Unter anderem erfahren wir dabei, dass in angeblich repräsentativen Testreihen die Gefährlichkeit bestimmter Nahrungsbestandteile erkannt wurde, um dann oft nur wenig später über die Relativierung, wenn nicht sogar Widerlegung, solcher Aussagen informiert zu werden. Abseits der im konkreten Einzelfall möglichen Infragestellung methodischer Ansätze, etwa im Hinblick auf Placebo-Effekte oder die Übertragbarkeit von Ergebnissen aus Tierversuchen auf Menschen, stellt sich regelmäßig eine ganz prinzipielle Frage: Kann man von einer relativ kleinen Stichprobe, die einer solchen Untersuchung zugrunde liegt, überhaupt auf eine allgemein gültige Aussage schließen. Spätestens dann kommt auch die Mathematik ins Spiel, und zwar in Form der Mathematischen Statistik . Diese Disziplin der angewandten Mathematik beinhaltet nämlich Methoden, die es erlauben, weitgehend gesicherte Aussagen über meist große Gesamtheiten dadurch zu erhalten, dass deutlich kleinere, zufällig ausgewählte Stichproben untersucht werden. Dabei hat es die innerhalb der Mathematischen Statistik betriebene Forschung zum Gegenstand, die diversen Methoden insbesondere daraufhin zu analysieren, unter welchen Umständen, das heißt beispielsweise bei welcher Größe einer Stichprobe, ein vorher vorgegebenes Maß an Sicherheit für die Richtigkeit der Ergebnisse erreicht wird. Basierend auf einer solchen Grundlagenforschung können dann – angepasst an die jeweilige Situation – möglichst optimale, das heißt mit einem Minimum an Unsicherheit behaftete, Methoden ausgewählt werden. Dass solche Problemstellungen alles andere als trivial sind, liegt unter anderem daran, dass der Zufall, welcher einer Stichprobenauswahl zugrunde liegt, mit der für ihn typischen Ungewissheit geradezu im direkten Gegensatz zu stehen scheint zur deterministischen Natur mathematischer Formeln. Und so dürfte dieser glücklicherweise nur scheinbare Gegensatz für viele Verständnisprobleme verantwortlich sein, welche die Mathematische Statistik immer wieder bereitet.

Das vorliegende Büchlein trägt genau diesem Umstand Rechnung: Typische Argumentationen der Mathematischen Statistik sollen exemplarisch erläutert werden, wobei im Wesentlichen nur Kenntnisse vorausgesetzt werden, wie sie auf einer höheren Schule vermittelt werden. Aus diesem Rahmen herausfallende Ausblicke auf besonders abstrakte oder mathematisch schwierige Sachverhalte wurden weitestgehend aus dem normalen Text ausgegliedert und können zumindest beim ersten Lesen übersprungen werden. Generell liegt der Schwerpunkt eindeutig darauf, statistische Argumentationen in prinzipieller Weise zu begründen und somit die wissenschaftliche Legitimation für den Anwender zu verdeutlichen. Insofern wird sowohl davon abgesehen, möglichst viele Verfahren ohne jegliche Begründung kochrezept-artig zu beschreiben, als auch davon, mathematisch anspruchsvolle Berechnungen und Beweisführungen vollständig darzulegen. Stattdessen werden primär solche Sachverhalte ausgewählt, die für ein Verständnis statistischer Methoden wichtig sind, ganz nach dem Motto Statistik – wie und warum sie funktioniert. Im Blickpunkt stehen also Ideen, Begriffe und Techniken, die so weit vermittelt werden, dass eine konkrete Anwendung, aber auch die Lektüre weiterführender Literatur, möglich sein sollte. Dabei soll sowohl dem Schrecken entgegengewirkt werden, der von Tabellen mit suspekt erscheinenden Titeln wie Werte der Normalverteilung und Quanti- le der Chi-Quadrat-Verteilung ausgehen kann, als auch dem oft zu unbekümmert praktizierten Umgang mit Statistik-Programmen. Konkret wird zu diesem Zweck deutlich gemacht werden, wie solche Tabellen zustande kommen, das heißt, wie die dort tabellierten Werte be- stimmt werden können, und wie und warum mit ihrer Hilfe Stichprobenergebnisse interpretierbar sind. Da die dafür notwendigen mathemati- schen Methoden alles andere als elementar sind, wird vom üblicherweise in Statistikbüchern beschrittenen Weg abgewichen, indem ein empirischer Zugang zu den besagten Tabellen aufgezeigt wird. In Bezug auf diese Tabellen bleibt anzumerken, dass sie heute ihre praktische Bedeutung fast vollständig verloren haben. Der Grund dafür ist, dass selbst der- jenige, der kein Statistikprogramm zur Verfügung hat, heute mit Tabellenkalkulationsprogrammen wie Microsoft Excel oder OpenOffice ohne große Mühe einen vollen Zugriff auf die Werte der tabellierten Verteilungen besitzt.

Die Darstellung der formalen Grundlagen ist – soweit irgend möglich und sinnvoll – auf ein Mindestmaß reduziert. Dabei wurde versucht, zumindest die wesentlichen Begriffsbildungen sowie Argumentationsketten zu berücksichtigen und auch auf die Lücken der Darlegung hinzuweisen, so dass weitergehend Interessierte gezielt ergänzende Fachliteratur zu Rate ziehen können. Nicht unterschlagen werden soll die historische Entwicklung, und zwar zum einen, weil der Aufschwung der Mathematik im zwanzigsten Jahrhundert, in dem sich die Entwicklung der Mathematischen Statistik im Wesentlichen vollzogen hat, weit weniger bekannt ist als der zeitlich parallel erfolgte Fortschritt bei den Naturwissenschaften, zum anderen, weil es durchaus spannend sein kann, persönlichen Irrtum und Erkenntnisgewinn der zeitrafferartig verkürzten Entwicklung zuordnen zu können. Und so werden wir auch im ersten Teil mit einer konkreten Untersuchung starten, die rückblickend als historisch erster sogenannter Hypothesentest verstanden werden kann. Ausgehend von der Diskussion der auf Basis dieser Untersuchung erfolgten Argumentation wird dann im zweiten Teil das mathematische Rüstzeug entwickelt, bei dem es sich um die Grundzüge der mathematischen Wahrscheinlichkeitsrechnung handelt. Letztlich handelt es sich dabei um Formeln, mit denen bei zufälligen Prozessen komplizierte Situationen, wie sie insbesondere in Versuchsreihen auftreten, rechnerisch auf einfachere Gegebenheiten zurückgeführt werden können. Auf diesen Formeln aufbauend werden dann im dritten Teil typische statistische Tests vorgestellt. Um auch in der äußeren Form eine deutliche Trennlinie zu mathematischen Lehrbüchern zu ziehen, habe ich eine Darstellungsform gewählt, wie sie meinen auf ähnliche Leserkreise ausgerichteten Büchern Glück, Logik und Bluff: Mathematik im Spiel - Methoden, Ergebnisse und Grenzen sowie Algebra für Einsteiger: Von der Gleichungsauflösung zur Galois-Theorie zugrunde liegt: Jedes Kapitel beginnt mit einer plakativen, manchmal mehr oder weniger rhetorisch gemeinten Problemstellung, auch wenn der Inhalt des Kapitels meist weit über die Lösung des formulierten Problems hinausreicht.

In diesem Buch nur am Rande behandelt wird die beschreibende Statistik. Bei diesem Zweig handelt es sich eigentlich um den klassischen Teil der Statistik, die ihren Namen sowohl dem lateinischen Wort status (Zustand) als auch dem Wortstamm Staat verdankt (statista lautet das italienische Wort für Staatsmann) und ab dem siebzehnten Jahrhundert zunächst als reine Staatenkunde verstanden wurde. Die beschreibende Statistik, auch deskriptive Statistik genannt, beschäftigt sich mit der breit angelegten Erfassung von Daten sowie deren Aufbereitung, Auswertung und Präsentation in Tabellen und Graphiken. Basis bildeten früher zum Teil die n ihrer Tradition bis in die Antike zurückreichenden Volkszählungen. Heute handelt es sich meist um die Kumulationen von Einzelstatistiken, wie sie von lokalen Behörden und Institutionen wie Meldeämtern, Finanzbehörden, Krankenkassen, Handwerks- und Handelskammern zusammengetragen werden. Inhalt solcher Statistiken sind in der Regel Aussagen darüber, wie häufig die möglichen Werte bestimmter Merkmale bei den untersuchten Objekten vorkommen. Der zur beschreibenden Statistik komplementäre Teil der Statistik wird übrigens meist schließende Statistik ge- nannt. Diese Benennung ist insofern missdeutbar, als dass natürlich auch die beschreibende Statistik zur Fundierung von Schlussfolgerungen verwendet wird. Daher dürfte die Bezeichnung Mathematische Statistik XE „Statistik:Mathematische" als Oberbegriff für solche Sachverhalte, wie sie im Folgenden erläutert werden, treffender sein. Selbstverständlich möchte ich es nicht versäumen, mich bei all denjenigen zu bedanken, die zum Entstehen dieses Buches beigetragen haben: Äußerst hilfreiche Hinweise auf Fehler und Unzulänglichkeiten in Vorversionen dieses Buches habe ich von Wilfried Hausmann und Christoph Leuenberger erhalten. Dem Vieweg+Teubner-Verlag und seiner Programmleiterin Ulrike Schmickler-Hirzebruch habe ich dafür zu danken, das vorliegende Buch ins Verlagsprogramm aufgenommen zu haben. Und schließlich schulde ich einen ganz besonderen Dank meiner Frau Claudia, ohne deren manchmal strapaziertes Verständnis dieses Buch nicht hätte entstehen können. JÖRG BEWERSDORFF

Statistik für Einsteiger und Anfänger

Inhaltsverzeichnis Vorwort V
1 Einführung 1
1.1 Der erste Hypothesentest 1
1.2 Die Formulierung statistischer Aussagen 3
1.3 Die Prüfung statistischer Aussagen 8
2 Die Mathematik des Zufalls 20
2.1 Ein Maß für Sicherheit 20
2.2 Die Gesetze des Zufalls 31
2.3 Ursache und Wirkung bei Ereignissen 39
2.4 Zufallsgrößen: zufällig bestimmte Werte 48
2.5 Ursache, Wirkung und Abhängigkeiten bei Zufallsgrößen 71
2.6 Zufallsgrößen im groben Überblick 87
2.7 Das Gesetz der großen Zahlen 90
2.8 Das starke Gesetz der großen Zahlen 103
2.9 Der Zentrale Grenzwertsatz 114
2.10 Monte-Carlo-Verfahren: Wenn Formeln zu kompliziert sind 140
2.11 Resümee der Wahrscheinlichkeitsrechnung 163
3 Statistische Methoden 166
3.1 Die Problemstellungen der Mathematischen Statistik 166
3.2 Hypothesentest: ein Beispiel aus der Qualitätssicherung 177
3.3 Hypothesentests – die Grundlagen 183
3.4 Normalverteilung bei kleinen Stichproben? 201
3.5 Testplanung ohne festgelegtes Signifikanzniveau: der p-Wert 214
3.6 Konfidenzintervalle: zufallsbestimmte Intervalle 218
3.7 Schätztheorie: Eine Einführung 225
3.8 Vierfeldertest: Unabhängigkeitstest für verbundene Stichproben 242
3.9 Universelle Tests ohne Parameter 253
3.10 Resümee und Ausblick 267
Sachwortverzeichnis 272

1 Einführung

1.1 Der erste Hypothesentest

Es liegt eine Geburtenstatistik von 82 Jahrgängen vor, bei der in jedem Einzeljahr der Anteil der männlichen Babys den der weiblichen übersteigt. Kann aufgrund dieser Statistik das Übergewicht von männlichen Neugeborenen als generell gültige Tatsache angesehen werden? 1710, knapp 200 Jahre vor dem eigentlichen Beginn einer systematischen Erforschung statistischer Testmöglichkeiten präsentierte der schottische Arzt und Satiriker John Arbuthnot (1667-1735) – unter anderem war er Hofarzt der letzten Stuart-Königin Anne und Erfinder der dem Deutschen Michel entsprechenden Figur des „John Bull" – eine Auswertung der angeführten Geburtenstatistik, welche die 82 Jahre von 1629 bis 1710 umfasste. Allerdings war Arbuthnots Ansinnen eigent- lich nicht naturwissenschaftlich orientiert. Vielmehr sollten seine Ausfüh- rungen nachweisen, dass nicht der Zufall, sondern die göttliche Vorse- hung am Werke ist. So lautete der Titel seiner in den Philosophical Transactions of the Royal Society of London, 27 (1710) veröffentlichten Untersuchung: An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes. Was aber auch Arbuthnots genauer Beweggrund gewesen sein mag – in Bezug auf seine Argumentation ist Arbuthnots Vorgehen auf jeden Fall äußerst bemer- kenswert. Obwohl wir die Grundlagen einer solchen Argumentation erst in den nächsten Kapiteln detailliert erörtern werden, können wir doch schon jetzt Arbuthnots Gedankengang im Wesentlichen nachvollziehen, wenn auch zum Teil noch ohne exakte Begründung.

Ausgegangen wird von der Annahme, dass das Geschlecht eines Neuge- borenen zufällig mit gleichen Chancen bestimmt wird – wie beim Wurf einer symmetrischen Münze. Folglich sind auch die Chancen identisch, dass ein Geschlecht in einem Jahr überwiegt. Schließlich besitzen auch die Möglichkeiten, wie sich solche Übergewichte über mehrere Jahre mit- einander kombinieren können, untereinander die gleichen Chancen. In Bezug auf die ersten beiden Jahre besitzen also die 4 möglichen Kombi- nationen die gleichen Chancen: ? „MM": männliches Übergewicht im 1. Jahr und 2. Jahr; ? „Mw": männliches Übergewicht im 1. Jahr, weibliches Übergewicht im 2. Jahr; ? „wM": weibliches Übergewicht im 1. Jahr, männliches Übergewicht im 2. Jahr; ? „ww": weibliches Übergewicht im 1. Jahr und 2. Jahr; Entsprechend ergeben sich für die 8 möglichen Kombinationen, die in den ersten drei Jahren möglich sind, ebenfalls gleiche Chancen: MMM, MMw, MwM, Mww, wMM, wMw, wwM, www Mit jedem weiteren Jahr verdoppelt sich die Zahl der möglichen, untereinander chancengleichen Kombinationen jeweils nochmals. Für den gesamten zugrunde gelegten Zeitraum von 82 Jahren ergibt sich auf diese Weise die astronomische Gesamtzahl von 2·2·2·...·2 (82 Faktoren) = 282 = 4835703278458516698824704 untereinander chancengleichen Kombinationen. Dass sich dabei einzig aufgrund des puren Zufalls ausgerechnet die Kombination MMMM...M (82 mal) für Arbuthnots Geburtenstatistik ergibt, ist wohl kaum zu erwarten. Mindestens eine der beiden der Berechnung zugrunde liegenden Annahmen, nämlich Zufälligkeit und Chancengleichheit, muss also hochgradig in Zweifel gezogen werden. Andernfalls wäre nämlich das a priori völlig unwahrscheinliche Ergebnis nicht zu erklären. Arbuthnots Folgerung war es nun, die Zufälligkeit als widerlegt anzusehen, so dass er glaubte, einen göttlichen Plan zu erkennen. Schon von zeitgenössischen Mathematikern wie Willem Jacob 's Gravesande (1688-1742) und Nikolaus Bernoulli (1687-1759) wurde aber zu Recht erkannt, dass die betreffende Geburtenstatistik vielmehr als Nachweis dafür zu werten ist, dass bei einem Neugeborenen die Chance, dass es sich um einen Jungen handelt, die Chance auf ein Mädchen übersteigt. Nach diesem kleinen Rückblick auf 300 Jahre zurückliegende Denkweisen ist es mehr als lehrreich, Arbuthnots Beispiel aus dem Blickwinkel unseres heutigen Erkenntnisstandes zu erörtern. Konkret: Wie würde ein Statistiker heute vorgehen und argumentieren? Dies wollen wir in den beiden nächsten Kapiteln im Detail tun. Bild 1 John Arbuthnot und Faksimile eines Teils der von ihm verwendeten Geburtenstatistik.

1.2 Die Formulierung statistischer Aussagen

Um Arbuthnots Argumente in einer Weise darle- gen zu können, die dem heutigen Anspruch in Bezug auf wissenschaftliche Exaktheit genügt, bedarf es klar definierter Begriffsbildungen zur Formulierung statistischer Aussagen. Ausgangspunkt aller Aussagen, die wir hier untersuchen wollen, ist stets eine fest vorgegebene, eindeutig definierte Grundgesamtheit . Dabei kann es sich zum Beispiel um die Bevölke- rung Deutschlands handeln. Als Gesamtheit ebenso denkbar sind die Studenten, die derzeit an einer Hochschule in Nordrhein-Westfalen immatrikuliert sind, oder die in München zugelassenen Autos. Welche Grundgesamtheit man konkret wählt, wird sich primär am Gegenstand des Interesses orientieren. Zu berücksichtigen ist aber auch, dass die realistisch für Untersuchungen zu Verfügung stehenden Stichproben repräsentativ für die Grundgesamtheit sein müssen: So könnte man im Fall von Arbuthnots Untersuchung als Grundgesamtheit alle Neugeborenen nehmen, eventuell eingeschränkt auf gewisse Geburtsjahrgänge und -orte, um so gegebenenfalls dadurch bedingte Einflüsse zu verhindern. Wir wollen nur solche Grundgesamtheiten zum Gegenstand einer Untersuchung machen, deren Mitglieder – oft werden sie schlicht Untersuchungseinheiten ge- nannt – die Gemeinsamkeit besitzen, dass sie allesamt gewisse Merkmale aufweisen: Handelt es sich zum Beispiel bei der Grundgesamtheit um die deutsche Bevölkerung, so kann es sich bei solchen Merkmalen sowohl um quantitative Angaben wie Alter oder Einkommen als auch qualitative Eigenschaften wie Geschlecht oder Beruf handeln.

Oft ist es von Interesse, wie häufig jeder mögliche Wert eines Merkmals – bezeichnet meist als Merkmalsausprägung oder schlicht als Merkmalswert – inner- halb der Grundgesamtheit auftritt. So ist beispielsweise für die Bevölkerung die Altersverteilung, die graphisch in der Regel als sogenannte Alterspyramide dargestellt wird (siehe Bild 2), ein wesentlicher Faktor für Prognosen über die weitere Entwicklung der Sozialversicherungen. Aber auch für andere Planungen, ob beim Bau von Kindergärten und Krankenhäusern oder bei Marktanalysen für bestimmte Produktgruppen – eben sprichwörtlich von der Wiege bis zur Bahre –, spielt die Altersverteilung eine wichtige Rolle. Die Gesamtheit aller Häufigkeiten, mit der die möglichen Werte eines Merkmals innerhalb der Grundgesamtheit auftreten, wird Häufigkeitsverteilung genannt. Strukturell wichtiger als die absoluten Häufigkeiten , das heißt die konkreten Anzahlen, mit denen Merkmalswerte innerhalb der Grundgesamtheit vorkommen, sind die relativen Häufigkeiten: So besagt die Aussage, dass ein Kandidat bei einer direk- ten Bürgermeisterwahl circa zwanzigtausend Stimmen erhalten hat, nicht allzu viel. Bezogen auf das in der Grundgesamtheit der Wähler „untersuchte" Merkmal gewählter Kandidat sind nämlich relative Häufigkeiten wahlentscheidend und nur indirekt die absoluten Häufigkeiten: So hat ein Kandidat die absolute Mehrheit der Stimmen auf sich vereinigt, wenn der ihm entsprechende Merkmalswert des Merkmals gewählter Kandidat eine relative Häufigkeit von über 50% besitzt. Bild 2 Alterspyramide als Beispiel einer graphisch dargestellten Häufigkeitsverteilung des kombinierten Merkmals „Alter und Geschlecht" (Quelle: Statistisches Bundesamt) Wie im gerade angeführten Beispiel kann eine relative Häufigkeit durch einen Prozentwert angegeben werden. Mathematisch ist es allerdings praktischer, die Gesamtheit auf den Wert 1 zu normieren: 50% Prozent entsprechen dann ½, und anstelle eines Wertes von beispielsweise 51,2% tritt der Anteil in Höhe von 0,512. Oft interessieren die relativen Häufigkeiten, mit denen bestimmte Merkmale auftreten, nur indirekt, nämlich nur in Form daraus abgeleiteter Größen. Am wichtigsten dabei ist sicherlich der auch Durchschnitt genannte Mittelwert, mit welchem ein quantitatives Merkmal innerhalb der Grundgesamtheit auftritt. So muss sich eine Versicherung bei der Kalkulation ihrer Beiträge an den durchschnittlichen Aufwendungen pro Versichertem orientieren: Um diesen Durchschnitt zu berechnen, werden die Aufwendungen, die für die einzelnen Versicherten getätigt wurden, allesamt addiert und anschließend durch die Zahl der Versicherten geteilt.

Soll der Durchschnitt aus den Daten einer Häufigkeitsverteilung berechnet werden, so geschieht dies in Form einer gewichteten Summe, wobei jeder Summand einem Produkt entspricht: Multipliziert wird jeweils ein Wert, den das Merkmal annehmen kann, mit der dazugehörigen relativen Häufigkeit. Ausgedrückt als Formel ergibt sich der Durchschnittswert eines Merkmals x, welches die möglichen Werte a, b, ... mit den relativen Häufigkeiten ra , rb, ... annimmt, durch Noch einfacher als diese Formel ist der ihr zugrunde liegende Sachverhalt, wie ein Beispiel sofort zeigt: Erhalten 90% der Autofahrer in einem Jahr keinen Bußgeldbescheid, 7% einen Bußgeldbescheid, 2% zwei Bußgeldbescheide und 1% sogar drei Bußgeldbescheide, dann beträgt der Durchschnitt der jährlichen Bußgeldbescheide pro Autofahrer . So naheliegend und berechtigt die Verwendung des Durchschnitts für das schon erwähnte Beispiel der Aufwendungen einer Versicherung ist, so muss genauso vor der unsachgemäßen Interpretation des Durchschnitts gewarnt werden. „Typische" Verhältnisse, beispielsweise das Einkommen des „Durchschnittsbürgers", werden oft realistischer durch den so genannten Median widergespiegelt: Der Median wird nämlich so gewählt, dass er die Grundgesamtheit in Bezug auf die Größe des betreffenden Merkmalswertes in zwei gleich große Teile zerlegt. Für das Beispiel des Einkommensmedians, der sich für die deutsche Bevölkerung ergibt, haben also 50% der Bevölkerung ein Einkommen, das min destens so groß ist wie der Median, während die andere Hälfte ein Einkommen besitzt, das höchstens so hoch wie der Median ist. Es liegt auf der Hand, dass eine jährliche Erfassung des Einkommensmedians die Veränderung der „typischen" Einkommensverhältnisse innerhalb der Bevölkerung eher widerspiegelt, als das beim Durchschnittseinkommen der Fall ist. Ein Grund dafür ist, dass Veränderungen, die sich nur isoliert im Bereich der Spitzenverdiener abspielen, den Durchschnitt verändern, jedoch ohne Wirkung auf den Median bleiben.

Natürlich lassen sich die Häufigkeiten, mit der bestimmte Merkmalswerte innerhalb der Grundgesamtheit auftreten, stets im Rahmen einer Vollerhebung ermitteln. Allerdings ist bei großen Grundgesamtheiten der dafür notwendige Aufwand, etwa im Rahmen einer Volkszählung, meist unvertretbar hoch. Darüber hinaus gibt es sogar Fälle, in denen sinnvoll überhaupt keine Vollerhebung möglich ist, etwa wenn bei einem Fabrikationsprozess die qualitätssichernde Endprüfung nur dadurch möglich ist, dass die geprüften Untersuchungseinheiten zerstört werden. Aus den genannten Gründen ist es vorteilhaft, wenn nur ein relativ kleiner Teil der Mitglieder der Grundgesamtheit untersucht werden braucht. In Anlehnung an eine dem Hüttenwesen entstammende Terminologie nennt man eine solche zufällig getroffene Auswahl Stichprobe. Auch wenn nur eine Stichprobe untersucht wird, bleibt natürlich trotzdem das Ziel bestehen, daraus Aussagen über die Grundgesamtheit abzuleiten: Wie und mit welcher Präzision und Sicherheit dies möglich ist, davon handelt die schließende Statistik. Dabei ist jeweils der Umfang der Stichprobe mit zu berücksichtigen. Denn schon intuitiv ist klar, dass mit größeren Stichproben genauere und sicherere Aussagen über die Grundgesamtheit erzielt werden können als mit kleineren Stichproben. Fassen wir zusammen:

Die Statistik beschäftigt sich mit Aussagen über relative Häufigkeitsverteilungen von Merkmalen innerhalb fest vorgegebener Grundgesamtheiten. Darunter fallen sowohl direkte Aussagen über relative Häufigkeiten, aber auch Aussagen über daraus resultierende Größen, wobei es sich beispielsweise um einen Mittelwert oder einen Median handeln kann. Ein wesent- licher Teil der Statistik besteht aus einem Apparat von Methoden, mit denen solche Aussagen mittels der Untersuchung von Stichproben getroffen beziehungsweise geprüft werden können. Auf Basis der eingeführten Terminologie können wir nun die aus Arbuthnots Daten gezogene Schlussfolgerung erneut formulieren: „Bei Neugeborenen besitzt der Merkmalswert männlich eine relative Häufigkeit, die 0,5 beziehungsweise 50% übersteigt und somit größer ist als die relative Häufigkeit des Merkmalswertes weiblich." Wie diese statistische Aussage mittels der Untersuchung einer Stichprobe geprüft werden kann, haben wir im Wesentlichen bereits kennengelernt. Wir wollen diese Schlussweise im nächsten Kapitel nochmals im Detail erörtern, und zwar nun – entsprechend dem gerade erweiterten Horizont – in einem allgemeineren Kontext.

1.3 Die Prüfung statistischer Aussagen

In welcher Hinsicht kann Arbuthnots Argumentation verallgemeinert werden, und was ist dabei zu beachten? Der entscheidende Punkt von Arbuthnots Argumentation besteht zweifellos darin, eine sich auf eine große Grundgesamtheit beziehende Vermutung dadurch zu prüfen, dass eine vergleichsweise kleine Stichprobe untersucht wird. Dabei wird – und das ist der die mathematische Bearbeitung erleichternde „Kniff" – das Gegenteil dessen, was letztlich nachgewiesen werden soll, als (Arbeits-)Hypothese unterstellt.

Die eigentliche mathematische Bearbeitung geschieht auf der Basis mathematischer Gesetzmäßigkeiten von zufälligen Prozessen. Solche Geset- ze werden wir im zweiten Teil des Buches ausführlich erläutern. Dabei kommt der Zufall bei Stichprobenuntersuchungen stets dadurch ins Spiel, dass die Stichprobe mittels Zufallsauswahl aus der Grundgesamtheit entnommen wird. Übrigens kann der Zufall durchaus über den eigentlichen Auswahlprozess hinaus noch eine weitere Rolle spielen, etwa wenn ein Stichprobentest so angelegt ist, dass die Reihenfolge der ausgewählten Untersuchungseinheiten oder – wie bei Arbuthnots Vorgehen – die Gruppierung zu Unterstichproben für die mathematische Bearbeitung von Bedeutung ist. Bei Arbuthnot geschah die Zufallsauswahl der Stichprobe mehr oder minder implizit, nämlich in Abhängigkeit von Ort und Jahrgang der Geburt. Da bei diesen beiden Faktoren ein Einfluss auf das Geschlecht wenig plausibel erscheint, kann ein solches Vorgehen durchaus als „genügend" zufällig angesehen werden. In jedem Fall unkritischer und daher in systematischer Weise vorzuziehen wäre aber die Vorgehensweise, die Auswahl der Stichprobe und deren Unterteilung in 82 Unterstichproben völlig zufällig vorzunehmen. Arbuthnots Vorgehen hat im Vergleich zu anderen statistischen Tests, die wir an späterer Stelle kennenlernen werden und die zum Teil im Hinblick auf den notwendigen Stichprobenumfang wesentlich effizienter sind, den Vorteil, dass die mathematische Argumentation sehr elementar ist. Ausgehend von der Hypothese einer Symmetrie zwischen den beiden Chancen, dass ein Neugeborenes männlich beziehungsweise weiblich ist, überträgt sich diese Symmetrie zunächst auf die Übergewichte bei den 82 Unterstichproben und schließlich auf die astronomisch große Anzahl von 282 Kombinationen der 82 Unterstichproben-Übergewichte. Das heißt, jede Sequenz von 82 jahrgangsbezogenen, mit „M" oder „w" bezeichneten Geschlechts-Übergewichten wie MMMMMMMMMM...M MwMwMwMwMw...w MMwMwwwMMw...M wwwwwwwwww...w ist gleichwahrscheinlich. Dabei wurde die Beobachtung der Sequenz MMMMMMMMMM...M als Indiz dafür angesehen, die ursprünglich gemachte Hypothese als widerlegt ansehen zu müssen. Warum soll aber gerade diese Sequenz MMMMMMMMMM...M als Indiz für eine Verwerfung der Hypothese genommen werden? Die sofort einleuchtende Begründung ist: Zwar ist die zweite der gerade aufgelisteten Se- quenzen, nämlich MwMwMwMwMw...w, in ihrer regelmäßigen Abfolge genauso unwahrscheinlich wie die erste Sequenz. Allerdings kann das Eintreten der ersten Sequenz MMMMMMMMMM...M, nicht aber das Eintreten der zweiten Sequenz MwMwMwMwMw...w, plausibel erklärt werden, nämlich dadurch, dass ein Ungleichgewicht zugunsten überwiegender Knabengeburten vorliegt. So gesehen sind Sequenzen, bei denen die Knaben innerhalb der 82 Unterstichproben im Verhältnis 82:0, aber auch noch in Verhältnissen wie 81:1 oder 80:2, stark überwiegen, absolut unwahrscheinlich , es sei denn, die gemachte Hypothese würde aufgegeben. „Ausreißer"-Ergebnisse mit männlichen Übergewichten in mindestens 80 der 82 Unterstichproben sind also als gewichtiges Indiz dafür zu werten, die Hypothese zu verwerfen, wobei bei dieser Verfahrensweise ein Fehlschluss mit einer an Sicherheit grenzenden Wahrscheinlichkeit ausge- schlossen werden kann.

Welche Untersuchungsergebnisse bei einem Hypothesentest als Widerlegung der Hypothese zu werten sind und welche nicht, ist im allgemeinen Fall Bestandteil der sogenannten Entscheidungsregel, die im Rahmen der Testplanung auf Basis der mathematischen Gesetzmäßigkeiten zufälliger Prozesse formuliert und begründet wird. Dabei sollten im Rahmen der Entscheidungsregel solche Ergebnisse der Stichprobenuntersuchung zu einer Hypothesen-Widerlegung führen, ? die bei unterstellter Richtigkeit der Hypothese einen „Ausreißer"-Charakter besitzen, das heißt a priori sehr unwahrscheinlich sind, und ? die ihren Ausreißer-Charakter aber verlieren, wenn die Gültigkeit der Hypothese aufgeben wird. Meist orientiert sich die Entscheidungsregel daran, ob ein aus der Stichprobenuntersuchung berechneter Wert innerhalb des sogenannten Ablehnungsbereichs, oft auch als Verwerfungsbereich oder kritischer Be- reich bezeichnet, liegt oder nicht. Dabei wird die Berechnungsvorschrift des Wertes als Stichprobenfunktion, Testgröße oder auch als Prüfgröße bezeichnet. Im Fall von Arbuthnots Test entspricht der Wert der Stichprobenfunktion schlicht derjenigen Anzahl von Unterstichproben, in denen männliche Babys überwiegen. Konkret werden sich der Ablehnungsbereich und damit die Entschei- dungsregel eines Hypothesentests immer am gesamten Umfeld der Stich- probenuntersuchung orientieren, das heißt insbesondere an * der Hypothese, * der Stichprobengröße, * den innerhalb der Stichprobe ermittelten Daten und * der daraus berechneten Stichprobenfunktion. In systematischer Hinsicht ist es dabei ungemein wichtig, dass diese Planung vor der Durchführung der Stichprobenuntersuchung oder zumindest vor der Sichtung des Datenmaterials stattfindet. Auf den ersten Blick erscheint eine solche Festlegung vielleicht etwas übertrieben, und gerade Arbuthnot ist ein Beispiel dafür, dass er seinen Test erst nach dem Vorliegen der Stichprobendaten durchführte. Der Grund dafür, diese Reihenfolge aber trotzdem unbedingt einzuhalten, ist der folgende:

Andernfalls könnte man nämlich einfach nur mit Fleiß umfangreiches Datenmaterial über genügend viele Eigenschaften von Versuchspersonen ermitteln und würde darin höchstwahrscheinlich irgendeine, zufällig in dieser Stichprobe auftretende Auffälligkeit entdecken. Beispielsweise könnte es sein, dass eine untersuchte Gruppe erwachsener Männer zufällig so zusammengesetzt ist, dass darin die Personen mit größerer Schuhgröße eine im Durchschnitt deutlich höhere Intelligenz aufweisen. Wahrscheinlich hätte man in einer anderen Stichprobe eine andere Anomalie wie etwa zwischen Haarfarbe und Einkommen gefunden. Dafür hätte man aber dort kaum unter den Personen mit großer Schuhgröße eine deutlich höhere Intelligenz festgestellt. Trotzdem würde natürlich eine passend zur ursprünglichen Versuchsgruppe aufgestellte Hypothese, gemäß der es keinen Zusammenhang zwischen Intelligenz und Schuhgröße gibt, durch die Daten dieser ersten Gruppe scheinbar widerlegt. Verkürzt für die Titelseite der Boulevardpresse wäre damit endlich der „Beweis" erbracht: „Männer denken mit den Füßen". Wenn nicht aus dem für den Test verwendeten Datenmaterial, woher soll eine Hypothese aber sonst kommen? Die Antwort auf den scheinbaren Einwand ist so einfach wie einleuchtend zugleich: zum Beispiel aus anderem Datenmaterial! Oder, weil wie im Fall von Arbuthnot das Gegenteil zuvor als naheliegende Erfahrungstatsache gegolten hat. Oder, weil im Fall der Wirksamkeitsprüfung eines neuen Medikaments eine Hoffnung darauf besteht, die dazu hypothetisch angenommene Unwirksamkeit zu widerlegen. Oder, weil man einfach wissen will, ob die Regierungsparteien noch immer so populär sind wie bei den letzten Wahlen. Da Hypothesen, und zwar über die gerade angeführten Fälle hinaus, oft einen fehlenden Unterschied zum Gegenstand haben, hat sich ganz allgemein als Sprachgebrauch der Begriff der sogenannten Null-Hypothese eingebürgert. Fassen wir zusammen: Das Prozedere eines Tests, nämlich betreffend * Stichprobengröße, * Art der zu erhebenden Daten und * deren Bearbeitung bis hin zur anzuwendenden Entscheidungsregel, sollte stets vollständig im Rahmen einer Testplanung festgelegt werden, bevor Teile des Tests durchgeführt werden. Eine schematische Darstellung der vorzunehmen Einzelschritte ist in Bild 3 dargestellt.

Dem eigentlichen Test voran geht eine Vermutung, auf deren Basis durch Negierung eine (Null-)Hypothese aufgestellt wird. Wird diese Hypothese dann im Rahmen des Tests widerlegt, so erfährt die ursprüngliche Vermutung, die oft als Alternativhypothese bezeichnet wird, eine Bestätigung. Aufgrund der Zufälligkeit der Stichprobenauswahl beinhaltet ein solcher Test stets das Risiko, die Hypothese zu verwerfen, obwohl sie in Wahr- heit stimmt – theoretisch feststellbar im Rahmen einer Vollerhebung. Man bezeichnet diese Art des Irrtums als Fehler 1. Art. Dabei wird der Test unter Verwendung mathematischer Methoden so konzipiert, dass ein Fehler 1. Art relativ unwahrscheinlich ist, wozu beispielsweise die diesbezügliche Wahrscheinlichkeit auf 0,01 begrenzt wird. Diese Obergrenze, bei der man von einem Signifikanzniveau von 1% oder auch von einer Sicherheitswahr- scheinlichkeit von 99% spricht, bedeutet konkret: Im Fall, dass die Hypothese in Wahrheit richtig ist, würde sie trotzdem bei 1000 Testdurchgängen etwa zehnmal fälschlicherweise als widerlegt erscheinen, weil das Testergebnis wesentlich, eben signifikant, vom eigentlich zu Erwartenden abweicht. Bild 3 Schematischer Ablauf eines typischen Hypothesentests (von unten nach oben): Ausgehend von einer Vermutung (oft als Alternativhypothese bezeichnet) wird durch Negierung eine Hy- pothese, die sogenannte Null-Hypothese, aufgestellt. Es folgt die Planung eines Tests und dessen anschließende Durchführung. Arbuthnots Test ist als Beispiel in Bild 5 (Seite 18) dargestellt. Streng zu unterscheiden vom Fehler 1. Art ist der sogenannte Fehler 2. Art. Dieser bezieht sich auf die Situation, dass eine objektiv falsche Hypothese – feststellbar theoretisch wieder im Rahmen einer Vollerhebung – nicht durch das Ergebnis des Tests widerlegt wird. Allerdings handelt es sich streng genommen in diesem Fall überhaupt nicht um einen „Fehler" im Sinne einer fälschlicherweise gemachten Aussage. Denn ein solcher Fehler läge nur dann vor, wenn das Testergebnis als Bestätigung der Hypothese interpretiert würde. Eine solche Schlussweise ist aber in der Systematik eines Hypothesentests eigentlich gar nicht vorgesehen!

Bei dem häufig praktizierten Ansatz, bei der die Null-Hypothese einen nicht vorhandenen Unterschied behauptet, besteht ein Fehler 1. Art darin, dass man aufgrund des Testergebnisses einen Unterschied „sieht", der in Wahrheit gar nicht vorhanden ist. Dagegen entspricht ein Fehler 2. Art der Situation, bei der ein vorhandener Unterschied übersehen wird. Anders als bei einem Fehler 1. Art, dessen Wahrscheinlichkeit bei einer entsprechenden Testplanung auf einen kleinen Wert wie beispielsweise 1% oder 5% reduziert werden kann, hängt die Wahrscheinlichkeit für einen Fehler 2. Art immer auch von der Größe des vorhandenen, aber ein seiner Größe unbekannten, Unterschiedes ab. Dabei ist bereits intuitiv klar, dass bei geringen Unterschieden die Wahrscheinlichkeit für einen Fehler 2. Art kaum begrenzt werden kann.

Auf den ersten Blick erscheint die Vorgehensweise, Hypothesen nur dafür aufzustellen, um sie anschließend zu verwerfen, vielleicht etwas gewöhnungsbedürftig. Außerdem tragen die diversen Begriffe wie NullHypothese, Alternativhypothese, Signifikanzniveau und Fehler 1. und 2. Art nicht unbedingt dazu bei, das Verständnis dafür zu erleichtern, warum ein solcher Ansatz gewählt wird. Und obwohl es durchaus statisti- sche Verfahren gibt, die ohne Hypothesen auskommen und die wir neben diversen Hypothesentests im dritten Teil dieses Buches erläutern werden, macht es durchaus Sinn, statistische Denkweisen einführend anhand eines Hypothesentests zu erläutern. Dabei zeigt gerade Arbuthnots frühes Beispiel eines Hypothesentests, dass solche Ar- gumentationsketten in einer gewissen Weise nahe liegen. Dafür dürften zwei Gründe ausschlaggebend sein: * Zum einen ist in einfachen Situationen wie bei Arbuthnot der Bedarf an mathematischen Hilfsmitteln relativ bescheiden, insbesondere dann, wenn man – wie bisher geschehen – nicht ins Detail geht. * Zum anderen ist die Denkweise eines Hypothesentests im Ansatz durchaus mit anderen Methoden der angewandten Naturwissenschaften vergleichbar. Man denke nur an mathematische Modelle, ob für Elementarteilchen, astronomische oder auch makroökonomische Abläufe. Ihnen allen zugrunde liegen mathematische Beschreibungen von experimentell gemessenen Abhängigkeiten zwischen diversen, beobachtbaren Größen. Dabei werden die Modelle so lange als gültig oder zumindest als praktisch verwendbar angesehen, wie sie nicht im Widerspruch zu Ergebnissen konkreter Beobachtungen stehen (siehe auch Bild 4) . Statistische Modelle beinhalten Annahmen über die Zusammensetzung der Grundgesamtheit und beschreiben diese mittels mathema- tischer Objekte. Diese Annahmen müssen, genau wie ein physikalisches Modell, als widerlegt angesehen werden, wenn experimentelle Beobachtungen mit dem Modell nicht in Einklang zu bringen sind. Da solche Beobachtungen in zufällig ausgewählten Stichproben ermittelt werden, unterliegt die Verwerfung eines statistischen Modells immer einer gewissen Unsicherheit. Bild 4 Mathematische Modellbildung: Vergleichbar einem Modell, wie es ein Modellbauer beispielsweise zur Vorab-Prüfung einer geplanten Fahrzeugkonstruktion in einem Windkanal baut, werden mathematische Objekte zur Modellierung realer Sachverhalte verwendet – in der Physik beispielsweise zur Be- schreibung des Verhaltens von Elementarteilchen. Um Hypothesentests in den unterschiedlichsten Szenarien einzusetzen, bedarf es aber zweifelsohne einer genauen Herausarbeitung ihrer mathematischen Grundlagen. Denn nur so lassen sich Testplanungen passend zur jeweiligen Ausgangssituation dahingehend optimieren, dass zu Recht formulierte Vermutungen mit guter Aussicht auf Erfolg ihre statistische Bestätigung erfahren.

Arbuthnots Test in systematischer Planung Soll für Arbuthnots Untersuchung eine Testplanung aufgestellt werden, die in formaler Hinsicht den beschriebenen Anforderungen einer exakten statistischen Argumentation genügt, so bietet sich das folgende Vorgehen an. Zunächst wird die Hypothese aufgestellt, wozu es zwei Möglichkeiten gibt: ? Der relative Anteil der männlichen Neugeborenen ist genauso groß wie der relative Anteil der weiblichen Neugeborenen. ? Der relative Anteil der männlichen Neugeborenen ist höchstens so groß wie der Anteil der weiblichen Neugeborenen. Für beide Hypothesen vermuten wir, dass sie nicht stimmen und dass sie aufgrund der untersuchenden Stichprobe widerlegt werden können. Natürlich bringt die Widerlegung der zweiten Hypothese mehr Erkenntnis aufgrund einer detaillierteren Aussage. Wie bei Arbuthnot sehen wir im Rahmen des geplanten Tests eine in 82 Unterstichproben zerlegte Stichprobe vor. Als Stichprobenfunktion, das heißt als Indikator für die am Ende gegebenenfalls zu treffende Verwerfung, nehmen wir wieder die Anzahl der Unterstichproben mit männlichem Übergewicht.

Der Ablehnungsbereich wird nun aus solchen „Ausreißer"-Ergebnissen zusammengestellt, die einerseits insgesamt sehr unwahrscheinlich sind, andererseits diese Unwahrscheinlichkeit aber dann ein Ende findet, wenn bestimmte, allerdings im Widerspruch zur Hypothese ste- hende, Umstände zugrunde gelegt werden. Konkret: Ein „Ausreißer"- Ergebnis mit einem starken Übergewicht von Knaben verliert seine Unwahrscheinlichkeit, wenn Geburten männlicher Babys tatsächlich im Übergewicht auftreten sollten. So kann dann für die zweite der eben angeführten Hypothesen ein sogenannter einseitiger Ablehnungsbereich zusammenge- stellt werden, der ausgeprägte Übergewichte männlicher Babys im Verhältnis von beispielsweise 82:0, 81:1, ... umfasst. Bei der Beschreibung weiterer Details wollen wir uns aber auf die Planung eines Tests beschränken, mit dem gegebenenfalls die erste der beiden angeführten Hypothesen widerlegt werden kann. Wir fragen uns: Wie ausgeprägt muss ein „Ausreißer"-Übergewicht wie bei- spielsweise 82:0, 81:1 oder auch 0:82, 1:81 sein, damit es in den zweiseitigen Ablehnungsbereich aufgenommen werden kann, ohne dass dabei die Irrtumswahrscheinlichkeit im Falle einer daraus resultierenden Hypothesen-Verwerfung zu groß wird? Anders ausgedrückt: Welcher Ablehnungsbereich kann und sollte genommen werden, wenn eine Obergrenze für die Wahrscheinlichkeit eines Fehlers 1. Art vorgegeben ist? Um diese Frage konkret zu beantworten, müssen wir prüfen, wie viele der aus 82 der Buchstaben „M" oder „w" bestehenden Sequenzen ein ausgeprägtes Übergewicht haben. So gibt es unter den insgesamt 282, alle untereinander gleichwahrscheinlichen Sequenzen der Länge 82 ? eine Sequenz, die 82-mal den Buchstaben „M" enthält, ? 82 Sequenzen, von denen jede 81-mal den Buchstaben „M" und einmal den Buchstaben „w" enthält (das einzige „w" kann nämlich an jeder der 82 Positionen stehen). ? 3321 Sequenzen, bei denen das Übergewicht des Buchstabens „M" im Verhältnis 80:2 vorliegt, ? 88560 Sequenzen, bei den das Übergewicht des Buchstabens „M" im Verhältnis 79:3 vorliegt,

Die Formeln zur Ermittlung solcher Zahlen werden wir noch später kennenlernen. Im Moment wichtiger für uns ist, dass wir alle Übergewichte bis hin zu denen im Verhältnis von 53:29 und 29:53 in den Ablehnungsbereich aufnehmen können, ohne dass die Gefahr eines Fehlers 1. Art die Wahrscheinlichkeit von 1% übersteigt. Das heißt konkret: Unter der Voraussetzung, dass die Hypothese stimmt, führt der solchermaßen abgegrenzte Ablehnungsbereich nur in durch- schnittlich einem von hundert Stichprobenuntersuchungen zu einer sachlich falschen Schlussfolgerung in Form einer rein zufallsbe- dingten Ablehnung der Hypothese. Bild 5 Arbuthnots Test in der schematischen Darstellung von Bild 3 (siehe Seite 13). Über die Möglichkeit eines Fehlers 2. Art ist damit noch gar nichts ausgesagt: Die Wahrscheinlichkeit einer solchen Nicht-Ablehnung einer im Grunde falschen Hypothese hängt einerseits davon ab, welche Werte die relativen Häufigkeiten in Wahrheit besitzen. Dabei ist schon intuitiv klar, dass das Risiko eines Fehlers 2. Art bei nur einer geringfügigen Abweichung von einer symmetrischen Geschlechterverteilung relativ groß werden kann (zugleich ist in solchen Situatio- nen ein Fehler 2. Art aber auch nicht so folgenschwer). Angemerkt werden muss aber auch, dass die Größen der Unterstichproben einen Einfluss auf das Risiko eines Fehlers 2. Art haben: Je größer die Unterstichproben sind, desto geringer wird das Risiko. 2 Die Mathematik des Zufalls 2.1 Ein Maß für Sicherheit

Bei der sprachlichen Umschreibung von Unsicherheit kennen wir viele Varianten: „Morgen wird es wohl regnen". Oder: „Ich kann mir kaum vorstellen, dass der Zug die Verspätung noch aufholen wird." Oder: „Der Angeklagte hat die Tat mit einer an Sicherheit grenzenden Wahrscheinlichkeit begangen". Gesucht ist eine Maßskala, mit der Sicherheiten bei zufälligen Erscheinungen gemessen werden können. Wir haben im ersten Teil des Buches gesehen, warum die mathematischen Gesetzmäßigkeiten von zufälligen Prozessen bei der Bewertung von Stichprobenergebnissen so wichtig sind. Aus Arbuthnots Geburtenstatistik konnte nämlich nur deshalb eine Schlussfolgerung gezogen wer- den, weil die Effekte, die auf der Zufälligkeit der Stichprobenauswahl beruhten, rechentechnisch begrenzt werden konnten. Und so suchen wir nun im allgemeinen Kontext nach Wegen, wie ausgehend von hypothetischen Annahmen über eine Grundgesamtheit weitgehend sichere Prognosen über die Ergebnisse einer Stichprobenuntersuchung erstellt werden können. Solche Prognosen bilden dann, wie wir im dritten Kapitel erörtern werden, die Basis für statistische Schlussfolgerungen, bei denen in umgekehrter Richtung von den Ergebnissen einer Stichprobe auf die Zusam- mensetzung der Grundgesamtheit geschlossen wird. Ziel dieses zweiten Teils werden also Formeln sein, mit denen insbesondere quasi sichere Ergebnisse in zufälligen Prozessen erkannt werden können. Diesen Formeln zugrunde liegt ein „Maß für Sicherheit", vergleichbar physikalischen Größen wie Masse, Länge und Geschwindig- keit. Und wie in der Physik werden es diese Formeln erlauben, komplizierte Sachverhalte rechentechnisch auf einfachere Situationen zurückzuführen: Beispielsweise ermöglichen es die Formeln der physikalischen Disziplin der Mechanik, die Flugbahn einer Raumsonde dadurch zu berechnen, dass Stück für Stück der Wegstrecke die aktuell auf die Raumsonde wirkenden Kräfte bestimmt werden, ob verursacht durch Gravitation oder Beschleunigung – ganz so, wie wir es im einfachen Fall aus einem stehenden oder anfahrenden Aufzug her kennen. In einer gewissen Analogie dazu werden wir Formeln kennenlernen, welche die Ei- genschaften einer zufällig ausgewählten Stichprobe auf diejenigen Parameter zurückführen, welche die zufällige Auswahl einer einzelnen Untersuchungseinheit charakterisieren. Bild 6 Blaise Pascal (links) und Pierre de Fermat (rechts) begründeten 1654 in einem Briefwechsel über Glücksspiele die mathematische Wahrscheinlichkeitsrechnung. Sie fanden unter anderem Erklärungen dafür, warum die Wette, in 24 Würfen mit zwei Würfeln mindestens eine Doppel-Sechs zu erzielen, eher verloren als gewonnen wird, obwohl die entsprechende Wette, in vier Würfen mit einem Würfel eine Sechs zu erzielen, eher gewonnen als verloren wird. In Bezug auf die historische Entwicklung waren es die Glücksspiele, die Mathematiker erstmals dazu inspirierten, sich mit zufälligen Erscheinungen zu beschäftigen. Gefragt wurde unter anderem danach, welche Chan- cen ein Spieler in einem Glücksspiel hat und wie diese Chancen – insbesondere in Relation zum Einsatz oder in Relation zu den Gewinnchancen anderer Spieler – quantifizierbar sind. Ausgehend von den ersten systematischen Untersuchungen der Mathematiker Blaise Pascal (1623-1662) und Pierre de Fermat (1601-1665) entstand so ein mathematischer Apparat, der die Gesetzmä- ßigkeiten zufälliger Prozesse widerspiegelt. Auch heute noch bilden Glücksspiele eine – im wahrsten Sinne des Wortes – ideale „Spielwiese" dafür, zufällige Prozesse mathematisch zu ana- lysieren. Dies hat vor allem zwei Gründe: Zum einen gibt es angefangen vom simplen Wurf eines einzelnen Würfels bis hin zum komplizierten Glücksspiel eine Fülle von (Bei-)Spielen, mit denen viele theoretische Aussagen plastisch erläutert werden können. Zum anderen erfüllen Glücksspiele offensichtlich jene Grundvoraussetzungen, die wir allen mathematischen Überlegungen über sogenannte Zufallsexperimente zugrunde legen wollen: * Die Bedingungen, unter denen der Zufall wirkt, sind bekannt: Dies schließt die verwendeten Mechanismen zur Zufallserzeugung, wie beispielsweise den verwendeten Würfel, genauso ein wie die Kumulation des zufälligen Einflusses in einem eindeutig benennbaren und durch Beobachtung feststellbaren Zufallsergebnis. * Das Zufallsexperiment ist vom Prinzip her beliebig oft unter gleichen Bedingungen wiederholbar.

Die erste Bedingung bildet die notwendige Grundlage dafür, überhaupt eine Aussage über das Zufallsexperiment machen zu können. Die zweite Bedingung stellt sicher, dass theoretische Aussagen im Zuge von Versuchsreihen praktisch überprüft werden können.

Der zentrale Begriff zur mathematischen Beschreibung von Zufallsexperimenten ist der Begriff der Wahrscheinlichkeit, nach Jakob Bernoulli (1654-1705), einem der Pioniere der Wahrscheinlichkeitsrechnung, ein „Grad von Gewissheit". Ausgedrückt wird dieser Grad an Gewissheit durch eine Zahl. Wie eine Länge misst auch die Wahrscheinlichkeit etwas, aber was genau und wovon überhaupt? Das heißt, was für Objekte werden gemessen, und welche Ausprägung von ihnen ist Gegenstand der Messung? Nehmen wir zunächst den Wurf eines einzelnen Würfels. Über ein einzelnes Würfelergebnis sind Aussagen möglich wie „Das Würfelergebnis ist gleich 5" oder „Die geworfene Zahl ist höchstens gleich 3". Je nach Wurf kann eine solche Aussage wahr oder unwahr sein. Anders ausge- drückt: Das durch die Aussage beschriebene Ereignis kann bei einem einzelnen Versuch eintreten oder auch nicht. Dabei tritt der Extremfall des unmöglichen Ereignisses, welches beispielsweise durch die Aussage „Das Würfelergebnis ist gleich 7" repräsentiert wird, nie ein. Dagegen tritt das absolut sichere Ereignis, beschrieben etwa durch die Aussage „Die geworfene Zahl liegt zwischen 1 und 6", in jedem Versuch ein. Die Ereignisse sind nun die Objekte, die mit den Wahrscheinlichkeiten gemessen werden. Gemessen wird bei einem Ereignis die Gewissheit oder Sicherheit, mit der es in einem einzelnen Versuch eintreten kann. Wie aber lässt sich diese Sicherheit messen? Messen heißt vergleichen. So messen wir Längen dadurch, dass wir sie mit einem Maßstab, etwa einem Lineal, vergleichen. Bei den Wahrscheinlichkeiten ist das nicht so einfach. Zum einen sind die zu messenden Objekte nicht materiell, zum anderen ist die zu messende Ausprägung, im Gegensatz zu Größen wie Geschwindigkeit, Temperatur oder Helligkeit, nicht direkt wahrnehmbar. Immerhin ist intuitiv klar, wie man die Sicherheit eines Ereignisses abschätzen kann: Man schreitet zur Tat, das heißt, man würfelt, und zwar möglichst oft! Je höher dabei der Anteil der Würfe ist, bei denen das Ereignis eintritt, als desto sicherer ist der Eintritt des Ereignisses in einem einzelnen Versuch anzusehen. Zahlenmäßig wird der gemessene Anteil durch die relative Häufigkeit erfasst, bei der die Zahl der Eintritte durch die Gesamtzahl der Würfe geteilt wird. Ergeben beispielsweise von 6000 Würfen 2029 Würfe mindestens eine Fünf, dann entspricht das einer relativen Häufigkeit von 2029/6000 = 0,338. Die Sicherheit, mindestens eine Fünf zu würfeln, ist damit gemessen, das Messergebnis lautet 0,338. Eine erneute Messung mit derselben oder einer anderen Wurfzahl würde kaum das gleiche, vermutlich aber ein ähnliches, Ergebnis erbringen. Ein endgültiger Wert ist aber so nicht zu erhalten, und selbst die Angabe einer Messgenauigkeit ist bereits problematisch. Eindeutig messbar sind nur das absolut sichere Ereignis, das immer die relative Häufigkeit 1 besitzt, sowie das unmögliche Ereignis, für das sich stets die relative Häufigkeit 0 ergibt. Will man bei unterschiedlichen Ereignissen die Sicherheit vergleichen, mit der sie eintreten, dann muss das nicht unbedingt experimentell geschehen. Möglich ist es vielmehr auch, Symmetrien zu berücksichtigen: So wie die sechs Flächen des Würfels geometrisch vollkommen gleichwertig sind, so ist es nahe liegend, den Eintritt der entsprechenden Ereignisse als gleich sicher anzusehen, das heißt, den sechs Wurfergebnissen die gleiche Wahrscheinlichkeit zu unterstellen. Auf einer Wahrscheinlichkeits-Maßskala, die wie bei den relativen Häufigkei- ten von der 0 des unmöglichen Ereignisses bis zur 1 des absolut sicheren Ereignisses reicht, ergeben sich dann für die sechs Wurfergebnisse, von denen immer genau eines eintritt, die Wahrscheinlichkeiten 1/6. Jakob Bernoulli begründete dies mit den Worten: „Wahrscheinlichkeit ist nämlich der Grad an der Unsicherheit, und sie unterscheidet sich von ihr wie ein Teil vom Ganzen." Das Ereignis, mindestens eine Fünf zu werfen, umfasst die Würfelergebnisse Fünf und Sechs. Folglich wird ihr die Wahrscheinlichkeit 2/6 = 1/3 zugeordnet. Das Ereignis, eine gerade Zahl zu werfen, erhält entsprechend die Wahrscheinlichkeit 3/6 = 1/2. Wahrscheinlichkeiten lassen sich immer dann wie beim Würfel finden, wenn ein System gleichmöglicher Fälle vorliegt. Der für uns wichtigste Spezialfall einer solchen Situation ist die zufällige Auswahl einer einzelnen Untersuchungseinheit aus einer Grundgesamtheit, deren mehrfache Wiederholung es nach und nach erlaubt, eine Zufallstichprobe zusammenzustellen.

Allgemein erklärte Pierre Simon Laplace (1749-1824) Fälle dann für gleichmöglich, wenn „wir über deren Eintreffen in der gleichen Ungewissheit sind" und wir – in der Regel aufgrund einer vorliegenden Symmetrie – „keinen Grund zu glauben haben, dass einer dieser Fälle eher eintreten werde als der andere". Sind die möglichen Ergebnisse eines Zufallsexperimentes in diesem Sinne „gleichmöglich", dann ist die Wahrscheinlichkeit eines Ereig- nisses nach Laplace wie folgt definierbar: Die Anzahl der Fälle, bei denen das Ereignis eintritt, das heißt, die „günstig" für das Ereignis sind, geteilt durch die Gesamtzahl der möglichen Fälle. Ist A ein Ereignis, dann entspricht die Definition von Laplace der Formel Angewendet wird die Formel in der schon erläuterten Weise: So sind für das Ereignis, mit einem Würfel eine gerade Zahl zu würfeln, drei Fälle, nämlich 2, 4 und 6, „günstig", so dass wir eine Wahrscheinlichkeit von 3/6 = 1/2 erhalten. Bild 7 Pierre Simon Laplace und das Titelblatt seines Werkes zur Wahrscheinlichkeitstheorie. Die darin gegebene Definition der Wahrscheinlichkeit bildete für etwa hundert Jahre die wesentliche Grundlage der Wahrscheinlichkeitsrechnung.

Auf die engen Beziehungen zwischen den relativen Häufigkeiten innerhalb einer Versuchsreihe und den Wahrscheinlichkeiten wurde bereits hingewiesen: Beide verwenden die Maßskala von 0 bis 1, und bei dem unmöglichen und dem absolut sicheren Ereignis sind ihre Werte immer gleich. Verläuft eine Versuchsreihe „ideal" in dem Sinne, dass gleichmögliche Fälle gleich häufig eintreten, dann stimmen relative Häufigkeiten und Wahrscheinlichkeiten sogar völlig überein. Allerdings sind solch „ideale" Verläufe einer Versuchsreihe eher die Ausnahme. Dafür entdeckte Jakob Bernoulli eine weit interessantere Beziehung, nämlich das sogenannte Gesetz der großen Zahlen. Es besagt, dass bei langen Versuchsreihen die relativen Häufigkeiten ungefähr gleich den zugehörigen Wahrscheinlichkeiten sind. Dies ist zugleich die Bestätigung dafür, dass Wahrscheinlichkeiten bei Ereignissen wirklich die Sicherheit messen, wie man sie intuitiv versteht: Übersteigt beispielsweise bei einem Spiel die Gewinnwahrscheinlichkeit die Wahrscheinlichkeit eines Verlustes, dann wird man in einer genügend langen Spielserie öfter gewinnen als verlieren. Dabei macht Bernoullis Gesetz der großen Zahlen sogar Aussagen darüber, wie genau Wahrscheinlichkeiten und relative Häufigkeiten übereinstimmen. Wir werden darauf noch zurückkommen. Bei einem Würfel ist die Symmetrie der Grund dafür, dass die sechs Wer- te als gleichmöglich und damit gleichwahrscheinlich angesehen werden können. Es gibt eben keinen Grund dafür, dass – im Sinne von Laplace – ein Würfelwert eher erreicht würde als ein anderer. Bei zwei Würfeln gibt es, wie in Bild 8 zu sehen ist, insgesamt 36 Kombinationen der beiden Würfelwerte. Wichtig ist, dass Würfelkombinationen wie 2-3 und 3-2 unterschieden werden! In der Praxis ist der Unterschied zwar häufig nicht zu erkennen, etwa dann, wenn zwei gleichartige Würfel aus einem Becher geworfen werden. Nimmt man aber zwei unterschiedlich gefärbte Würfel, so werden die Ereignisse 2-3 und 3-2 problemlos unterscheidbar. Bild 8 Die 36 Kombinationen von zwei Würfelergebnissen Sind nun auch diese 36 Kombinationen gleichmöglich im Laplace'schen Sinne? Zunächst ist zu bemerken, dass es nicht ausreicht, einfach wieder nur auf die Symmetrie der Würfel zu verweisen. So wäre es denkbar, dass zwischen beiden Würfelwerten kausale Einflüsse bestehen, wie sie auftreten, wenn zwei Karten aus einem Kartenspiel gezogen werden: Zieht man aus einem Romméblatt mit 52 Karten eine Karte, dann ist die Wahrscheinlichkeit für jeden der 13 Kartenwerte gleich 4/52 = 1/13. Wird aber, ohne dass die erste Karte zurückgesteckt wird, eine weitere Karte gezogen, dann gelten für deren Wert neue Wahrscheinlichkeiten. So ist eine Wiederholung des zuerst gezogenen Wertes weniger wahrscheinlich, da er nur bei 3 der 51 verbliebenen Karten erreicht wird. Jeder der zwölf anderen Werte besitzt dagegen die Wahrscheinlichkeit von 4/51.

Verursacht wird die Änderung der Wahrscheinlichkeiten dadurch, dass das Kartenspiel aufgrund der ersten Ziehung seinen Zustand verändert hat. Vergleichbares ist bei einem Würfel wenig plausibel, da sein Zustand, anders als der des Kartenspiels, nicht von vorangegangenen Ergeb- nissen abhängt – Würfel besitzen eben kein „Gedächtnis". Im Sinne von Laplace ist also, egal wie der erste Wurf ausgeht, kein Grund dafür zu erkennen, welcher Wert beim zweiten Wurf eher erreicht werden könnte als ein anderer. Damit können alle 36 Würfelkombinationen als gleichwahrscheinlich angesehen werden. Auf Basis der angestellten Überlegungen können wir nun Ereignisse, die beim Wurf eines Würfelpaares eintreten können, untereinander vergleichen. Beispielsweise ist das Ereignis, eine Summe von 9 zu werfen, wahrscheinlicher als das Ereignis, die Summe 4 zu erzielen: Für das erste Ereignis gibt es nämlich unter den 36 gleichmöglichen Fällen vier „günstige", nämlich 6-3, 3-6, 5-4 und 4-5. Beim zweiten Ereignis sind aber nur drei Fälle „günstig", nämlich 1-3, 3-1 und 2-2. Gemäß dem Gesetz der großen Zahlen wird damit in genügend langen Versuchsreihen die Anzahl der Neuner-Summen die Anzahl der Vierer-Summen übersteigen. Kombinatorik – wenn zählen zu lange dauert Ist die Laplace'sche Formel für die Wahrscheinlichkeit eines Ereignisses A überhaupt anwendbar, dann kann die Wahrscheinlichkeit im Prinzip immer dadurch bestimmt werden, dass man alle (gleich)möglichen Fälle untersucht. Dabei zählt man einerseits alle Fälle und andererseits nur diejenigen, die für das Ereignis A günstig sind. Allerdings stößt man bei einer solchen Verfahrensweise in der Praxis schnell an die Grenze dessen, was durch Abzählen noch zu bewältigen ist. Man denke nur an ein Rommé-Blatt mit 52 Karten, das gemischt wird: Wie viele gleichmögliche Sortierungen dieser 52 Karten gibt es? Glücklicherweise existieren einige elementare Gesetzmäßigkeiten, mit denen sich solche Fragen drastisch einfacher beantworten lassen. Da solche Aussagen nicht zwangsläufig etwas mit Wahrscheinlich- keiten zu tun haben, werden sie in der Mathematik in einer eigenständigen Teildisziplin, der sogenannten Kombinatorik, zusammengefasst. Fundamental dabei ist die sogenannte Multiplikationsregel, die wir im Fall der möglichen Ergebnisse eines Würfelpaares bereits kennengelernt haben: Kombiniert man alle Werte, die ein Merkmal annehmen kann, mit allen Werten, die ein weiteres Merkmal anneh- men kann, so ist die Gesamtzahl der möglichen Kombinationen gleich dem Produkt der Anzahlen, die jeder Merkmalswert für sich annehmen kann. Direkt plausibel wird diese Tatsache, wenn man die möglichen Kombinationen entsprechend den Würfelpaar-Ergebnissen (siehe Bild 8, Seite 26) wie in Bild 9 in Form einer Tabelle anordnet, wobei die Zeilen und Spalten jeweils die Kombinationen enthalten, die in Bezug auf das erste beziehungsweise zweite Merkmal übereinstimmende Werte besitzen. Bild 9 Die Kombinationen der Merkmalswerte A, B, C, ... mit den Merkmalswerten 1, 2, 3, ... Es bleibt anzumerken, dass auch die Anzahl der 282 Sequenzen MMMM...M, wMMM...M, ..., wwww...w im Test von Arbuthnot mit Hilfe der Multiplikationsregel gefolgert werden kann. Noch elementarer als die Multiplikationsregel, und nur der Vollstän- digkeit halber zu erwähnen, ist das Additionsprinzip: Setzt sich eine Gesamtheit aus zwei Teilen zusammen, die keine gemeinsamen Elemente beinhalten, dann ist die Gesamtzahl der Elemente gleich der Summe der Elemente-Anzahlen für die beiden Teile.

Soll wie im schon angeführten Beispiel des Rommé-Blattes die An- zahl der möglichen, als Permutationen bezeichneten, Sortierungen von n unterschiedlichen Dingen bestimmt werden, so muss die Multiplikationsregel für eine leicht modifizierte Situation angewendet werden: Dazu stellen wir uns vor, dass wir nacheinander alle möglichen Sortierungen der n „Karten", wie wir die Dinge auch allgemein bezeichnen wollen, aufzählen. Dabei gibt es für die erste Karte offensichtlich n Möglichkeiten. Für die zweite Karte gibt es jeweils n – 1 Möglichkeiten, da jeweils jede Karte, außer der bereits auf Position 1 befindlichen Karte, als zweite Karte genommen werden kann. Damit gibt es insgesamt n·(n – 1) Möglichkeiten für die ersten beiden Karten. Verfährt man in dieser Weise fort, so erkennt man, dass es für die ersten drei Karten n·(n – 1)·(n – 2) Möglichkeiten gibt und so weiter. Führt man diese Überlegung weiter bis zu derjenigen Karte, die sich an der letzten Stelle der Sortierung befindet und für die daher nur noch eine Möglichkeit übrig bleibt, so erkennt man, dass die Gesamtzahl der Permutationen von n Karten gleich n·(n – 1)·(n – 2)·(n – 3)· ... ·3 2·1 ist. Abgekürzt wird dieses Produkt mit n!, gesprochen „n Fakultät" XE „Fakultät" .

Für die gestellte Frage nach den möglichen Permutationen eines 52 Karten umfassenden Rommé-Blattes ergibt sich damit die Anzahl 52! = 52·51·50· ... ·3 2·1, wobei es sich um eine 67-stellige Zahl mit einer wahrhaft astronomischen Größe handelt, da die Zahl der Atome im ganzen Universum in einer ähnlichen Größenordnung geschätzt wird. Ein kombinatorisches Problem, dass noch etwas schwieriger zu lösen ist, tritt beim Lotto auf. Dort werden bekanntlich bei jeder Ziehung 6 der 49 Zahlen 1, 2, ... , 49 gezogen. Auch bei diesem Problem ist es wieder sinnvoll, die möglichen Verläufe eines Ziehungsvorganges unter Rückgriff auf die Multiplikationsregel abzuzählen: Für die erste gezogene Zahl gibt es offensichtlich 49 Möglichkeiten. Gemäß den eben angestellten Überlegungen gibt es für die ersten beiden Zahlen 49·48 Möglichkeiten. Insgesamt gibt es daher 49·48·47·46·45·44 mögliche Verläufe des Ziehungsvorganges. Da es aber bei einer Lotto-Ziehung keine Rolle spielt, in welcher Reihenfolge die sechs Zah- len gezogen werden, ergeben jeweils 6! = 6·5·4·3·2·1 = 120 mögliche Ziehungsverläufe dieselben sechs Zahlen. Damit ist die Zahl der möglichen „6 aus 49"-Zahlenkombinationen gleich

Die allgemeine Formel, die diesem Sachverhalt zugrunde liegt, beantwortet die Frage danach, wie viele Möglichkeiten es gibt, eine k Dinge umfassende Auswahl aus einer Gesamtheit von n verschie- denen Dingen zu treffen. Für die als Binomialkoeffizient „n über k" bezeichnete Anzahl erhält man analog zu der eben für das Lotto-Beispiel erläuterten Weise die Formel Aufgaben 1. Wie groß ist die Wahrscheinlichkeit, mit drei Würfeln mindestens die Summe 16 zu erzielen? 2. Wie groß ist die Wahrscheinlichkeit, mit einem Lotto-Tipp vier Richtige zu erzielen? Hinweis: Vier Richtige erzielt man genau dann, wenn 4 der 6 getippten Zahlen und 2 der 43 nicht getippten Zahlen gezogen werden. 3. Ein Würfel wird fünfmal geworfen. Wie hoch ist die Wahrscheinlichkeit, genau zwei Sechsen zu werfen? Hinweis: Man überlege sich zunächst, wie viele mögliche Sequenzen es mit genau zwei Treffern gibt wie beispielweise TNNTN, wobei „T" für einen Treffer, das heißt eine Sechs, steht und „N" für einen Nicht-Treffer, also eine Zahl zwischen 1 und 5. 4. Aus einem Vorrat von insgesamt N Kugeln, von denen genau M weiß sind, werden gleichwahrscheinlich n Kugeln gezogen. Wie groß ist die Wahrscheinlichkeit, dabei genau k weiße Kugeln zu ziehen? Die für feste Werte N, M und n sowie zu allen möglichen Werten k gebildete Gesamtheit der Wahrscheinlichkeiten wird hypergeometrische Verteilung genannt. Hinweis: Überlegen Sie sich dazu, wie viele Möglichkeiten es für die weißen Kugeln einerseits gibt und wie viele Möglichkeiten für die nicht weißen Kugeln.

2.2 Die Gesetze des Zufalls

Gesucht sind die für Wahrscheinlichkeiten geltenden Gesetzmäßigkeiten. Auch wenn wir uns im Alltag keine großen Gedanken darüber machen, zweifeln wir kaum daran, wie mit Maßen und Messwerten umzugehen ist: Ist etwa das Gesamtgewicht eines Fahrzeugs gesucht, so wissen wir, dass wir dazu das Leergewicht sowie das Gewicht der Nutzlast addieren müssen. Kennen wir die Entfernung zwischen Paris und Berlin einerseits und zwischen Berlin und Moskau andererseits, so ist uns klar, dass die Entfernung zwischen Paris und Moskau höchstens gleich der Summe der beiden Einzelentfernungen sein kann. Und wie sieht es mit Wahrscheinlichkeiten aus? Zunächst stellen wir in Bezug auf die zu messenden Objekte fest, dass man aus zwei (oder mehr) Ereignissen neue Ereignisse bilden kann. Vergleichbares kennen wir aus der Arithmetik, wo viele komplizierte Rechenausdrücke auf die vier Grundoperationen, jeweils angewandt auf zwei Zahlen a und b zurückgeführt werden können: a + b, a – b, a·b und a/b. Ganz analog lassen sich für Ereignisse drei Elementaroperationen finden, mit denen ausgehend von zwei Ereignissen A und B, die in einem Zufallsexperiment beobacht- bar sind, neue Ereignisse gebildet werden können: ? So kann man dasjenige Ereignis „A und B" untersuchen, welches das gemeinsame Eintreten beider Ereignisse A und B voraussetzt. Steht beispielsweise beim Wurf eines Würfels A für das Ereignis, einen geraden Wert zu erzielen, und B für das Ereignis, mindestens eine Drei zu werfen, dann umfasst das Ereignis „A und B" die beiden Würfelergebnisse 4 und 6. ? Ebenso lässt sich dasjenige Ereignis konstruieren, welches das Eintreten des Ereignisses A oder das Eintreten des Ereignisses B voraussetzt. Dabei ist anzumerken, dass kein ausschließendes „entweder oder" gemeint ist, das heißt: Das Ereignis „A oder B" gilt auch dann als eingetreten, wenn beide Ereignisse eintreten. Für die gerade beispielhaft angeführten Ereignisse A und B umfasst das Ereignis „A oder B" die fünf Ergebnisse 2, 3, 4, 5 und 6. ? Schließlich kann man Komplementär-Ereignisse untersuchen, wie das Ereignis „nicht A". Dieses Ereignis tritt genau dann ein, wenn das Er- eignis A nicht eintritt. Für das angeführte Beispielereignis A, eine gerade Zahl zu werfen, umfasst das dazu komplementäre Ereignis die ungeraden Würfelergebnisse, also 1, 3 und 5. Da es sich bei den drei Operationen um universelle Mechanismen handelt, mit denen aus vorhandenen Ereignissen neue Ereignisse gebildet werden können, stellt sich natürlich sofort die Frage, in welcher Relation die zugehörigen Wahrscheinlichkeiten stehen. Dabei ist es einleuchtend, dass solche Gesetzmäßigkeiten keineswegs den Charakter von „l'art pour l'art" haben, denn wie bei anderen Maßen ermöglichen solche „Rechenregeln" in der praktischen Anwendung eine Reduktion komplexer Pro- blemstellungen auf einfachere Situationen. So werden wir mit Hilfe dieser Rechenregeln zum Beispiel die Wahrscheinlichkeit berechnen können, bei vier Würfen mit je einem Würfel mindestens eine Sechs zu werfen. Dazu merken wir zunächst an, dass tatsächlich die drei oben genannten Elementaroperationen ausreichen, um das Ereignis, mindestens eine Sechs zu werfen, durch Ereignisse auszudrücken, die sich nur auf einen einzelnen Wurf beziehen. Dazu müssen einfach vier geeignete, auf die einzelnen Würfe bezogene Ereignisse mittels der „Oder"-Operation miteinander verkettet werden: Dabei erhalten wir das Ereignis, im ersten Wurf eine Sechs zu werfen, oder im zweiten Wurf eine Sechs zu werfen, oder im dritten Wurf eine Sechs zu werfen, oder im vierten Wurf eine Sechs zu werfen (oder, da ja ausdrücklich kein „entweder oder" gemeint ist, in mehreren der Würfe Sechsen zu werfen). Insgesamt ist dieses Ereignis aber nichts anderes als das Ereignis, mindestens eine Sechs zu werfen. Eine alternative Charakterisierung dieses Ereignisses, die wir noch verwenden werden, erhält man, wenn zu jedem Wurf das Ereignis, keine Sechs zu werfen, betrachtet wird. Mit der „Und"-Operation erhält man dann das Ereignis, in keinem der vier Würfe eine Sechs zu werfen. Mit einer abschließenden Komplementär-Operation gelangt man schließlich zum Ereignis, in den vier Würfen mindestens eine Sechs zu werfen. Und wie sieht es mit der zugehörigen Wahrscheinlichkeit aus? Das heißt, wie groß ist die Wahrscheinlichkeit, in vier Würfen mindestens eine Sechs zu werfen? Ad hoc bietet sich die folgende Überlegung an: Bei einem Wurf ist die Wahrscheinlichkeit 1/6, da das Ereignis genau eines der sechs gleichmöglichen, das heißt zueinander symmetrischen, Würfelergebnisse umfasst. Es erscheint daher einleuchtend, dass bei zwei Würfen die Wahrscheinlichkeit 2/6, bei drei Würfen 3/6 und bei vier Würfen 4/6 beträgt. Aber spätestens die Fortschreibung dieses verlockenden Gedankenganges auf sieben Würfe, für die sich dann analog eine Wahrschein- lichkeit von 7/6 ergeben würde, führt die Überlegung ad absurdum. Der gerade erkannte Fehlschluss ist typisch für Irrtümer, die in Bezug auf die Wahrscheinlichkeitsrechnung oft gemacht werden, ob bei der Fehldeutung statistischer Untersuchungen oder beim Einschätzen von Ge- winnchancen in Glücksspielen . Abhilfe kann nur eine systematische Auseinandersetzung mit den Gesetzmäßigkeiten von Wahrscheinlichkeiten bringen. Dabei sollten sowohl inhaltliche Aspekte erörtert werden als auch die Argumente für ihre formale Begründung. Wir beginnen mit einer Zusammenstellung der grundlegenden Gesetzmäßigkeiten von Wahrscheinlichkeiten: (W1) Die jedem Ereignis A zugeordnete Wahrscheinlichkeit, die meist mit P(A) bezeichnet wird, ist eine Zahl zwischen 0 und 1. (W2) Das unmögliche Ereignis hat die Wahrscheinlichkeit 0. (W3) Das sichere Ereignis hat die Wahrscheinlichkeit 1. (W4) Additionsgesetz: Schließen sich zwei in einem Zufallsexperiment beobachtbare Ereignisse A und B gegenseitig aus, das heißt, können die beide Ereignisse in einem Versuch keinesfalls beide eintreten, dann ist die Wahrscheinlichkeit, dass mindestens eines der beiden Ereignisse eintritt, gleich der Summe der Einzelwahrscheinlichkeiten. Als Formel: P(A oder B) = P(A) + P(B). Zum Beispiel ist die Wahrscheinlichkeit, mit einem Würfel eine ungerade Zahl oder eine Sechs zu werfen, gleich 1/2 + 1/6 = 2/3. Dagegen ist das Additionsgesetz auf die Situation, eine ungerade Zahl oder eine Drei übersteigende Zahl zu erwürfeln, nicht anwendbar, da die beiden Ereignisse bei einer Fünf gleichzeitig ein- treten. (W5) Multiplikationsgesetz: Beeinflusst innerhalb eines Zufallsexperimentes das Eintreten oder Nicht-Eintreten eines Ereignisse A nicht die Wahrscheinlichkeit eines anderen Ereignisses B – man nennt solche Ereignisse (stochastisch) unabhängig voneinander –, so ist die Wahrscheinlichkeit, dass beide Ereignisse in einem Versuch gleichzeitig eintreten, gleich dem Produkt der Einzelwahrscheinlichkeiten. Als Formel: P(A und B) = P(A) P(B). Wird beispielsweise ein roter und ein weißer Würfel geworfen, dann ist die Wahrscheinlichkeit, mit dem roten Würfel eine gerade Zahl und mit dem weißen Würfel eine Sechs zu werfen, gleich 1/2?1/6 = 1/12. Nicht anwendbar ist das Multiplikationsgesetz dagegen in der Situation, bei der aus einem Kartenspiel zwei Karten gezogen werden. Zwar beträgt die Wahrscheinlichkeit für ein Ass bei einer einzelnen, aus einem 52er-Blatt gezogenen Karte 1/13, jedoch ist die Wahrscheinlichkeit für zwei Asse nicht gleich 1/169, da sich die Wahrscheinlichkeit für ein zweites Ass nach dem Ziehen des ersten Asses von 4/52 auf 3/51 reduziert: Unter den verbliebenen 51 Karten sind nämlich nur noch drei Asse vorhanden, und die Wahrscheinlichkeit für zwei Asse ist daher gleich 1/13?1/17 = 1/221.

Da letztlich die gesamte mathematische Wahrscheinlichkeitsrechnung auf diesen grundlegenden Gesetzmäßigkeiten basiert, ist es von größter Wichtigkeit, diese fünf Gesetzmäßigkeiten näher zu erörtern. Dabei hängt der Charakter dieser Gesetzmäßigkeiten davon ab, wie wir den Begriff der Wahrscheinlichkeit interpretieren: ? Sieht man in der Wahrscheinlichkeit primär einen empirisch im Rahmen von Versuchsreihen messbaren Wert, der sich auf Dauer als Trend bei den relativen Häufigkeiten des zu messenden Ereignisses abzeichnet, so sind die ersten vier Aussagen offensichtlich richtig, da sie bereits entsprechend für die relativen Häufigkeiten gelten. Eine große Bedeutung spielt das Multiplikationsgesetz, dem als empirisch beobachtbare Erfahrungstatsache eine naturgesetzliche Bedeutung zukommt. Dabei kann die gemachte Voraussetzung der NichtBeeinflussung immer dann als gegeben angenommen werden, wenn ein kausaler Zusammenhang beispielsweise gemäß unserem physikalischen Erkenntnisstand ausgeschlossen ist. So sind zwei nacheinander durchgeführte Würfe eines Würfels deshalb voneinander unabhängig, weil der Würfel anders als eine zusammengedrückte Spiralfeder „kein Gedächtnis" hat, das heißt, keine dem Ergebnis des ersten Wurfes entsprechende Zustandsänderung erfährt, die dann eine kausale Beein- flussung des zweiten Wurfergebnisses ermöglicht. Übrigens erfolgt die empirische Anwendung des Multiplikationsgesetzes in der Praxis meist umgekehrt: Erfüllen die Wahrscheinlichkeiten, die für zwei Ereignisse im Rahmen einer Versuchsreihe ermittelt werden, das Multiplikationsgesetz, so schließen wir daraus, dass eine spürbar wirkende Beeinflussung nicht vorliegt. ? Ergeben sich im Sinne von Laplace die Wahrscheinlichkeiten aus Symmetrien, die zwischen den möglichen Ergebnissen eines Zufallsexperimentes bestehen, so sind auch bei dieser Interpretation der Wahrscheinlichkeiten die ersten vier Aussagen offensichtlich. Das Multiplikationsgesetz ist in solchen Fällen eine Folge kombinatorischer Überlegungen, wie sie für das Beispiel des Wurfes eines Würfelpaares (siehe Bild 8, Seite 26) sowie im Kasten Kombinatorik – wenn zählen zu lange dauert (Seite 27 ff.) schon erläutert wurden. Dabei bewirkt die Voraussetzung der Unabhängigkeit, dass Paarungen der für die einzelnen Ereignisse günstigen Fälle als zueinander symmetrische und damit gleichmögliche Fälle erscheinen.

Das Laplace-Modell deckt insbesondere das in der Mathematischen Statistik primär vorkommende Szenario ab, bei dem eine sich auf eine endliche Grundgesamtheit beziehende relative Häufigkeit als Wahrscheinlichkeit aufgefasst wird. Dazu legt man einfach dasjenige Zu- fallsexperiment zugrunde, bei dem gleichwahrscheinlich irgendein Mitglied der Grundgesamtheit ausgelost wird. ? Letztlich nicht unerwähnt bleiben darf noch eine dritte, aufgrund der hohen Abstraktion bisher noch nicht verwendete Interpretation von Wahrscheinlichkeiten. Dabei werden die fünf Aussagen (W1) bis (W5) nicht als Gesetzmäßigkeiten, sondern als Axiome zur Definition eines mathematischen Beg- riffsapparates aufgefasst. Das heißt: Immer dann, wenn Objekte A, B, ... und die ihnen zugeordneten Werte P(A), P(B), .... die ersten vier Aussagen (W1) bis (W4) erfüllen, werden sie – per Definition – als Ereignisse samt ihnen zugeordneten Wahrscheinlichkeiten aufgefasst und ihre Gesamtheit als sogenannter Wahrscheinlichkeitsraum bezeichnet. Dies gilt selbst und gerade dann, wenn es sich bei den „Ereignissen" auf völlig abstraktem Ni- veau um mathematische Objekte wie Teilmengen einer bestimmten Grundmenge handelt. Auch die Aussage (W5) erhält bei dieser Interpretation den Charakter einer Definition, gemäß der zwei Ereignisse A und B genau dann als (stochastisch) unabhängig voneinander gelten, wenn für sie die Gleichung des Multiplikations„gesetzes", das heißt P(A und B) = P(A)·P(B), gilt . Für einen Nicht-Mathematiker ist diese dritte Interpretation von Wahr- scheinlichkeiten sicher etwas gewöhnungsbedürftig, und daher wollen wir sie im Weiteren weitgehend ausblenden. Zuvor soll aber wenigstens der Sinn einer solchen Vorgehensweise noch kurz erläutert wer- den: So können allein auf Basis dieser fünf Eigenschaften, die den Definitionen zugrunde liegen, weitere Aussagen rein mathematisch hergeleitet werden. Möglich ist dies ohne jegliche Interpretation auf völlig abstraktem Niveau – und damit mit zweifelsfreier Exaktheit. Zu den so beweisbaren Aussagen gehören auch komplizierte Sachverhalte wie das schon erwähnte Gesetz der großen Zahlen und dessen Umfeld, das heißt Aussagen darüber, mit welcher Sicherheit und welcher Genauigkeit sich die in Versuchsreihen gemessenen relativen Häufigkei- ten der Wahrscheinlichkeit annähern.

Die mathematische Wahrscheinlichkeitsrechnung erhält damit einen ähnlichen Charakter wie die Infinitesimalrechnung in der Physik, wenn dort ausgehend von wenigen einfachen Gesetzmäßigkeiten mittels komplexer Berechnungen Raumsonden über viele Millionen von Kilometern zielgenau auf die Reise geschickt werden: Dabei muss man überhaupt nicht wissen, was eine Masse eigentlich ist. Es reicht, die Formeln zu kennen und anzuwenden, in denen die Masse als Parameter im Sinne eines mathematischen Modells vorkommt – mathematische Verfahren, etwa auf der Basis von Differentialgleichungen, ermöglichen den Rest, das heißt die Reduktion komplexer Sachverhalte auf grundlegende Gesetzmäßigkeiten der Physik. Und so war es historisch sehr bedeutsam, dass ausgehend von ersten, 1900 von Georg Bohlmann XE „Bohlmann, Georg" (1869-1928) formulierten Ideen 1933 Andrej Kolmogorow (1903-1987) eine rein ma- thematische Fundierung der Wahrscheinlichkeitsrechnung gelang . Dabei kommt – und das ist die eigentliche Überraschung – der Begriff des Zufalls überhaupt nicht vor! Fassen wir zusammen: Man kann Wahrscheinlichkeitsrechnung auf Basis unterschiedlicher Interpretationen betreiben. Die Gesetzmäßigkeiten – und damit auch die letztlich erzielten Resultate – bleiben aber dieselben. Praktisch erfüllen die Gesetzmäßigkeiten schlicht die Funktion, komplizierte Situationen rechentechnisch auf einfache Situationen zurückführen zu können. Dabei fungiert der mathematische Formelapparat als ein abstraktes und allgemeines, im speziellen Anwendungsfall durch die Zuweisung geeigneter Parameterwerte konkretisierbares Modell, das reale Sachverhalte durch mathematische Objekte wie Zahlen und Mengen widerspiegelt. Wichtig dabei ist, zwei entscheidende Eigenschaften festzu- halten: ? Einerseits hat sich diese Vorgehensweise in der tagtäglichen Anwendung bestätigt und ist somit – bei fehlerfreier Anwendung – über jeden Zweifel erhaben. ? Andererseits ist das Modell so flexibel, dass alle Anwendungsfälle abgedeckt werden können. Im Rahmen statistischer Anwendungen den- ken wir dabei insbesondere an den Prozess der zufälligen Auswahl von Stichproben aus einer Gesamtheit. Aber selbst die Behandlung von im Laplace'schen Ansatz eigentlich nicht vorgesehenen unsymmetrischen Zufallsexperimenten ist kein Problem, etwa der Wurf eines verfälschten Würfels, auch wenn man in sol- chen Fällen natürlich nicht schon a priori die Werte der Wahrscheinlichkeiten kennt. Übrigens sollte das angeführte Beispiel, bei dem die Wahrscheinlichkeit gesucht ist, in vier Würfelversuchen mindestens eine Sechs zu erzielen, nun kein schwieriges Problem mehr darstellen: Die Wahrscheinlichkeit des Ereignisses A, im ersten Wurf keine Sechs zu werfen, ist bei einem symmetrischen Würfel P(A) = 5/6. Werden die analogen Ereignisse bei den weiteren drei Würfen mit B, C und D bezeichnet, so ist die Wahrscheinlichkeit, überhaupt keine Sechs zu werfen, gemäß dem Multiplikationsgesetz gleich P(„keine Sechs") = P(A und B und C und D) = 5/6 · 5/6 · 5/6 · 5/6 = 625/1296. Da das Ereignis, mindestens eine Sechs zu werfen, dazu komplementär ist, ergibt sich schließlich die gesuchte Wahrscheinlichkeit mit Hilfe des Additionsgesetzes durch P(„mind. eine Sechs") = P( nicht „keine Sechs") = 1 – 625/1296 = 671/1296 ? 0,5177. Im direkten Vergleich der Wahrscheinlichkeit des uns interessierenden Ereignisses mit der Wahrscheinlichkeit seines Komplementär-Ereignisses erkennt man also, dass in vier Würfen geringfügig eher damit zu rechnen ist, mindestens eine Sechs zu werfen.

Aufgaben 1. Wie viele Jahre muss man wöchentlich einen Lotto-Tipp abgeben, um mit der Wahrscheinlichkeit von ½ mindestens einmal „Sechs Richtige" zu erzielen? 2. Wie groß ist die Wahrscheinlichkeit, dass unter den zwölf Gästen einer Party mindestens zwei am gleichen Tag Geburtstag haben? Dabei wird vorausgesetzt, dass die 365 Ereignisse, an einem bestimmten Kalendertag des Jahres Geburtstag zu haben, gleichwahrscheinlich sind. Die Möglichkeit eines Geburtstages am Schalttag des 29. Februar soll unberücksichtigt bleiben. 3. Wie groß muss die Party mindestens sein, damit das Ereignis eines gleichen Geburtstages wahrscheinlicher ist als das dazu komplementäre Ereignis? Wie viele Personen sind notwendig, damit die Wahrscheinlichkeit sogar 0,99 überschreitet? 4. Wie groß muss die Party sein, damit die Wahrscheinlichkeit mindestens ½ beträgt, dass ein Gast an Neujahr Geburtstag hat? 5. Man hat die Wahl, entweder auf das Erscheinen mindestens einer Sechs in vier Würfelversuchen zu wetten oder auf das Erscheinen von mindestens einer Doppel-Sechs in 24 Versuchen mit einem Würfelpaar. Welche der beiden Wetten ist aussichtsreicher? Haben beide Wetten eine Gewinnwahrscheinlichkeit von mehr als ½?

2.3 Ursache und Wirkung bei Ereignissen

Die Qualität eines bei der Krebsvorsorge gebräuchlichen Tests wird dadurch charakterisiert, dass 3% der gesunden Personen als Test-positiv, das heißt als vermeintlich krank, erscheinen, und dass bei 50% der Krebskranken ein negatives Testergebnis im Sinne einer Nicht-Detektierung zustande kommt. Wie groß ist die Wahrscheinlichkeit, dass eine positiv getestete Person tatsächlich erkrankt ist? Dabei ist davon auszugehen, dass in der Gesamtbevölkerung die Erkrankungsrate unter den beschwerdefreien Personen 0,3 Prozent beträgt. Da die Fragestellung dem „wirklichen Leben" entstammt, sind einige Anmerkungen unumgänglich: Die angeführten Daten beziehen sich auf einen Test, bei dem Stuhlproben zur Früherkennung von Mastdarmkrebs auf verstecktes Blut untersucht werden. Da die in der Medizin als Prävalenz bezeichnete A-Priori-Wahrscheinlichkeit für eine Erkrankung stark vom Alter abhängt, wurde zur Vereinfachung nur derjenige Wert von 0,003 angegeben, der sich als Wahrscheinlichkeit für die Gesamtheit der beschwerdefreien Personen ergibt . Der einfachste Weg, die gestellte Frage zu beantworten, besteht darin, die Gesamtbevölkerung aufzuteilen. Das heißt, wir teilen eine unterstellte Gesamtzahl von beschwerdefreien Personen, die wir der Einfachheit halber mit 100.000 Personen annehmen, zunächst in Erkrankte (0,3%) und Gesunde (99,7%) auf und verfeinern dann diese Unterteilung danach, welche Fehlerrate ein Test, nämlich 3% bei den Gesunden und 50% bei den Kranken, jeweils aufweisen würde: An Hand der so gefundenen Tabelle sehen wir nun sofort, wie sich die Gruppe der Test-Positiven aufteilt: Von den insgesamt 3141 Personen mit positivem Testergebnis sind nur 150 wirklich erkrankt, so dass die große Mehrheit von 2991 positiv Getesteten, das sind immerhin 95%, völlig grundlos die schlimmsten Konsequenzen befürchten würde. Die komplementäre Wahrscheinlichkeit, nach der in der Eingangsfrage gesucht wurde, ist damit 150/3141 = 0,0478. Auf den ersten Blick scheint es so, dass das zweifellos überraschende Resultat ganz ohne Wahrscheinlichkeitsrechnung gefunden wurde. Dem ist natürlich nicht so. Selbstverständlich wurde bei der Berechnung der relativen Häufigkeiten in der Tabelle das Multiplikationsgesetz verwendet. Weil aber die Merkmale „krank" und „gesund" einerseits und die Merkmale „Test positiv" und „Test negativ" andererseits nicht voneinander unabhängig sind, mussten die Anzahlen der kranken und der gesunden Personen mit unterschiedlichen Fehlerwahrscheinlichkeiten für den Test berechnet werden.

Da solche Ursache-Wirkungs-Beziehungen oft im Fokus des wissen- schaftlichen Interesses stehen, wurde in der Wahrscheinlichkeitsrechnung ein speziell darauf abgestimmter Begriff geschaffen, nämlich die sogenannte bedingte Wahrscheinlichkeit. Wir erinnern uns zunächst an das schon erörterte Beispiel, wenn aus einem Kartenstapel nacheinander zwei Karten gezogen werden, ohne dass die zuerst gezogene Karte vor der Ziehung der zweiten Karte in den Stapel zurückgelegt wird. Die den beiden Karten zugeordneten Ereignisse sind dann nicht unabhängig voneinander. So beträgt bei einem 52er- Kartenblatt die Wahrscheinlichkeit für ein Ass als erste Karte 4/52 = 1/13. Für die zweite Karte variiert aber die Wahrscheinlichkeit für ein Ass abhängig davon, ob die erste Karte ein Ass war oder nicht: ? Nach einem Ass als erste Karte ist die Wahrscheinlichkeit für ein weiteres Ass gleich 3/51 = 1/17. ? Nach einer von einem Ass verschiedenen Karte ist die Wahrscheinlichkeit für ein Ass gleich 4/51. Der Begriff der bedingten Wahrscheinlichkeiten ist nun so angelegt, dass mit ihm solche Gegebenheiten mathematisch einfach beschrieben werden können. Dabei wird die Wahrscheinlichkeit eines Ereignisses in Bezug gesetzt zur Wahrscheinlichkeit eines anderen Ereignisses, dessen Eintritt als bereits eingetreten vorausgesetzt wird. Formal geht man dazu von zwei in einem Zufallsexperiment beobachtbaren Ereignissen A und B aus. Um zu quantifizieren, wie wahrscheinlich es ist, dass im Fall des eingetretenen Ereignisse B zusätzlich auch das Ereignis A eintritt, vergleicht man die Wahrscheinlichkeit des Ereignisses „A und B" mit der Wahrscheinlichkeit des „Vor"-Ereignisses B. Konkret berechnet man dazu den mit P(A | B) abgekürzten Quotienten , der als die zum Ereignis B bedingte Wahrscheinlichkeit des Ereignisses A bezeichnet wird. Wie gewünscht ist diese bedingte Wahrscheinlichkeit ein Maß dafür, wie wahrscheinlich das zusätzliche Eintreten des Ereignisses A ist, wenn wir bereits wissen, dass das Ereignis B eingetreten ist. Wegen 0 ? P(A und B) ? P(B) liegt eine bedingte Wahrscheinlichkeit, wie wir es von Wahrscheinlichkeiten her gewohnt sind, stets im Bereich zwischen minimal 0 und maximal 1.

Die Bedeutung bedingter Wahrscheinlichkeiten für den Kontext der Eingangsfrage wird ersichtlich, wenn man sich dem Fall zuwendet, bei dem relative Häufigkeiten innerhalb einer Grundgesamtheit als Wahrscheinlichkeiten interpretiert werden – als Zufallsexperiment fungiert dabei die zufällige und gleichwahrscheinliche Auslosung eines Mitgliedes der Grundgesamtheit. In diesem Fall entspricht eine bedingte Wahrscheinlichkeit der relativen Häufigkeit, die für den betreffenden Teil der Grundgesamtheit gültig ist: Geht man zum Beispiel von der Grundgesamtheit der Gesamtbevölkerung aus, dann ist der relative Anteil der Rentner unter den Frauen gleich der bedingten Wahrscheinlichkeit P(„Rentner" | „Frau"). Und analog ist der Anteil der Frauen unter den Rentnern gleich der bedingten Wahrscheinlichkeit P(„Frau" | „Rentner"). Dabei stehen die Kurzbezeichnungen „Rentner" und „Frau" für die Er- eignisse, dass es sich bei einem zufällig und gleichwahrscheinlich ausgewählten Mitglied der Bevölkerung um einen Rentner beziehungsweise um eine Frau handelt. Angewendet wird die der Definition der bedingten Wahrscheinlichkeit XE „Wahrscheinlichkeit:bedingte" zugrunde liegende Formel übrigens häufig auch „umgekehrt", das heißt in der Form

Der Grund für diese Art der Verwendung ist, dass bei stufenweise verlaufenden Zufallsexperimenten die beiden Einzelwahrscheinlichkeiten der rechten Gleichungsseite meist einfacher zu berechnen sind als die Wahrscheinlichkeit auf der linken Seite. So ergibt sich für das schon als Beispiel angeführte Ereignis, bei der Ziehung von zwei Karten zwei Asse zu erhalten, die schon in Fußnote 8 – dort allerdings ohne Erweiterung des Begriffsapparates – durchgeführte Berechnung P(„2 Asse") = P(„2 Asse" | „1. Karte ist Ass") · P(„1. Karte ist Ass") = 3/51 · 4/52 = 1/221. Die eigentliche Bedeutung der gerade beschriebenen Verfahrensweise besteht darin, dass man beide Schritte einzeln analysieren kann, wobei man allerdings im zweiten Schritt die vom Verlauf des ersten Schrittes abhängigen Gegebenheiten berücksichtigen muss. Insofern liegt eine Verallgemeinerung des Multiplikationsgesetzes vor, mit der es wieder möglich ist, komplizierte Situationen rechentechnisch auf einfachere Situationen zurückzuführen. Die schrittweise Verfahrensweise ist natürlich auch dann möglich, wenn mehr als zwei Schritte auszuwerten sind. Beispielsweise erhält man für ein dreistufiges Zufallsexperiment mit den drei Ereignissen A, B und C die Gleichung

Diese stufenweise Verfahrensweise wird auch als erste Pfadregel bezeichnet. Der Bezeichnung zugrunde liegt eine oft verwendete graphische Darstellung. Darin werden die Zufallsentscheidungen der einzelnen Stufen graphisch in Form eines Pfades dargestellt: Den Ereignissen entsprechen Knoten, an denen Kanten enden oder sich verzweigen. Die Wahrscheinlichkeit, einen bestimmten Pfad zu beschreiten, ergibt sich als Produkt der Wahrscheinlichkeiten der betreffenden Kanten (siehe auch Bild 10). Etwas komplizierter wird die Angelegenheit, wenn nicht die Wahrscheinlichkeit des Ereignisses „A und B", sondern die Wahrscheinlichkeit des Ereignisses A berechnet werden soll und dieses Ereignis auf verschiedenen Pfaden zustande kommen kann. Neben dem auf jeweils einen einzel- nen Pfad bezogenen Multiplikationsgesetz ist dann auch das Additionsgesetz anzuwenden, wofür sich allerdings die den verschiedenen Pfaden zugrunde liegenden Ereignisse gegenseitig ausschließen müssen. Als Beispiel für diese sogenannte zweite Pfadregel bleiben wir beim Kartenspiel und fragen nach der Wahrscheinlichkeit, bei zwei nacheinander aus einem Kartenspiel gezogenen Karten ein Bild und ein Ass zu ziehen (siehe Bild 10). Dazu unterscheidet man für das Teilexperiment, bei dem die erste Karte gezogen wird, am besten drei Ereignisse, nämlich die Ziehung eines Asses, eines Bildes beziehungsweise einer Zahlkarte. Diese drei sich gegenseitig ausschließenden Ereignisse, von denen immer genau eines eintritt, entsprechen drei verschiedenen Pfaden, das zu untersuchende Gesamtereignis möglicherweise zu erzielen. Die Gesamtwahrscheinlichkeit ist daher gleich P(„Bild, Ass") = P(„Bild, Ass" | „1. Karte = Bild") · P(„1. Karte = Bild") + P(„Bild, Ass" | „1. Karte = Ass") · P(„1. Karte = Ass") + P(„Bild, Ass" | „1. Karte = Zahl") · P(„1. Karte = Zahl") = 4/51·12/52 + 12/51·4/52 + 0·36/52 = 24/663 Bild 10 Zweite Pfadregel: Ereignispfade, um mit zwei aus einem Kartenstapel gezogenen Karten ein Ass und ein Bild zu erhalten. Eine analoge Vorgehensweise ist immer dann möglich, wenn eine Zerlegung des sicheren Ereignisses in sich paarweise gegenseitig ausschlie- ßende Ereignisse A1, ..., Am vorliegt. Man erhält dann aus dem Additionsgesetz die sogenannte Formel der totalen Wahrscheinlichkeit:

Wie schon am Beispiel erläutert, wird die Formel der totalen Wahrscheinlichkeit vorwiegend bei der Berechnung von Wahrscheinlichkeiten stu- fenweise zerlegbarer Ereignisse angewendet. Da im Fall eines eingetretenen Ereignisses B auch genau eines der m Ereignisse „B und A1", ..., „B und Am" eintritt, können diese m Ereignisse „B und A1", ..., „B und Am" als die verschiedenen Ursachen interpretiert werden, die den Eintritt des Ereignisses B auslösen. Eine weitere Anwendungsmöglichkeit der Formel von der totalen Wahrscheinlichkeit ist nach dem englischen Mathematiker und presbyteriani- schen Pfarrer Thomas Bayes (ca. 1702-1761) benannt. Dazu setzt man die Formel von der totalen Wahrscheinlichkeit in die Definitionsgleichung der bedingten Wahrscheinlichkeit ein und erhält die sogenannte Bayes-Formel

Was die nicht besonders übersichtliche Formel von Bayes so interessant macht, ist die Tatsache, dass man mit ihrer Hilfe quantitative Aussagen über die Umkehrung von Ursache-Wirkungs-Beziehungen erhält, wie wir sie in einem einfachen Beispiel bei dem Test zur Erkennung von Mastdarmkrebs schon kennengelernt haben: Ausgehend von dem Wissen, wie ein Testergebnis durch eine vorliegende Erkrankung beeinflusst wird, sucht man nach einer Aussage über die möglichen Ursachen eines konkret beobachteten Testergebnisses. Für dieses Beispiel entsprechen die schon in der Eingangsfrage angeführten Daten darüber, wie oft ein Test ein falsches Ergebnis liefert, den Wahrscheinlichkeiten P(positiv | gesund) = 0,03 und P(negativ | krank) = 0,50. Außerdem ist die Prävalenz charakterisiert durch die Wahrscheinlichkeit P(krank) = 0,003. Basierend auf diesen Daten erhalten wir nun auch mit Hilfe der Bayes- Formel die gesuchte Wahrscheinlichkeit dafür, dass ein positiv Getesteter tatsächlich krank ist:

Diese zweite Art zur Berechnung der gesuchten Wahrscheinlichkeit auf Basis der Bayes-Formel ist wohl kaum einfacher, ja sogar eher unübersichtlicher als die schon zu Beginn des Kapitels darlegte Berechnungsweise auf Basis einer Tabelle. Der Vorteil der Bayes-Formel ist aber, dass wir es nun mit einem universellen Prinzip zu tun haben, von dem wir wissen, wie es sich auf analoge Fälle, auch solche von höherer Komplexität, übertragen lässt. So sehr bedingte Wahrscheinlichkeiten – ganz entsprechend Ihrer Zweckbestimmung – dazu geeignet sind, Ursache-Wirkungs-Beziehungen aufzuspüren, so sehr muss aber auch vor einer oberflächlichen Interpretation gewarnt werden: Natürlich ist es selbstverständlich, dass ein positiver Test niemanden krank macht, auch wenn der Wert der bedingten Wahrscheinlichkeit P(krank | positiv) von höchstem Interesse ist. Oder man stelle sich Außerirdische vor, die in grober Unkenntnis der menschlichen Anatomie unter erwachsenen Menschen nach einem Zusammenhang zwischen Körpergröße und bestehender Schwangerschaft forschen. Offen- kundig werden sie bei ihrer Untersuchung feststellen, dass kleine Menschen eher schwanger sind. Aber selbstverständlich ist die eigentliche Ursache für die häufigere Schwangerschaft kleinerer Menschen nicht die Körpergröße selbst, sondern das Geschlecht verbunden mit der Tatsache, dass Frauen durchschnittlich nicht so groß werden wie Männer. Mag das Schwangeren-Beispiel über vermeintliche und wirkliche Ursachen noch banal erscheinen, so ändert sich das spätestens dann, wenn es um politisch brisante Themen geht, etwa darum, ob Ausländer eher straffällig werden als Einheimische: Lässt sich auch für dieses statistische Übergewicht eine Eigenschaft finden, die primär ursächlich ist, etwa dergestalt, dass Ausländer häufiger in problematischen Wohngebieten mit einer allgemein höheren Kriminalitätsrate leben? Dass dies in der Tat so sein kann, wollen wir uns an einem fiktiven, in Tabelle 1 zusammengestellten Modellszenario ansehen. Tabelle 1 Fiktive Kriminalitätsstatistik einer zwei Stadtteile umfassenden Stadt.

Bei der betrachteten Grundgesamtheit gehen wir von einer fiktiven Stadt aus, deren beide Stadtteile die treffenden Namen Grünstadt und Betonburg tragen. Bei Grünstadt handelt es sich nämlich um eine parkähnlich angelegte Siedlung mit Ein- und Zweifamilienhäusern, wohingegen man in Betonburg eine deutliche kompaktere Bebauung in Form von einigen wenigen, dafür aber sehr großen Plattenbauten vorfindet. Während der Ausländeranteil in Grünstadt nur knapp 1% beträgt, stellen Ausländer in Betonburg die Hälfte aller Einwohner. Bei einer Kriminalitätsstatistik werden für den zugrunde gelegten Zeitraum und die erfassten Delikte die in Tabelle 1 zusammengestellten Anteile straffällig gewordener Personen angenommen. Dabei wurden die fiktiven Zahlen so gewählt, dass die Kriminalitätsrate von Ausländern in jedem der beiden Stadtteile niedriger ist als unter den Einheimischen. Trotzdem ergibt sich für die Gesamtstadt ein genau gegenteiliges Bild, das heißt, insgesamt ist die Kriminalitätsrate unter den Ausländern höher als unter den Einheimischen! Bei dem Modellszenario handelt es sich übrigens um ein Beispiel für Simpsons Paradoxon. Es ist benannt nach Edward Hugh Simpson (1922-), der 1951 erstmals solche – scheinbar widersprüchlichen – Phänomene beschrieben hat. Aufgaben 1. Man berechne die Wahrscheinlichkeit für „Sechs Richtige" im Lotto „6 aus 49" mittels der ersten Pfadregel. 2. Zwei Schützen schießen auf eine Zielscheibe. Der eine Schütze hat eine Tref- ferwahrscheinlichkeit von 0,8, der andere von 0,2. Nachdem jeder der beiden Schützen einmal geschossen hat, weist die Zielscheibe genau einen Treffer auf. Wie groß ist die Wahrscheinlichkeit, dass dieser Treffer von dem besseren Schützen stammt? 3. In einer amerikanischen Fernsehshow gewinnt der Kandidat der Endrunde ein Auto, wenn er unter drei Türen diejenige errät, hinter der sich ein Auto verbirgt. Hinter jeder der beiden anderen Türen steht – als publikumswirksames Symbol für die Niete – eine Ziege. Um die Spannung zu erhöhen, öffnet der Showmaster nach der Auswahl des Kandidaten zunächst eine der beiden verbliebenen Türen. Dabei wählt der Showmaster, der die richtige Tür kennt, immer eine Tür, hinter der eine Ziege steht. Anschließend darf der Kandidat seine getroffene Entscheidung nochmals revidieren und sich für die übrig bleibende dritte Tür umentscheiden. Soll er oder soll er nicht? Geben Sie für dieses sogenannte Ziegenproblem zu- nächst spontan eine intuitive Antwort. Ergänzen Sie Ihre spontane Entscheidung durch eine intuitive Überlegung für den fiktiven Fall mit 1000 Türen, 999 Ziegen und einem Auto. Berechnen Sie anschließend bedingte Wahrscheinlichkeiten, und zwar zunächst für die fiktive 1000er-Situation und dann für die Originalsituation: Wie groß ist die Wahrscheinlichkeit, dass ein Wechsel gut ist, bedingt dazu, dass die ursprüngliche Entscheidung richtig war oder nicht. Berechnen Sie schließlich die totale Wahrscheinlichkeit dafür, dass ein Wechsel gut ist.

2.4 Zufallsgrößen: zufällig bestimmte Werte

Bei Glücksspielen wie Lotto, Roulette oder Black Jack kann die Höhe eines gegebenenfalls erzielten Gewinnes unterschiedlich ausfallen. Wie können solche variierenden Gewinnhöhen bei der Abschätzung von Gewinnchancen berücksichtigt werden?

Wird bei einem Spiel entweder der gemachte Einsatz verloren oder aber der gleich hohe Einsatz des Kontrahenten gewonnen, so reicht es zur Abwägung der Spielchancen völlig aus, die Wahrscheinlichkeit für einen Gewinn zu berechnen: So haben wir gesehen, dass bei einer Wette darauf, in vier Würfelversuchen mindestens eine Sechs zu erzielen, die Gewinnwahrscheinlichkeit knapp über 0,5 liegt und damit etwas größer ist als die Wahrscheinlichkeit, die Wette zu verlieren. Komplizierter wird es, wenn es nicht mehr einfach nur darum geht, entweder seinen Einsatz zu verlieren oder aber einen gleich hohen Betrag zu gewinnen. Entscheidend zur Abwägung der Gewinnchancen ist dann nicht nur die Wahrscheinlichkeit für irgendeinen Gewinn, sondern auch, welche der möglichen Gewinnhöhen mit welcher Wahrscheinlichkeit erreicht wird. Ihr mathematisches Äquivalent findet eine zufällig ausgespielte Gewinnhöhe im Begriff der sogenannten Zufallsgröße, häufig auch als zufällige Größe oder Zufallsvariable bezeichnet. Bei einer solchen Zufallsgröße X handelt es sich per Definition um eine Vorschrift, mit der jedem Ergebnis ? eines Zufallsexperimentes eine Zahl X(w) zugeordnet wird. Bei jeder Durchführung des Zufallsexperimentes wird damit eine Zahl realisiert, das heißt zufällig „ausgewürfelt". Beispiele sind: * die Höhe des in einem Glücksspiel erzielten Gewinns, * die Summe der beim Wurf eines Würfelpaares erzielten Punkte, * die Häufigkeit, mit der ein Ereignis, dessen zugehöriges Zufallsexperiment innerhalb einer Versuchsreihe mit vorgegebener Länge wieder- holt wird, eintritt, * die Höhe des Einkommens einer zufällig aus einer Grundgesamtheit ausgewählten Person, * das durchschnittliche Einkommen, über das die Mitglieder einer zufällig ausgewählten Stichprobe verfügen. Mathematisch beschrieben wird eine Zufallsgröße X im Wesentlichen durch die Wahrscheinlichkeiten, mit denen sie bestimmte Werte annimmt. So steht zum Beispiel P(X = 3) = 1/6 für die Tatsache, dass das Ergebnis X eines Würfelwurfs mit der Wahrscheinlichkeit von 1/6 eine Drei ergibt. Insgesamt wird das zufällige Ergebnis X eines symmetrischen Würfels durch die Wahrscheinlichkeiten charakterisiert. Selbst ohne jegliches Zusatzwissen über die Natur der Zufallsgröße X kann auf weitere Angaben wie P(X = 7) = P(X = 1,5) = 0 selbstverständlich verzichtet werden, da bereits die sechs angeführten Wahrscheinlichkeiten als Summe 1 ergeben. Vollständige Angaben darüber, welche Werte eine Zufallsgröße annehmen kann und wie wahr- scheinlich diese sind, nennt man übrigens Wahrscheinlichkeitsverteilung oder kurz Verteilung dieser Zufallsgröße. Bild 11 Die beiden Zufallsgrößen, die den Werten eines geworfenen Würfelpaares entsprechen, und ihre Summe. Ob man nun die Wahrscheinlichkeit eines Sechser-Wurfes mit P(X = 6) oder P(„das Würfelergebnis ist Sechs") bezeichnet, mag man noch als Geschmackssache ansehen. Das ändert sich spätestens dann, wenn einem Zufallsexperiment verschiedene Zufallsgrößen zugeordnet sind, mit denen dann gerechnet wird. So ist, wenn X und Y die Ergebnisse eines geworfenen Würfelpaares sind, beispielsweise P(X +Y = 3) die Wahrscheinlichkeit dafür, mit beiden Würfeln höchstens die Summe 3 zu erzielen. Und ganz allgemein kann man mit Zufallsgrößen immer dann rechnen, wenn sie durch das Ergebnis desselben Zufallsexperimentes bestimmt werden (oder sich entsprechend auffassen lassen). Außerdem lassen sich umgekehrt auch „komplizierte" Zufallsgrößen wie die in einer Würfelserie insgesamt erzielte Augensumme oder die in dieser Serie erzielte An- zahl von Sechsen als Summe „einfacherer" Zufallsgrößen darstellen, die sich jeweils nur auf einen einzelnen Wurf beziehen. Wie flexibel diese Möglichkeiten sind, mit den Werten von Zufallsgrößen zu rechnen, wollen wir uns am Beispiel des Gewinnes in zwei aufeinanderfolgenden Roulette-Spielen anschauen. Keine Angst – die sowieso sehr einfachen Regeln des Roulette-Spiels müssen Sie dazu nicht kennen. Es reicht zu wissen, dass in jedem Lauf mit gleichen Chancen eine der 37 Zahlen 0, 1, 2, ..., 36 ausgespielt wird und dass beim Setzen auf eine dieser Zahlen im Gewinnfall zusätzlich zum Einsatz der 35-fache Gewinn ausbezahlt wird: ? Wir bezeichnen mit X0, X1,... X36 die Zufallsgrößen, die für den ersten Roulette-Durchgang den Gewinn beim Einsatz einer Geldeinheit auf die Zahlen 0, 1, ... beziehungsweise 36 widerspiegeln. Damit nimmt jede dieser Zufallsgrößen Xn abhängig vom zufälligen Ergebnis des Roulette-Laufs entweder den Wert 0 oder den Wert 36 an, wobei Letzteres genau dann der Fall ist, wenn im ersten Durchgang die Zahl n ausgespielt wird. ? Entsprechend bezeichnen wir mit Y0, Y1,... Y36 die Zufallsgrößen, die für die zweite Roulette-Ausspielung den Gewinn beim Einsatz einer Geldeinheit auf die Zahl 0, 1, ... beziehungsweise 36 widerspiegeln. Alle 74 Zufallsgrößen X0, X1, ..., X36, Y0, Y1, ..., Y36 weisen in Bezug auf ihre möglichen Werte und die dazugehörigen Wahrscheinlichkeiten übereinstimmende Wahrscheinlichkeitsverteilungen auf, nämlich .

Dieser Sachverhalt übereinstimmender Wahrscheinlichkeitsverteilungen spiegelt die Tatsache wider, dass alle 74 Setzmöglichkeiten übereinstimmende Gewinnchancen aufweisen. Trotzdem sind diese 74 Zufallsgrößen aber alle voneinander verschieden: Abhängig von den beiden zufällig ausgespielten Roulette-Zahlen nimmt mal die eine und mal die andere der Zufallsgrößen einen von 0 verschiedenen Wert an. Beispielsweise ist, wenn wir die Ergebnisse der beiden Roulette-Ausspielungen gemäß ihrer Reihenfolge in der Form w = „12, 3" notieren, X12(„12, 3") = 36, X13(„12, 3") = 0, Y12(„12, 3") = 0, womit die Zufallsgröße X12 weder mit X13 noch mit Y12 übereinstimmen kann.

Wir wollen uns nun ansehen, wie die schon erwähnten arithmetischen Operationen für Zufallsgrößen zu interpretieren sind. Dabei werden wir erkennen, dass solche Rechenoperationen für Zufallsgrößen keinesfalls einen „l'art pour l'art"-Charakter haben, sondern dass sie bestens dazu geeignet sind, reale Sachverhalte zu beschreiben. Einige Beispiele dazu: 2X12 ist der Gewinn, wenn beim ersten Roulette-Durchgang ein Einsatz von zwei Geldeinheiten auf die Zahl „12" gesetzt wird. Diese Zufallsgröße kann entweder den Wert 0 oder 72 annehmen. X12 – 1 steht für den möglicherweise negativen Gewinnsaldo, wenn vom Gewinn der Einsatz abgezogen wird (bei einfachem Einsatz auf die „12" im ersten Durchgang). Die möglichen Werte dieser Zufallsgröße sind 35 und –1. X12 + X13 ist der Gesamtgewinn, wenn beim ersten Roulette- Durchgang jeweils einfach auf „12" und „13" gesetzt wird. Die möglichen Werte dieser Zufallsgröße sind 0 und 36, da höchstens einer der beiden Einsätze gewinnen kann. X12 + Y12 entspricht dem Gesamtgewinn, wenn bei beiden Durchgängen jeweils einfach auf „12" gesetzt wird. Die möglichen Werte dieser Zufallsgröße sind 0, 36 und 72. X12Y12 beschreibt den Gewinn, wenn beim ersten Durchgang auf die „12" gesetzt wird und der eventuelle Gewinn für den nächsten Durchgang stehen bleibt, das heißt ebenfalls auf die „12" gesetzt wird. Diese Zufallsgröße kann nur die Werte 0 und 36?36 = 1296 annehmen. X12X13 ist ein Beispiel für eine Operation, deren praktische Bedeutung relativ gering ist: Es handelt sich nämlich um nichts anderes als den konstanten Wert 0, denn für jedes beliebige Ergebnis des ersten Roulette-Durchganges nimmt mindestens eine der beiden Zufallsgrößen den Wert 0 an. X122 hat ebenfalls keine direkte reale Interpretation, das heißt, auch diese Zufallsgröße entspricht keinem Setz- verhalten für die beiden Roulette-Durchgänge. Die Zufallsgröße kann nur die beiden Werte 0 und 36?36 = 1296 annehmen. Die gerade angeführten Beispiele machen deutlich, wie gut sich Zufallsgrößen dazu eignen, selbst komplizierte Sachverhalte von Zufallsexperimenten mathematisch zu beschreiben. Natürlich geht unser Interesse über solche Möglichkeiten einer reinen Beschreibung weit hinaus. Wie bei den Gesetzen, die für Wahrscheinlichkeiten formuliert wurden, sind wir wieder daran interessiert, komplizierte Sachverhalte auf einfachere Situationen mittels geeigneter Formeln zurückzuführen. Konkret bedeutet dies zum Beispiel: Welche Aussagen über die Wahrscheinlichkeitsverteilung einer Summe von zwei unabhängigen Würfelergebnissen X + Y können ohne detaillierte Einzelberechnungen aus den Wahrscheinlichkeitsverteilungen der Zufallsgrößen X und Y gemacht werden, welche die einzelnen Würfe beschreiben? Und wie lässt sich in Bezug auf die Gewinnhöhen im Roulette die Wahrscheinlichkeitsverteilung einer Zufallsgröße wie X12 + Y12 oder X12Y12 aus den Wahrscheinlichkeitsverteilungen der Zufallsgrößen X12 und Y12 zumindest in einer ungefähren Weise berechnen? Bild 12 Die Wahrscheinlichkeitsverteilungen von zwei unabhängigen Würfelergebnissen X und Y sowie der Würfelsumme X + Y Auch im Bereich statistischer Anwendungen stellen sich vergleichbare Probleme. So kann die Häufigkeit, mit der ein bestimmter Merkmalswert in einer zufällig aus einer Grundgesamtheit ausgewählten Stichprobe auftritt, als Zufallsgröße aufgefasst werden. Dabei kann der Wert dieser Zufallsgröße als Summe der Werte – möglich sind nur 0 und 1 – dargestellt werden, die sich bei einer einzelnen Zufallsziehung ergeben. Und auch für eine solche Situation ist es wieder erstrebenswert, Aussagen über die Wahrscheinlichkeitsverteilung der Summe auf Basis der Wahrscheinlichkeitsverteilung der Summanden zu erhalten. Konkret erhält man damit Aussagen über die Stichprobenergebnisse auf Basis der Häufigkeitsverteilung in der Grundgesamtheit. Allerdings ist das beschriebene Problem, Wahrscheinlichkeitsverteilungen einer Summe oder eines Produktes von zwei Zufallsgrößen aus den Wahrscheinlichkeitsverteilungen der beiden Zufallsgrößen zu berechnen, allgemein keinesfalls einfach zu lösen. Für unsere geplanten Anwendungen aber meist völlig ausreichend sind Formeln, die zumindest unge- fähre Aussagen über die gesuchten Wahrscheinlichkeitsverteilungen machen. Dazu werden Zufallsgrößen charakteristische Kenngrößen zuge- ordnet, für die relativ einfache Rechenregeln hergeleitet werden können. Die wichtigste Kenngröße, die einer Zufallsgröße X zugeordnet werden kann, ist der sogenannte Erwartungswert, der im Allgemeinen mit E(X), zu lesen als "E von X", bezeichnet wird. Wie schon bei der Wahrscheinlichkeit handelt es sich auch beim Erwartungswert um einen Trend, der sich innerhalb einer Versuchsreihe bei einer unabhängigen Wiederholung des zugrunde liegenden Zufallsexperimen- tes ergibt: Handelt es sich bei der Wahrscheinlichkeit eines Ereignisses um den Trend, dem die relativen Häufigkeiten dieses Ereignisses folgen, so wird der Erwartungswert so konstruiert, dass er dem Trend für die durchschnittliche Höhe der Zufallsgröße entspricht: Nimmt zum Beispiel die Zufallsgröße X nur die Werte x1, x2, ..., xn an, so ist der in einer Versuchsreihe ermittelte Durchschnitt der Zufallsgröße gleich wobei R1, R2, ..., Rn die relativen Häufigkeiten bezeichnen, mit der die Werte x1, x2, ..., xn für die Zufallsgröße X in der Versuchsreihe „ausge- würfelt" werden. Dabei nähert sich jede relative Häufigkeit Rk mit zu- nehmender Länge der Versuchsreihe gemäß dem Gesetz der großen Zah- len der Wahrscheinlichkeit P(X = xk) immer stärker an. Folglich nähern sich die Durchschnittswerte der Zufallsgröße dem Wert an. Dieser Wert wird nun als Erwartungswert der Zufallsgröße X definiert: Bild 13 Der auf Basis der Wahrscheinlichkeitsverteilung definierte Er- wartungswert einer Zufallsgröße (links) entspricht dem Trend, dem die durchschnittlichen Werte in Versuchsreihen unterlie- gen (rechts). Beispielsweise besitzt die dem Ergebnis eines Würfelwurfs entsprechen- de Zufallsgröße den Erwartungswert

In Bezug auf die ebenfalls schon angeführten Zufallsgrößen, die dem Ge- winn beim Setzen eines einfachen Einsatzes auf eine der 37 Roulette- Zahlen entsprechen, ergibt sich der Erwartungswert

Auf Dauer muss daher ein Spieler, der auf einzelne Roulette-Zahlen setzt, mit einem durchschnittlichen Verlust von 2,37% seines Einsatzes rechnen. Ebenso kann ein Spieler bei einer langen Serie von Würfelversuchen damit rechnen, ungefähr eine durchschnittliche Wurfhöhe von 3,5 zu erzielen. Auch wenn es, wie schon erwähnt, keineswegs einfach ist, die Wahrscheinlichkeitsverteilung einer Summe oder eines Produktes von zwei oder gar mehr Zufallsgrößen zu bestimmen, so gilt das glücklicherweise nicht unbedingt für deren Erwartungswerte. Für diese gelten nämlich die folgenden Sätze: Für zwei auf der Basis desselben Zufallsexperimentes bestimmte Zufalls- größen X und Y sowie konstante Zahlen a und b gelten die elementar be- weisbaren Gleichungen E(aX + b ) = aE(X ) + b, E(X + Y ) = E(X ) + E(Y ). Eine weitere sehr wichtige Eigenschaft gilt, wenn die beiden Zufallsgrö- ßen X und Y unabhängig voneinander sind. Per Definition bedeutet das, dass jedes sich auf die Zufallsgröße X beziehende Ereignis wie X = x stochastisch unabhängig sein muss zu jedem Ereignis, das sich auf die Zufallsgröße Y bezieht wie zum Beispiel Y = y. Insbesondere muss also für beliebige Zahlen x und y die Gleichung P(X = x und Y = y) = P(X = x) · P(Y = y) gelten. In der Praxis sind solche Anforderungen insbesondere dann erfüllt, wenn die Wert-Bestimmung der beiden Zufallsgrößen X und Y in keinerlei kausaler Beziehung zueinander steht. Das Standardbeispiel sind wieder die beiden Werte, die mit einem Würfelpaar erzielt werden. Für zwei voneinander unabhängige Zufallsgrößen X und Y gilt nun das sogenannte Multiplikationsgesetz E(XY ) = E(X )·E(Y ). Ein mathematischer Beweis für den hier ausschließlich betrachteten Fall von Zufallsgrößen, die nur endlich viele Werte annehmen können, ist nicht schwer . Weit wichtiger dürfte es aber sein, die Bedeutung der Sätze zu erläutern. Wir greifen dazu wieder auf unser Roulette-Beispiel zu- rück: ? Beispielsweise entspricht die Zufallsgröße 2X12 + 3 dem um 3 Geld- einheiten erhöhten Gewinn, den man beim Setzen von zwei Geldein- heiten auf die Zahl 12 erhält. Dass der zugehörige Erwartungswert, der ja die in einer Versuchsreihe auf Dauer durchschnittliche Gewinn- auszahlung widerspiegelt, gleich 2E(X12 ) + 3 ist, dürfte einleuchtend sein. ? Und auch die Tatsache E(X12Y12 ) = E(X12)·E(Y12 ) ist mehr als plausibel, wenn man Folgendes bedenkt: Setzt man im ersten Roulette- Durchgang einen einfachen Einsatz auf die „12" und belässt den even- tuell so erzielten Gewinn im zweiten Durchgang als Einsatz auf der „12", dann ist, wenn man eine lange, jeweils über zwei Roulette- Durchgänge laufende Versuchsreihe startet, die durchschnittliche Einsatzhöhe des zweiten Roulette-Durchganges gleich E(X12 ). Die durchschnittliche Gewinnhöhe, die sich so am Ende des zweiten Durchganges ergibt, ist damit gleich E(X12 )·E(Y12 ), da jeder mögliche Einsatz im zweiten Durchgang den durchschnittlich E(Y12 )-fachen Gewinn ergibt. Allerdings kann nur deshalb so argumentiert werden, weil beide Zufallsgrößen unabhängig voneinander sind. Dagegen ergibt sich beispielsweise für die voneinander abhängigen Zufallsgrößen X12 und X13 E(X12X13 ) = 0 und E(X12 )E(X13 ) = (36/37)2. Für eine Zufallsgröße X ist der Erwartungswert E(X ) zweifellos die wesentlichste Kenngröße, da er den Trend für die Durchschnittswerte der Zufallsgröße angibt, wenn man in einer langen Versuchsreihe das zugrunde liegende Zufallsexperiment unabhängig voneinander wiederholt. Im speziellen Fall eines Glücksspiels, das mit einfa- chem Einsatz gespielt wird, ist der Erwartungswert der Zufallsgröße, welche die Gewinnhöhe widerspiegelt, gleich der durchschnittlichen Auszahlungsquote. Deren Höhe ist der maßgebliche Indikator für die Gewinnchancen eines Spielers. Dass ein Durchschnitt für sich allein eine Zufallsgröße nur unvollständig charakterisiert, haben wir bereits in Kapitel 1.2 im Zusammenhang mit dem Begriff des Medians erläutert. Daher wird der Erwartungswert oft ergänzt durch eine weitere Kennzahl, die im Fall, dass es sich bei der Zufallsgröße um die Gewinnhöhe eines Glücksspiels handelt, als Maß für das (Verlust-)Risiko einerseits und die gebotenen (Gewinn-)Chancen andererseits verstanden werden kann. Was damit gemeint ist, wollen wir uns zunächst an einem Beispiel ansehen. Wir nehmen zunächst einen Würfel und überlegen uns, welche Auswirkungen es hat, wenn wir statt der normalen Beschriftung drei Seiten mit einer Eins und drei Seiten mit einer Sechs beschriften. Der Erwartungs- wert wird dabei nicht verändert, das heißt, beide Zufallsgrößen besitzen den Erwartungswert 3,5. Unterschiede bestehen zwischen dem normalen und dem modifizierten Würfel aber hinsichtlich der „Streuung". Damit ist gemeint, dass beim normalen Würfel die Wurfergebnisse in der Regel weniger stark vom Erwartungswert abweichen als beim modifizierten Würfel (siehe auch Bild 14). Und auch allgemein macht es ebenso Sinn, eine Zufallsgröße X daraufhin zu untersuchen, wie wahrscheinlich größere Abweichungen zum Erwartungswert E(X ) sind. Um diese Untersuchung in einer einzigen Kenngröße zusammenzufassen, bietet es sich natürlich an, eine durchschnittliche Abweichung zu berechnen. Eine solche Durchschnittsbildung macht aber nur dann Sinn, wenn verhindert wird, dass sich positive und negative Abweichungen gegenseitig aufheben. Das ist beispielsweise dann sichergestellt, wenn man die – natürlich niemals negativen – Abstände zum Erwartungswert betrachtet und dann von der aus diesen Werten gebildeten Zufallsgröße |X – E(X )| den Erwartungswert E(|X – E(X)|) berechnet: Gemessen wird mit diesem sogenann- ten absoluten zentralen Moment 1. Ordnung der durchschnittliche Abstand, den die Werte der Zufallsgröße X zum Erwartungswert E(X ) aufweisen. Bild 14 Die Wahrscheinlichkeitsverteilung eines normalen Würfels (links) sowie eines je dreimal mit Eins und Sechs gekennzeichneten Würfels (rechts). Offensichtlich ist die „Streuung" um den Erwartungswert beim normalen Würfel kleiner. Für das Beispiel der beiden Würfel erhält man bei der Berechnung des absoluten zentralen Momentes 1. Ordnung E(|X – 3,5|) als Wert für den normalen Würfel und als Wert für den nur mit Eins und Sechs gekennzeichneten Würfel. Wie erwartet – und wie gewünscht – spiegelt sich also die kleinere „Streuung" des üblich beschrifteten Würfels in einem kleineren Wert beim absoluten zentralen Moment erster Ordnung wider. Streuung als Risiko-Maß eines Glücksspiels Es wurde bereits darauf hingewiesen, dass bei einer Zufallsgröße, die durch die möglichen Gewinnhöhen eines Glücksspiels bei einfachem Einsatz definiert ist, der Erwartungswert als durchschnittliche Auszahlungsquote interpretiert werden kann. Ganz analog ist das absolute zentrale Moment 1. Ordnung ein Maß für das mit dem Spiel verbundene Risiko. Wir wollen uns das am Beispiel des Roulette-Spiels konkret ansehen: Soll ein Spieler in einem Roulette-Durchgang 36 Einsätze tätigen, dann kann er sie in unterschiedlicher Weise auf dem Setzfeld platzieren. Dabei interessieren wir uns weniger dafür, ob er alles auf die Zahl „5" oder alles auf die Zahl „12" setzt, denn offensichtlich sind die diesbezüglichen Gewinnchancen aufgrund zueinander symmetrischer Gewinnmöglichkeiten gleich. Allerdings wird das Verlustrisiko des Spielers, aber auch die Höhe und Wahrscheinlichkeit eines möglichen Gewinns, entscheidend dadurch beeinflusst, wie breit er seine Einsätze streut. So hat der Spieler unter anderem die folgenden Möglichkeiten: ? Er kann alles auf eine Zahl, beispielsweise auf die „12" setzen, so dass sein Gewinn der Zufallsgröße 36X12 entspricht, was je nach ausgespielter Roulette-Zahl den Wert 0 oder 36·36 = 1296 ergibt. ? Möglich ist auch, den Gesamteinsatz je zur Hälfte auf zwei Zahlen, beispielsweise „12" und „13", zu platzieren. Die Gewinnhöhe wird dann durch die Zufallsgröße 18X12 + 18X13 beschrieben. Je nach ausgespielter Zahl ergibt sich so die Gewinnhöhe 0 oder 18·36 = 648. ? Wer ein Risiko soweit wie möglich vermeiden will, kann seinen Einsatz auf 36 verschiedene Zahlen verteilen. Spart der Spieler dabei beispielsweise nur die „0" aus, wird sein Gewinn durch die Zufallsgröße X1 + X2 + ... + X36 beschrieben. Je nach Ergebnis der Roulette-Ausspielung nimmt diese Zufallsgröße entweder den Wert 0 oder 36 an. Das geringe Risiko eines Verlustes wird also damit „erkauft", dass gegenüber dem Einsatz von 36 Einheiten ein echter Zugewinn unmöglich ist. Alle drei angeführten, aber auch alle anderen Satztechniken, die 36 Einsätze in beliebiger Aufteilung auf die 37 Zahlen zu verteilen, führen in Bezug auf den so möglichen Gewinn zu Zufallsgrößen mit dem Erwartungswert . Unterschiede ergeben sich aber in Bezug auf die erreichbaren Gewinnhöhen: Dabei zeichnet sich die zuletzt angeführte, risikoarme Setztechnik dadurch aus, dass bei ihr mit hoher Wahrscheinlichkeit von 36/37 der Wert 36 erreicht wird, der nahe beim Erwartungswert von 35,03 liegt. Das höchste Risiko ergibt sich, wenn der gesamte Einsatz in Höhe von 36 auf eine Zahl gesetzt wird. Dann wird mit einer Wahrscheinlichkeit von 36/37 der Wert 0 erreicht und mit einer Wahrscheinlichkeit von 1/36 der Wert 1296. Diese unterschiedlichen Risiken eines Totalverlustes verbunden mit – in Höhe und Wahrscheinlichkeit – entsprechenden Gewinnchancen lassen sich wieder mit dem absoluten zentralen Moment 1. Ordnung messen. Für die drei beispielhaft beschriebenen Satztechniken erhält man ? im Fall der zuerst angeführten Fokussierung des Einsatzes auf eine einzelne Zahl wie etwa die „12" ? im Fall, dass der Einsatz je zur Hälfte auf zwei Zahlen wie beispielsweise „12" und „13" platziert wird, ? im zuletzt beschriebenen Fall, bei dem auf 36 Zahlen je ein Einsatz platziert wird, Hohes Verlustrisiko und entsprechend hohe (Gewinn-)Chancen dokumentieren sich also durch hohe Werte beim absoluten zentralen Moment 1. Ordnung. Obwohl es intuitiv mehr als naheliegend ist, die Streuung einer Zufallsgröße X um ihren Erwartungswert E(X ) mit dem absoluten zentralen Moment 1. Ordnung, das heißt mit dem Wert E(|X – E(X )|), zu messen, wird meist eine andere Kenngröße für diese Charakterisierung verwendet. Dazu bleibt anzumerken, dass diese alternative Kenngröße eigentlich „nur" aufgrund ihrer mathematisch einfacher handzuhabenden Eigen- schaften verwendet wird. Es handelt sich um die sogenannte Varianz XE „Varianz" , die auch als zentrales Moment 2. Ordnung bezeichnet wird. Die Definition ähnelt zwar der Definition des absoluten ersten zentralen Moments 1. Ordnung, ist aber nicht ganz so einfach und intuitiv: Bezeichnet man den Erwartungswert abkürzend mit m = E(X) und nimmt die Zufallsgröße X nur die Werte x1, x2, ..., xn an, dann entspricht die Definition der Varianz der expliziten Formel Mit der Varianz eng verbunden ist die sogenannte Standardabweichung der Zufallsgröße X:

Ein Vergleich der Definitionen von Varianz und zentralem Moment 1. Ordnung offenbart, dass die dahinter stehende Idee in beiden Fällen iden- tisch ist: Die Abstände der Werte einer Zufallsgröße X zu ihrem Erwartungswert E(X ) werden einer Durchschnittsbildung unterworfen. Dabei verwendet man im Fall der Varianz statt der Absolutbeträge Quadrate, die ebenfalls nie negative Werte liefern. Obwohl die Berechnung der „Streuungskenngröße" damit etwas komplizierter wird, ergibt sich im Hinblick auf die rechentechnischen Gesetzmäßigkeiten eine Vereinfachung. Wir werden nämlich gleich sehen, dass die Varianz der Summe zweier unabhängiger Zufallsgrößen ganz einfach aus den Varianzen der beiden Sum- manden berechnet werden kann.

Als erstes Beispiel dient uns wieder die Zufallsgröße X, die einem Würfelergebnis entspricht. Für ihre Varianz ergibt sich Folglich ist die Standardabweichung der Zufallsgröße X gleich Etwas einfacher lässt sich die Varianz übrigens berechnen, wenn man die Definition etwas umformt. Allerdings ist diese alternative Formel nicht ganz so suggestiv im Hinblick darauf, dass der mit ihr berechnete Wert ein Maß der „Streuung" ist: Bezeichnet man den Erwartungswert wieder abkürzend mit m = E(X ), so lässt sich der Wert der Zufallsgröße (X – m)2 umformen zu . Daher erhält man und schließlich . Auch für Varianz und Standardabweichung gibt es wichtige Rechenregeln: Ist X eine Zufallsgröße und sind a und b konstante Zahlen (a ? 0), dann gilt , denn es ist

Als direkte Folgerung erhält man noch die entsprechende Transformationsregel für die Standardabweichung der Zufallsgröße aX + b:

Wird beispielsweise ein mit den Zahlen 1, 3, 5, 7, 9, 11 beschrifteter, symmetrischer Würfel geworfen, so besitzt die entsprechende Zufallsgrö- ße die Standardabweichung 2·1,708 = 3,416, da die Zufallsgröße mittels der Parameter a = 2 und b = –1 aus der einem normalen Würfel entsprechenden Zufallsgröße abgeleitet werden kann. Wie schon erwähnt ist der eigentliche Grund, die Streuung von Zufallsgrößen durch die Varianz beziehungsweise Standardabweichung zu cha- rakterisieren, dass es für die Summe zweier Zufallsgrößen X und Y, die auf der Basis desselben Zufallsexperimentes bestimmt werden und die voneinander unabhängig sind, eine einfache Gesetzmäßigkeit gibt: Grundlage dieser Formel ist die entsprechende Gesetzmäßigkeit für Varianzen, nämlich die sogenannte Additionsformel für die Varianz unab- hängiger Zufallsgrößen X und Y: . Diese Additionsformel ergibt sich als direkte Folgerung des Multiplikationsgesetztes für die Erwartungswerte unabhängiger Zufallsgrößen (sie- he Seite 56):

Dass sich die Varianzen bei der Summenbildung unabhängiger Zufallsgrößen addieren, ist eine äußerst wichtige Gesetzmäßigkeit. Dank dieser Additionsformel kann man zum Beispiel sofort die Standardabweichung XE „Standardabweichung" für die Summe der erzielten Würfelpunkte X1, X2, ..., X30 angeben, die in 30 unabhängig voneinander durchgeführten Würfelversuchen erzielt werden. Sie beträgt

Da dieses Kapitel über Zufallsgrößen etwas umfangreicher war als die vorhergehenden Kapitel, wollen wir ein Resümee formulieren: Werden Zahlenwerte mit einem Zufallsexperiment bestimmt, lassen diese sich mathematisch durch Zufallsgrößen beschreiben. Dabei kann es sich sowohl um den Gewinn in einem Glücksspiel handeln als auch um die in einer zufällig ausgewählten Stichprobe festgestellte Zahl von Mitgliedern, die einen bestimmten Merkmalswert aufweisen. Da Zufallsgrößen in ihrer Gesamtheit von möglichen Werten und zugehörigen Wahrscheinlichkeiten nur schwer überschaubar sind, werden ihre fundamentalen Eigenschaften durch zwei Kenngrößen beschrieben: * Der Erwartungswert ist eine Art Mittelwert. Beobachtbar ist der Erwartungswert als Trend innerhalb einer Versuchsreihe, in der dasjenige Experiment unabhängig voneinander wiederholt wird, das der Zufallsgröße zugrunde liegt. Konkret strebt dabei der Durchschnitt der „ausgewürfelten" Werte – so das Gesetz der großen Zahlen – auf Dauer dem Erwartungswert zu. Daher ist zum Beispiel ein Glücksspiel fair, bei dem der zu erwartende Gewinn mit dem Einsatz übereinstimmt. * Die Standardabweichung ist ein Maß da- für, wie häufig und stark die Werte einer Zufallsgröße von ihrem Erwartungswert abweichen. Manchmal sind von einer Zufallsgröße nur ihre beiden Kenngrößen, also Erwartungswert und Standardabweichung, bekannt. Das kann zum Bei- spiel dann der Fall sein, wenn die Zufallsgröße wie im Fall der Summe von 30 Würfelversuchen durch arithmetische Operationen aus anderen Zufallsgröen hervorgegangen ist und Erwartungswert sowie Standardabweichung aus denen der ursprünglichen Zufallsgrößen direkt berechenbar sind. Wir werden im übernächsten Kapitel sehen, wie bei ausschließlicher Kenntnis der beiden Kenngrößen immerhin prinzipielle Aussagen über die betreffende Zufallsgröße getroffen werden können. Mathematischer Ausblick: weitere Kenngrößen Neben dem Erwartungswert E(X ) und der Standardabweichung sX können einer Zufallsgröße X noch weitere Kenngrößen zugeordnet werden, die insgesamt eine umfassendere Charakterisierung der Zufallsgröße ermöglichen. Da aber die dazu notwendigen mathematischen Techniken teilweise alles andere als elementar sind, soll hier darauf nur in Form eines kurzen Ausblicks eingegangen werden. Zunächst bietet es sich natürlich an, einer Zufallsgröße X die soge- nannten Momente k-ter Ordnung E(Xk ) zuzuordnen und somit die für k = 1, 2 bereits bewährten Ansätze zu verallgemeinern. Von Interesse ist auch das auf eine Zahl r bezogene Moment k-ter Ordnung E((X – r)k ), wobei diese Zahl r beispielsweise der Erwartungswert r = E(X ) sein kann – man spricht dann vom zentralen Moment k-ter Ordnung . Schließlich liefern noch, wie für den Fall k = 1 bereits erwähnt, die absoluten Momente E(|X – r|k) Informationen über die Zufallsgröße X. Neben den Momenten gibt es noch andere Kenngrößen, die sich aufgrund einfacherer Rechenregeln als ähnlich vorteilhaft erweisen wie Erwartungswert und Varianz: Dazu wird zu einer Zahl s die Zufallsgröße esX gebildet und dann deren Erwartungswert E(esX ) berechnet. Da man die Zahl s variieren kann, erhält man sogar ein ganzes „Spektrum" von Kenngrößen. Wichtig ist, dass für unabhängige Zufallsgrößen X und Y aufgrund der ebenso bestehenden Unabhängig- keit zwischen den Zufallsgrößen esX und esY stets die Rechenregel gilt.

Auch wenn es im ersten Moment wenig anschaulich erscheint, so haben sich doch insbesondere nicht-reelle Werte s, nämlich imaginäre Zahlen s = ti (mit reellem Wert t), als besonders vorteilhafte Parameter bewährt. Man erhält auf diese Weise die sogenannte charakteristische Funktion phiX der Zufallsgröße X:

Dabei können übrigens komplexe Argumente bei der Exponentialfunktion sowie Erwartungswerte von komplexwertigen Zufallsgrößen vermieden werden, wenn man mittels der Euler'schen Gleichung eit = cos t + i sin t zur expliziten Darstel- lung übergeht. Vorteilhaft ist eine solche „elementare" Darstellung aber eigentlich nicht, da das Additionstheorem für die komplexwertige Exponentialfunktion, das heißt ezz´ = ez ez´, einfacher gehandhabt werden kann als die entsprechenden Additionsgesetze für die (reellwertigen) Winkelfunktionen XE „Winkelfunktionen" Sinus und Kosinus. Nur wer geometrisch verstehen will, dass jeder Funktionswert ?X(t ) der charakteristischen Funktion innerhalb oder auf dem Rand des Einheitskreises der komplexen Zahlenebene liegt, ist mit der „elementaren" Darstellung gut bedient. Neben der schon angeführten Rechenregel ??X+Y = ?X ?Y, die für unabhängige Zufallsgrößen X und Y gültig ist, hat die Konstruktion der charakteristischen Funktion die Eigenschaft, dass sie die gesamte Information der Wahrscheinlichkeitsverteilung der ihr zugrunde liegenden Zufallsgröße beinhaltet. Beispielsweise gilt, wenn alle Werte der Zufallsgröße X ganzzahlig sind, . Diese sogenannte Umkehrformel beruht darauf, dass der darin enthaltene Integrand e–ivt?X(t) aus Summanden der Form besteht. Dabei handelt es sich für u ? v um eine gewichtete Summe von Winkelfunktionen der Periode 2? /|u–v|, deren Integrale von –? bis ? verschwinden, das heißt gleich 0 sind. Ein von Null verschiedenes Integral kann sich damit nur für den Summanden u = v ergeben, wobei das Ergebnis gleich P(X = v) ist. Eine Verallgemeinerung der Umkehrformel für Zufallsgrößen X, deren endlicher Wertebereich auch nicht ganzzahlige Zahlen umfassen kann, erhält man, wenn man das Integrationsintervall immer weiter vergrößert. Integriert man nämlich über ein langes Intervall der Form [–T, T ], dann verschwindet das Integral über die darin enthaltenen Teilintervalle der Form [–?k/|u–v|, ?k/|u–v|] mit ganzzahligem Wert k, da die Funktion ei (u–v)t periodisch ist mit der Periode 2?/|u–v|: Diese Umkehrformel ist auch dann an- wendbar, wenn die charakteristische Funktion – etwa bei der Bildung umfangreicher Summen von voneinander unabhängigen Zufallsgrößen – nur in Form einer Approximation bekannt ist. In einem solchen Fall kann die Umkehrformel dazu verwendet werden, die Wahrscheinlichkeitsverteilung mit einer dieser Approximationsgenauigkeit entsprechenden Abweichung näherungsweise zu bestimmen. Übrigens stehen die zu Beginn des Exkurses erwähnten Momente ei- ner Zufallsgröße in einer engen Beziehung zu deren charakteristischer Funktion. Um dies zu zeigen, muss man nur die charakteristische Funktion als Potenzreihe entwickeln. Dabei erkennt man die Momente als wesentlichen Bestandteil der Potenzreihe-Koeffizienten: Um aus der für zwei unabhängige Zufallsgrößen X und Y gültigen Rechenregel??X+Y = ?X ?Y wieder eine additive Gesetzmäßigkeit zu erhalten, wie sie für Erwartungswert und Varianz gilt, bietet es sich an, die Funktion ln(?X(t)) = ln E(eitX ) zu betrachten, die auch als kumulantenerzeugende Funktion bezeichnet wird. Entwickelt man nun auch diese Funktion als Potenzreihe , erhält man als Koeffizienten die sogenannten Kumulanten ?k(X):

Die Eigenschaft der Additivität bei unabhängigen Zufallsgrößen X und Y überträgt sich natürlich von der kumulantenerzeugenden Funktion auf die (als Koeffizienten der Potenzreiche eindeutig bestimmten) Kumulanten. Damit gelten die drei folgenden Rechenregeln: für k ? 1 und unabhängige Zufallgrößen X und Y sowie für k ? 2 und reelle Zahlen a und b. Aufgrund dieser „schönen", auf jeden Fall äußerst praktischen, Rechengesetze wundert es kaum, dass sich unter den Kumulanten – manchmal auch als Semi-Invarianten XE „Semi-Invariante einer Zufallsgröße" bezeichnet – „gute Bekannte" wiederfinden : Für die nächsten beiden Kumulanten erhält man übrigens die folgenden Formeln zur konkreten Berechnung: Wichtiger als solche konkreten Formeln ist allerdings die prinzipielle Bedeutung: Mit der charakteristischen Funktion beziehungsweise den Kumulanten erfährt die Verteilung einer Zufallsgröße eine vollständige Charakterisierung durch Kenngrößen, die sich rechentechnisch einfach handhaben lassen. Dies zeigt sich insbesondere im Fall einer Folge von identisch verteilten, voneinander unabhängigen Zufallsgrößen X = X1, X2, X3, ..., für die sich die folgenden Identitäten ergeben:

Somit konvergieren diese Kumulanten für k ? 3 bei wachsender Versuchsreihenlänge n gegen den Wert 0. Aufgrund der Umkehrformel kann man daher hoffen, dass die zugehörigen Verteilungen bei wachsender Versuchsanzahl n ein Grenzverhalten zeigen, das weitgehend unabhängig ist von der Verteilung der Zufallsgröße X. Aufgaben 1. Zeigen Sie: Sind X und Y zwei unabhängige Zufallsgrößen sowie f und g zwei stetige Funktionen f, g: R ? R, so sind auch die transformierten Zufallsgrößen f(X) und g(X) voneinander unabhängig. 2. Für eine Zufallsgröße X, die nur ganze, nicht negative Werte annimmt, lässt sich die sogenannte erzeugende Funktion definieren. Zeigen Sie, dass sich mit Hilfe von Ableitungen die gesamte Vertei- lung der Zufallsgröße X, das heißt alle Werte P(X = k ), aus der Funktion gX berechnet werden können. Beweisen Sie außerdem für zwei unabhängige Zufallsgrößen X und Y die Gleichung . Lässt sich aus der erzeugenden Funktion die charakteristische Funktion berechnen? 3. Beweisen sie mittels einer direkten Berechnung für die dritte und vierte Kumulante das Additionsgesetz für unabhängige Zufallsgrößen. 4. Leiten Sie die in Aufgabe 3 verwendeten Formeln für die dritte und vierte Kumulante auf dem in Fußnote 16 beschriebenen Weg her. 5. Es werden drei symmetrische Würfel untersucht, die abweichend vom Standard mit den Zahlen 5-7-8-9-10-18, 2-3-4-15-16-17 beziehungsweise 1-6-11-12- 13-14 beschriftet sind. Zeigen Sie, dass es unter diesen drei Würfeln keinen bes- ten Würfel gibt. Konkret: Zu jedem der drei Würfel gibt es einen anderen, der im direkten Vergleich mit der Wahrscheinlichkeit 21/36 ein höheres Ergebnis liefert. 6. Bestimmen Sie die Wahrscheinlichkeitsverteilung, die sich für die Summe von drei Würfelergebnissen ergibt. Berechnen Sie dann daraus den Erwartungswert sowie die Varianz. Überprüfen Sie Ihr Ergebnis dadurch, dass Sie diese beiden Kenngrößen direkt aus den Daten für einen einzelnen Würfelwurf berechnen. 7. Bei einem Würfelspiel mit zwei Würfeln gewinnt man die doppelte Würfelsumme, sofern mindestens ein Würfel eine Vier zeigt. Andernfalls verliert man die einfache Würfelsumme. Ist das Spiel attraktiv? Wie hoch ist der Erwartungswert?

2.5 Ursache, Wirkung und Abhängigkeiten bei Zufallsgrößen

Wie lässt sich bei Zufallsgrößen, die nicht voneinander unabhängig sind, die Abhängigkeit quantitativ charakterisieren? Was eine „Abhängigkeit" von zwei oder mehr Zufallsgrößen ist, haben wir streng genommen überhaupt nicht definiert. Aber natürlich wollen wir diesen Begriff einfach als Negation der (stochastischen) Unabhängig- keit verstehen: Bekanntlich werden zwei auf Basis des gleichen Zufalls- experimentes definierte Zufallsgrößen X und Y genau dann als unab- hängig bezeichnet, wenn jedes Ereignis, das sich auf den Wert der Zufallsgröße X bezieht, unab- hängig ist zu jedem Ereignis, das sich auf den Wert der Zufallsgröße Y bezieht. Für beliebige reelle Zahlen s und t müssen also insbesondere die beiden Gleichungen erfüllt sein. Dass der Begriff der Unabhängigkeit eine so große Rolle in der Wahrscheinlichkeitsrechnung und Statistik spielt, liegt daran, dass sich in der Praxis eine solche Unabhängigkeit immer dann ergibt, wenn die Werte von Zufallsgrößen ohne kausale Verbindung zueinander „ausgewürfelt" werden . Diese Erfahrungstatsache ermöglicht es uns umgekehrt, eine stochastische Abhängigkeit als Indiz für die Existenz einer – wie auch immer im Detail gearteten – kausalen Beziehung zu werten. Ein typisches Szenario der angewandten Statistik, das eine solche Fragestellung untersucht, hat zwei Merkmalswerte X und Y zum Gegenstand, die für die Mitglieder einer zufällig ausgewählten Stichprobe erfasst werden. Dabei gesucht sind Erkenntnisse darüber, ob eine kausale Verbindung zwischen den beiden betreffenden Eigenschaften besteht oder nicht – zweifelsohne ein Hauptanliegen exakter Wissenschaften überhaupt. Konkret: Lassen sich Ursache-Wirkungs-Beziehungen finden, die beide Eigenschaften miteinander verbinden? Dass dazu Begriffsbildungen, Methodik und Interpretation zweifelsfrei fundiert sein müssen, wird spätestens dann klar, wenn politisch und ökonomisch höchst brisante Untersuchungen anstehen, das heißt, wenn zum Beispiel X(? ) für die Entfernung des Wohnortes einer untersuchten Person ? zum nächsten Kernkraftwerk steht und Y eine zweiwertige 0-1-Zufallsgröße ist, bei welcher der Wert Y(? ) = 1 für eine Leukämie-Erkrankung steht. Könnte zwischen zwei solchen Zufallsgrößen X und Y eine Abhängigkeit, etwa in Form einer Verletzung des Multiplikationsgesetzes E(X )·E(Y ) = E(XY ), nachgewiesen werden, so wäre dies ein gewichtiges Indiz für eine bestehende kausale Verbindung. Es muss aber mit allem Nachdruck vor unzulässigen Schlüssen gewarnt werden , wie wir es auch schon in Kapitel 2.3 getan haben – dort ohne Verwendung der Terminologie von Zu- fallsgrößen mit direktem Bezug auf Ereignisse: ? Zunächst darf aus der stochastischen Unabhängigkeit von zwei Zufallsgrößen keinesfalls darauf geschlossen werden, dass keine kausale Beeinflussung zwischen ihnen existiert: Wertet man beispielsweise bei einer Summe von zwei geworfenen Würfelergebnissen nur den Rest, der entsteht, wenn diese Summe durch 6 geteilt wird, dann ist jedes der beiden Wurfergebnisse sto- chastisch unabhängig zum Gesamtergebnis, obwohl offensichtlich ein kausaler Einfluss besteht. Allerdings wirkt dieser kausale Einfluss nur ungezielt, so dass er in Bezug auf die bedingten Wahrscheinlichkeiten ohne Wirkung bleibt. * Außerdem ist eine stochastische Abhängigkeit anders als ein kausaler Einfluss, dem eine chronologische Reihenfolge für Ursache und Wirkung zugrunde liegt, nicht gerichtet: In einer Grundgesamtheit erwachsener Menschen wird für ein zufällig ausgewähltes Mitglied dessen Körpergröße sowie der Durchschnitt der Körpergrößen der beiden Eltern ermittelt. Die beiden so definierten Zufallsgrößen sind voneinander abhängig. Aufgrund genetischer Einflüsse ist sogar von einer kausalen Beeinflussung auszugehen, aber natürlich nur in Richtung von den Eltern zu den Kindern. Dagegen besteht die stochastische Abhängigkeit aufgrund der symmetrischen Definition in einer ungerichteten, also quasi beidseitigen Form. * Eine stochastische Abhängigkeit ist zwar ein Indiz für eine kausale Verbindung, nicht aber ein Nachweis für eine direkte, unmittelbar wirkende Kausalität. Das heißt, eine ursächliche Wirkung muss weder in der einen noch in der anderen Richtung vorliegen: Unter Rückgriff auf einen bereits in Kapitel 2.3 erörterten Sachverhalt definieren wir für ein zufällig ausgewähltes Mitglied ? einer gegebenen Grundgesamtheit erwachsener Personen die Zufallsgröße X(? ) durch die Körpergröße in Zentimetern und die Zufallsgröße Y als zweiwertige 0-1-Zufallsgröße, bei welcher der Wert Y(? ) = 1 eine bestehende Schwangerschaft kennzeichnet. Die Tatsache, dass Männer durchschnittlich größer werden als Frauen, zieht eine Abhängigkeit der beiden Zufallsgrößen nach sich, ohne dass es eine direkte kausale Wirkung in einer der beiden Richtungen gibt. Vielmehr existiert ein Merkmal, nämlich das Geschlecht, das die Wahrscheinlichkeitsverteilungen beider Zufallsgrößen kausal beeinflusst. Auch sonst kann eine bestimmte Form einer Kausalität nie ausschließlich mit statistischen Methoden nachgewiesen werden. Zur Detektierung von Ursache und Wirkung bedarf es immer auch einer inhaltlichen Interpretation. * Schließlich ist noch darauf hinzuweisen, dass zwar für zwei unabhän- gige Zufallsgröße X und Y stets das Multiplikationsgesetz E(X )*E(Y ) = E(XY) gilt, dass aber umgekehrt nicht aus der Gültigkeit dieser Gleichung auf die Unabhängigkeit der beiden Zufallsgrößen geschlossen werden darf: Definiert man zwei Zufallsgrößen X und Y durch und Y = X 2, dann ist obwohl die beiden Zufallsgrößen wegen nicht unabhängig voneinander sind. Bereits die wenigen angeführten Beispiele zeigen, wie wichtig es ist, die Abhängigkeit von Zufallsgrößen beschreiben zu können. Dabei wünschenswert sind sowohl quantitative Kenngrößen als auch qualitative Beschreibungen für Größenbeziehungen zwischen Zufallsgrößen. In Bezug auf den zweiten Punkt erinnern wir uns daran, dass viele naturgesetzliche Beziehungen zwischen Größen, die nicht dem Zufall unterworfen sind, durch Formeln charakterisiert werden. Beispielsweise besagt das dritte Kepler'sche Gesetz , dass sich die Quadrate der Umlaufzeiten der Planeten eines Sonnensystems wie die Kuben der Halbachsen der ellipsen- förmigen Umlaufbahn verhalten. Die beiden Größen Umlaufzeit und Halbachse stehen also in einer festen Abhängigkeit zueinander, während die Masse eines Planeten – zumindest im Rahmen der vom dritten Kep- ler'schen Gesetz abgedeckten Genauigkeit – keine Rolle spielt. Andere kausale Einflüsse offenbaren sich in Form affin linearer Beziehungen, die in einem Koordinatensystem einer Gerade entsprechen. Man denke nur an die Betriebskosten eines bestimmten Autos, die sich im Wesentlichen aus den Fixkosten für Abschreibung, Steuer und Versicherung sowie aus einem zur gefahrenen Kilometerzahl proportionalen Betrag zusammensetzen. Auch die Relation zwischen Gewicht und Körpergröße bei Menschen folgt ungefähr einer solchen Geradengleichung: Messen wir bei jedem Mitglied der Grundgesamtheit erwachsener Männer die Größe X in Zentimetern und das Körpergewicht Y in Kilogramm, so werden wir mutmaßlich für das Gewicht eine im Einzelfall mit Abweichungen behaftete Abhängigkeit zur Körpergröße finden, die ungefähr der Faustregel „Körpergröße minus 100 plus 10%" entspricht – als Formel Y = 1,1(X – 100) = 1,1X – 110. Im Koordinatenkreuz entspricht diese Formel geometrisch einer Geraden, in deren Nähe sich die meisten Messpunkte (X(? ), Y(? )) befinden, das heißt, Abweichungen sind meist klein. Sie können ihre Ursache haben in messtechnisch nicht erfassten Parametern wie zum Beispiel im Körperumfang oder in der Zusammensetzung des Körpergewebes. Möglich ist aber auch, dass der Gesetzmäßigkeit in Wahrheit eine kompliziertere, nicht-lineare Formel zugrunde liegt. Die bisherigen Beispiele für Größenbeziehungen – drittes Kepler'sche Gesetz, Betriebskosten eines Autos, Körpergewicht bei Menschen – haben zunächst nichts mit Zufall zu tun. Zumindest scheint es so. Allerdings würde eine empirische Prüfung des dritten Kepler'schen Gesetzes unweigerlich mit Messfehlern behaftet sein, deren Charakter zufallsähnlich ist. Möglich ist auch eine Zufälligkeit auf einer rein subjektiven Basis, wenn unbeobachtet gebliebene Einflussfaktoren eine Rolle spielen. Einen objektiv zufälligen Charakter erlangen solche Störeinflüsse, wenn es zu einer empirischen Messung auf Basis einer zufälligen Stichprobenauswahl kommt. Diese Überlegungen zeigen, dass die Suche nach Formeln, die einen für Zufallsgrößen geltenden Trend wiedergeben, auch für den Bereich deterministischer Beziehungen wichtig ist. Die Approximation eines für Zufallsgrößen vorliegenden Trends wollen wir uns zunächst an einem Beispiel ansehen. Wir führen drei voneinander unabhängige 1:1-Münzwürfe durch und bezeichnen mit X die Anzahl der „Zahl"-Ereignisse in den ersten beiden Würfen und mit Y die Gesamtzahl der in allen drei Würfen erzielten „Zahl"-Ereignisse. Wegen sind diese beiden Zufallsgrößen voneinander abhängig. Die zwischen den beiden Zufallsgrößen bestehende Beziehung wird offensichtlich durch die Formel Y = X + D beschrieben, wobei D eine 0-1-Zufallsgröße ist, die genau dann den Wert 1 annimmt, wenn der dritte Wurf das „Zahl"-Ergebnis liefert. Eine Geradengleichung, welche sich ausschließlich nur auf die Werte der beiden Zufallsgrößen X und Y bezieht, erhält man, wenn man die Zufallsgröße D durch ihren Erwartungswert E(D) = 0,5 ersetzt. Auf diese Weise ergibt sich die Gleichung welche die beste Beschreibung des Trends darstellt, der die beiden Zufallsgrößen X und Y miteinander verbindet (siehe Bild 15). Bild 15 Die sechs Punkte entsprechen der gemeinsamen Wahrscheinlichkeitsverteilung der beiden durch die drei Münzwürfe bestimmten Zufallsgrößen X und Y. Ebenfalls dargestellt ist die Gerade, die den gemeinsamen Trend am besten widerspiegelt. Dass nicht eine andere Geradengleichung wie zum Beispiel den Trend besser beschreibt, lässt sich auch formal charakterisieren. Im Fall der erstgenannten Geradengleichung erreicht nämlich der mit "zufällige Abweichung" bezeichnete Fehlerterm sein „minimales Ausmaß". Damit ist gemeint, dass diese Zufallsgröße charakterisiert ist durch ? einen Erwartungswert 0 und ? eine minimale Varianz. Bild 16 Zwei Trendgeraden zum Paar der bereits in Bild 15 dargestellten Zufallsgrößen. Links dargestellt ist die Regressionsgerade von Y bezüglich X, rechts eine willkürlich gewählte andere Gerade. Die Approximation einer Trendgeraden Y = aX + b ist umso besser, je kleiner der Erwartungswert E((Y – aX – b)2) ist. Das Achtfache dieses Wertes ist gleich den grau dargestellten Flächen, von denen jede einem Paar möglicher Werte entspricht: Zu jedem Wertepaar wird das Quadrat des vertikalen Abstands zur Geraden gebildet, wobei im Fall einer Wahrscheinlichkeit von 1/4 das Quadrat verdoppelt werden muss. Da wir wussten, wie die beiden gerade untersuchten Zufallsgrößen X und Y konstruiert worden waren, war die angegebene Trendgleichung fast offensichtlich. In der Praxis müssen Trends zwischen Zufallsgrößen natürlich meist ohne ein solches Hintergrundwissen aufgespürt werden. Bekannt ist dann nur – und das gegebenenfalls auch nur annähernd aufgrund einer Stichprobenerhebung – die gemeinsame Wahrscheinlichkeitsverteilung der beiden Zufallsgrößen X und Y, also die Gesamtheit der Wahrscheinlichkeiten der Form P(X = s und Y = t ) beziehungsweise P(X ? s und Y ? t ). Darauf basierend gesucht ist dann unter allen Gera- dengleichungen diejenige Trendbeschreibung, die „am besten passt". Konkret gesucht sind die zugehörigen Konstanten a und b. Dabei ist für das untersuchte Beispiel, wie in Bild 15 dargestellt, bereits intuitiv klar, dass Y = X + 0,5 die Geradengleichung ist, die den Trend am besten wiedergibt: a = 1 und b = 0,5. Wie gut eine durch die Parameter a und b festgelegte Geradengleichung einen gegebenenfalls bestehenden Trend widerspiegelt, lässt sich allgemein durch eine Untersuchung von derjenigen Zufallsgröße feststellen, die den Approximationsfehler widerspiegelt:

Je enger die Zufallsgröße D um den Nullpunkt konzentriert ist, desto besser ist die Approximation. Daher versuchen wir konkret, den Erwartungswert E(D2) zu minimieren, was zu einer elementar lösbaren Optimierungsaufgabe führt. Unter Verwendung der sogenannten Kovarianz XE „Kovarianz" kann nämlich das folgende Resultat formuliert werden: Die von den Parametern a und b abhängende Funktion E(D2) = E((Y – aX – b)2) erreicht ihr Minimum für die beiden als Regressionskoeffizienten bezeichneten Werte und . Dabei wird b wird auch Regressionskonstante genannt. Die durch die angeführten Werte a und b beschriebene Approximationsgerade wird als Regressionsgerade von Y bezüglich X bezeichnet. Aufgrund des Multiplikationsgesetzes für unabhängige Zufallsgrößen XE „Multiplikationsgesetz für unabhängige Zufallsgrößen" ist die Kovarianz für zwei unabhängige Zufallsgröße X und Y stets gleich 0. Die Umkehrung gilt natürlich nicht, weil – wie schon dargelegt – die Gleichung E(X )?E(Y ) = E(XY ) auch für nicht unabhängige Zufallsgrößen erfüllt sein kann. Insbesondere ist damit die Bedingung Cov(X,Y) = 0 kein Nachweis für die Unabhängigkeit. Zum Zweck einer sprachlichen Differenzierung nennt man die beiden Zufallsgrößen X und Y im Fall von Cov(X,Y) = 0 unkorreliert. Als Maß dafür, wie stark ein Paar von Zufallsgrößen (X, Y) die Eigenschaft der Unkorreliertheit verletzt, hat sich der sogenannte Korrelationskoeffizient bewährt. Der Korrelationskoeffizient ist für alle Zufallsgrößen X und Y mit nicht entarteten Verteilungen, das heißt für Var(X )·Var(Y ) ? 0, in einer in Bezug auf X und Y symmetrischen Weise definiert. Sein Wert bleibt bei einer affin linearen Transformation der beiden Zufallsgrößen unverändert, also beispielsweise beim Übergang von X zu X ' mit X = cX ' + d und c > 0. Der Betrag eines Korrelationskoeffizienten kann maximal gleich 1 sein . Wegen Cov(X, X) = Var(X) handelt es sich bei der Kovarianz um eine Verallgemeinerung der Varianz. Im hier ausschließlich betrachteten Fall, dass die Zufallsgrößen X und Y endliche Wertebereiche besitzen, erhält man für die Kovarianz die explizite Formel.

Aus dieser Formel ist nun ersichtlich, wie die Kovarianz durch die ge- meinsame Wahrscheinlichkeitsverteilung der beiden Zufallsgrößen X und Y beeinflusst wird: Ein Ereignis, bei dem beide Zufallsgrößen X und Y gemeinsam ihren jeweiligen Erwartungswert überschreiten, bewirken eine Erhöhung der Kovarianz. Gleiches gilt für gemeinsame Unterschreitun- gen des jeweiligen Erwartungswertes. Hingegen verringern gegenläufige Über- und Unterschreitungen den Wert der Kovarianz bis hin in den Bereich der negativen Zahlen. Auch wenn die Kovarianz und der Korrelationskoeffizient in Bezug auf die Zufallsgrößen X und Y symmetrisch definiert sind, so galt das nicht für die ursprüngliche Problemstellung, das heißt die Suche nach einer af- fin linearen Trendcharakterisierung Y = aX + b + D mit einem möglichst kleinen Erwartungswert E(D2). In Bezug auf diese nicht-symmetrische Behandlung der beiden Zufallsgrößen X und Y ist der Wert des Korrelationskoeffizienten ein Maß dafür, wie gut, das heißt wie genau und wie sicher, sich die Werte der Zufallsgröße Y durch die Werte der Zufallsgröße X mittels einer affin linearen Transformation aX + b prognostizieren lassen. Dies liegt daran, dass die Kenngröße die Güte einer bestmöglichen Approximation durch eine Geradengleichung Y = aX + b charakterisiert, wobei ein Wert nahe 0 für eine gute Approximationsmöglichkeit steht. Aus den Überlegungen in Fußnote 21 geht nun hervor, dass die gerade definierte Kenngröße immer zwischen 0 und 1 liegt und gleich ist. Ist dieser Ausdruck gleich 1, so spiegelt das den Fall wider, in dem keine affin lineare Approximation möglich ist. Bild 17 Graphisch dargestellt sind die gemeinsamen Wahrscheinlichkeitsverteilungen von je zwei Zufallsgröße X und Y, wobei eine Gleichverteilung für die abgebildeten Punkte unterstellt wird : Die beiden im zweiten Diagramm dargestellten Zufallsgrößen sind voneinander unabhängig. Das dritte Diagramm zeigt ein unkorreliertes Paar. Beim ersten Diagramm ist r(X, Y) = –1, beim vierten Diagramm ist r(X, Y) = 0,777, und für das fünfte Diagramm gilt r(X, Y) = 1. Eine Skalierung bei den Diagrammen wurde weggelassen, da die Korrelationskoeffizienten skalierungsinvariant sind. Wir beziehen nun die maximal erreichbare Approximationsgüte direkt auf den Korrelationskoeffizienten r(X, Y) statt auf 1 – r(X, Y)2. Dabei ergibt sich das folgende Bild: ? Für unkorrelierte – und damit insbesondere auch für alle voneinander unabhängige – Zufallsgrößen X und Y ist wegen r(X, Y) = 0 überhaupt keine affin lineare Approximation möglich . ? In den beiden anderen Extremfällen mit r(X, Y) = 1 beziehungsweise r(X, Y) = –1 sind affin lineare Approximationen ohne jegliche zufallsbedingte Störung möglich. Bild 18 Schematische Darstellung, welche Beziehungen zwischen zwei Zufallsgrößen X und Y möglich sind. Bei den fünf beispielhaft dargestellten Wahrscheinlichkeitsverteilungen wird eine Gleichverteilung für die abgebildeten Punkte unterstellt. Speziell für das mittlere Beispiel der rechten Seite ist ohne Kenntnis der Definition der beiden Zufallsgrößen keine genaue Zuordnung möglich: Einerseits denkbar sind kausal unbeeinflusste Zufallsgrößen wie bei zwei Würfelergebnissen. Ande- rerseits kann aber auch eine ungerichtet wirkende Beeinflussung vorliegen wie beim schon erörterten Beispiel eines Würfelergebnisses und der mit einem anderen Würfelergebnis gebildeten Summe, wobei nur der bei der Division durch 6 entstehende Rest berücksichtigt wird. Der auch als Bestimmtheitsmaß bezeichnete Wert r(X, Y)2 ist daher ein Maß dafür, wie gut, das heißt wie genau und wie sicher, eine der beiden Zufallsgrößen aus der anderen mittels einer affin linearen Transformation berechnet werden kann. Graphisch dargestellte Beispiele zu verschiedenen Werten des Korrelationskoeffizienten findet man in Bild 17. Fassen wir zusammen: ? Eine auch Korrelationsanalyse genannte Bestimmung und Auswertung des Korrelationskoeffizienten liefert wertvolle Hinweise auf kausale Beziehungen zwischen den beiden untersuchten Zufallsgrößen. Es muss allerdings betont werden, dass allein mit der Berechnung solcher Parameter kein direkter kausaler Einfluss und schon gar keine Richtung für einen solchen kausalen Einfluss nachgewiesen werden kann. So ist es beispielsweise möglich, dass eine festgestellte Korrelation zwischen zwei Zufallsgrößen dadurch zustande kommt, dass beide Zufallsgrößen ursächlich durch weitere, als Hintergrund-Variablen bezeichnete Größen gemeinsam beeinflusst werden. Dies zu beurteilen, ist nur inhaltlich innerhalb des konkreten Anwendungsfalles möglich. ? Der Korrelationskoeffizient r(X, Y) ist ein Maß dafür, wie gut die größenmäßige Beziehung zwischen den Werten der zwei Zufallsgrößen X und Y mit einer Geradengleichung, charakterisiert werden kann. Dabei spiegelt sich eine ausnahmslos affin lineare Beziehung zwischen den beiden Zufallsgrößen in den Werten –1 oder 1 des Korrelationskoeffizienten wider. Da die Definition des Korrelationskoeffizienten die beiden Zufallsgrößen X und Y symmetrisch berücksichtigt, macht der Korrelations- koeffizient eine Aussage über die ungerichtete Beziehung zwischen den beiden als gleichberechtigt angesehenen Zufallsgrößen X und Y. ? Im Fall eines betragsmäßig nahe bei 1 liegenden Korrelationskoeffizienten kann die Größenbeziehung mittels einer Geradengleichung qualitativ gut charakterisiert werden, das heißt, gravierende Abwei- chungen sind relativ unwahrscheinlich. Soll die Approximation mit einer Regressionsgeraden erfolgen, muss zunächst die Symmetrie zwischen den beiden Zufallsgrößen X und Y gebrochen werden, indem man sich dafür entscheidet, welche der beiden Zufallsgrößen wertmäßig durch die Werte der anderen Zufallsgröße approximiert werden soll. Die Entscheidung zwischen beiden Alternativen fällt besonders in solchen Anwendungsfällen leicht, in denen ein kausaler Einfluss höchstens in einer Richtung stattfinden kann, da die andere Richtung bereits aufgrund der Chronologie der Ereignisse ausscheidet. Beispielsweise kann in der Genetik jeder genetische Einfluss von der Nachkommen- auf die Elterngeneration ausgeschlossen werden. Eine prinzipielle Vorstellung davon, wie zwei auf Basis desselben Zufallsexperimentes definierte Zufallsgrößen miteinander in Verbindung stehen können, vermittelt Bild 18. Zufallsvektoren und ihre Kenndaten Der Zusammenhang mehrerer Zufallsgrößen X1, …, Xn lässt sich auch dadurch untersuchen, dass man diese Zufallsgrößen als Koordinaten einer als Zufallsvektor X = (X1, …, Xn)T be- zeichneten, mehrdimensionalen Zufallsvariablen auffasst. Ein derart konstruierter Zufallsvektor kann dann mit Kenndaten, bei denen es sich um Verallgemeinerungen von Erwartungswert und Varianz handelt, charakterisiert werden. Diese Kenndaten geben dann auch den gesuchten Aufschluss über die größenmäßige Beziehung der Koordinaten. Natürlich reicht es nicht, ausschließlich nur die Kenngrößen der einzelnen Koordinaten zu berechnen – damit wäre ja nichts gewonnen, da man dann aus der vorgenommenen Konstruktion keine zusätzliche Information erhielte. Allerdings ist durchaus eine Reduktion auf den eindimensionalen Fall möglich, wenn man nicht nur die Koordinaten, sondern alle möglichen Richtungen betrachtet. Dazu untersucht man mit Techniken der Linearen Algebra alle Zufallsgrößen, die aus dem Zufallsvektor X durch ein Skalarprodukt mit einem konstanten, zeilenweise geschriebenem Richtungsvektor dT = (d1, …, dn) entstehen. So erhält man alle möglichen Linearkombinationen der Zufallsgrößen X1, …, Xn wie zum Beispiel X1 + 3X2 + 5X3 in der allgemeinen Form dT·X: Der Erwartungswert dieser Zufallsgröße dT·X ist gleich wobei für die letzte Identität der Erwartungswert E(X) des Zufallsvektors koordinatenweise definiert wird: Die Varianz der Zufallsgröße d·XT ist gleich Die am Ende der Rechnung verwendete Matrix wird Kovarianz- matrix genannt und in der Regel mit ?X bezeichnet. Die Definition der Kovarianzen von beliebigen Paaren der Zufallsgrößen X1, …, Xn erlebt auf diese Weise, diesmal ohne Bezug zu Regressionsgeraden, eine erneute Motivation. Wie schon im eindimensionalen Fall n = 1 lassen sich die Kenndaten eines affin linear transformierten Zufallsvektors Y = AX + b einfach aus denen des ursprünglichen Zufallsvektors X berechnen. Dabei sei A = (aij)i,j eine n?n-Matrix und b = (bi)i ein n-dimensionaler Vektor:

Aus diesen beiden Identitäten für die Koordinaten beziehungsweise für die Matrixkoeffizienten ergeben sich sofort die beiden Transformationsgesetzmäßigkeiten.

Aufgaben 1. Stellen Sie die Formel für die Regressionsgerade von X bezüglich Y auf und überzeugen Sie sich davon, dass dadurch in der Regel eine andere Gerade im Koordinatenkreuz beschrieben wird als durch die Regressionsgerade von Y bezüglich X. 2. Beweisen Sie für zwei Zufallsgrößen X und Y sowie zwei reelle Zahlen a und b die Formeln , 3. Beweisen Sie für Zufallsgrößen X1, ..., Xn und reelle Zahlen a1, ..., an die Summenformel . Folgern Sie für paarweise unkorrelierte Zufallsgrößen X1, ..., Xn die Formel 4. Beweisen Sie für zwei Zufallsgrößen X und Y sowie zwei reelle Zahlen a und b mit a > 0 die Formel . 5. Ein Würfel wird n-mal gewürfelt. Die dabei erzielten Häufigkeiten der sechs möglichen Ergebnisse werden mit X1, ..., X6 bezeichnet. Wie groß ist die Kovarianz Cov(Xi, Xj) zu zwei verschiedenen Würfelergebnissen i und j? Hinweis: Beginnen Sie mit dem Fall n = 1. Für n > 1 können die Häufigkeiten als Summe von n unabhängigen Zufallsgrößen dargestellt werden. 6. Francis Galton (siehe Fußnote 22) publizierte 1889 eine Untersuchung, in der die Körpergrößen von erwachsenen Menschen aus zwei aufeinanderfolgenden Generationen verglichen wurden. Demnach haben große Eltern tendenziell überdurchschnittlich große Kinder und kleine Eltern tendenziell unterdurchschnittlich große Kinder. Dabei wird der Abstand zum Mittelwert, den wir mit 1,71 m generationsübergreifend als konstant annehmen, auf durchschnittlich 2/3 des Wertes der Vorgeneration reduziert. Gesucht ist die zu diesem verbal beschriebenen Sachverhalt korrespondierende Regressionsgerade, welche die Körpergröße der Nachkommengeneration in Abhängigkeit der Elterngeneration darstellt.

2.6 Zufallsgrößen im groben Überblick

Welche Aussagen über eine Zufallsgröße können allein aus der Kenntnis von deren Erwartungswert und Standardabweichung abgeleitet werden? Wird zum Beispiel ein Würfel n-mal geworfen, so liefern diese n voneinander unabhängigen Zufallsexperimente als Würfelpunktsumme eine Zufallsgröße, die – wie wir in Kapitel 2.4 gesehen haben – den Erwartungswert 3,5·n und die Standardabweichung besitzt. Natürlich wäre es wünschenswert, daraus direkt gewisse Aussagen über die Wahrscheinlichkeitsverteilung der Würfelpunktsumme beziehungsweise der durchschnittlichen Wurfhöhe herleiten zu können. Konkret könnte man beispielsweise danach fragen, ob bei n = 5000 Würfen eine durchschnittliche Wurfhöhe von über 3,9 als de facto völlig unwahrscheinlich ausgeschlossen werden kann. Wir gehen dazu von einer beliebigen Zufallsgröße X aus und schauen uns an, welche Konsequenzen es hat, wenn große Abweichungen der Zufallsgröße X zu ihrem Erwartungswert E(X ) auftreten. Konkret geben wir einen Abstand ? > 0 vor, um dann die Wahrscheinlichkeit zu untersuchen, dass die Zufallsgröße X um mindestens ? vom Erwartungswert E(X ) abweicht: Wenn wir nun ausgehend von den Werten x1, x2, ..., xn, welche die Zufallsgröße X annehmen kann, die Varianz berechnen, so erhalten wir allein durch die Summanden zu xi mit |xi – E(X)| ? ? einen Mindestwert für die Varianz:

Dividieren wir beide Seiten durch ? 2, so erhalten wir in Abhängigkeit der Varianz eine obere Schranke für die Wahrscheinlichkeit p, dass solche Abweichungen auftreten:

Eine geringfügig andere Form dieser Aussage erhält man, wenn man die Abweichung ? als Vielfaches der Standardabweichung ?X ausdrückt. So ergibt sich für ? = k?X :

Diese nach Pafnuti Lwowitsch Tschebyschow benannte Ungleichung von Tschebyschow (1821-1894) beinhaltet Obergrenzen da- für, wie wahrscheinlich es höchstens sein kann, dass der Wert einer Zufallsgröße X von ihrem Erwartungswert E(X) eine vorgegebene Abweichung übersteigt. Insbesondere kann zum Beispiel eine Abweichung von mindestens der zweifachen Standardabweichung höchstens mit der Wahrscheinlichkeit 1/4 auftreten (k = 2). Und eine Abweichung, die mindestens die dreifache Standardabweichung erreicht, kann sogar nur mit der Wahrscheinlichkeit von höchstens 1/9 auftreten (k = 3). Anzumerken bleibt, dass die Ungleichung von Tschebyschow für kleine Werte k ? 1 keine nicht-trivialen Aussagen liefert. Auch wenn die Aussagen der Ungleichung von Tschebyschow nur sehr grob sind, so kann die zu Beginn dieses Kapitels aufgeworfene Frage doch bereits beantwortet werden: Bei 5000 Würfelversuchen ergibt sich ein Erwartungswert von 5000?3,5 = 17500 und eine Standardabweichung von . Folglich kann bei den 5000 Würfen eine durchschnittliche Wurfhöhe von 3,9 entsprechend einer Gesamtzahl von 5000?3,9 = 19500 Würfelpunkten praktisch kaum eintreten: Denn diese Differenz zum Erwartungswert in Höhe von 5000?0,4 = 2000 Würfelpunkten entspricht der 16,56-fachen Standardabweichung, so dass die Wahrscheinlichkeit für eine solche oder noch größere Abweichung höchstens 1/16,562 = 0,0036 betragen kann. Übrigens ist die Wahrscheinlichkeit in Wahrheit sogar noch viel geringer. Wie sich diese Wahrscheinlichkeit mit einfachen Berechnungen ungefähr bestimmen lässt, werden in Kapitel 2.9 erörtern. Obwohl die mit der Ungleichung von Tschebyschow erhaltenen Aussagen oft nur sehr grob sind, wollen wir die gerade für eine Versuchsreihe von 5000 Würfelversuchen gemachte Argumentation auch noch allgemein darlegen: Sind X = X1, X2, ... Xn voneinander unabhängige, identisch verteilte Zufallsgrößen, dann entspricht der in der Versuchsreihe ermittelte Durchschnittswert der Zufallsgröße . Diese Zufallsgröße besitzt den Erwartungswert sowie die Varianz . Mittels der Ungleichung von Tschebyschow erhält man daher die Aussage .

Wie schon im Fall der in 5000 Versuchen ermittelten Würfelsumme kann mit dieser Ungleichung die Wahrscheinlichkeit für Abweichungen, die zwischen dem in der Versuchsreihe ermittelten Durchschnitt und dem Erwartungswert E(X ) auftreten, nach oben abgeschätzt werden. Offensichtlich wird dabei die einen vorgegebenen Wert ? übersteigende Abweichung mit länger werdender Versuchsreihe immer unwahrscheinlicher. Aufgaben 1. Geben Sie mit Hilfe der Ungleichung von Tschebyschow ein Intervall der Form [E(X) – t, E(X) + t] an, welches einen Wert der Zufallsgröße X mit der Wahrscheinlichkeit von 0,50 enthält. Konstruieren Sie entsprechende Intervalle zu den Wahrscheinlichkeiten 0,90; 0,95 und 0,99. 2. Ein Astragal, ein in der Antike zum Würfeln verwendeter Tierknöchel, kann auf vier Seiten zum Liegen kommen. Aufgrund seiner unsymmetrischen Form sind die Wahrscheinlichkeiten dafür unbekannt. Ein Exemplar eines Astragals wird daher 10.000-mal geworfen, und es wird gezählt, wie oft die vier möglichen Ergebnisse eintreten. Die dabei gemessenen relativen Häufigkeiten sollen als Schätzung für die unbekannten Wahrscheinlichkeiten verwendet werden. Geben Sie für den gemachten Fehler eine obere Grenze an, der in Bezug auf eine fest ausgewählte Seite höchstens mit einer Wahrscheinlichkeit von 0,01 überschritten wird.

2.7 Das Gesetz der großen Zahlen

Kann ein Würfel, mit dem in 6000 Würfen nur 700 Sechsen erzielt werden, noch als symmetrisch gelten?

Bei der Erläuterung des Begriffes der Wahrscheinlichkeit haben wir an die Erfahrungstatsache eines Gesetzes der großen Zahlen angeknüpft. Konkret haben wir uns von der Vorstellung leiten lassen, dass die Wahrscheinlichkeit eines Ereignisses der empirisch im Rahmen von Versuchsreihen messbare Wert ist, auf den sich die relativen Häufigkeiten des zu messenden Ereignisses trendmäßig hinbewegen. Basierend auf dieser Idee haben wird dann grundlegende Gesetzmäßigkeiten für Wahrscheinlichkeiten formuliert, mit denen ein mathematisches Modell zur Behandlung solcher Wahrscheinlichkeiten erstellt wurde. In speziellen Fällen, in denen die Ereignisse des Zufallsexperimentes wie beim Wurf eines idealen Würfels Symmetrien erkennen ließen, wurde dieses Modell flankiert durch spezielle Annahmen über die Symmetrie der Wahrscheinlichkeiten. Wie in genereller Hinsicht am Ende des ersten Teiles erläutert (siehe Bild 4, Seite 15) kann ein solches mathematisches Modell nachträglich nur dann seine Rechtfertigung erhalten, wenn es imstande ist, empirisch beobachtbare Phänomene zu erklären. Dazu gehört beim Modell für Wahrscheinlichkeiten natürlich in erster Linie die Erfahrungstatsache des Gesetzes der großen Zahlen. Und tatsächlich kann dieses Gesetz der großen Zahlen mit den Formeln erklärt werden, die wir bereits aus den Grundannahmen des mathematischen Modells hergeleiteten haben. Wir haben dazu den Trend innerhalb einer Versuchsreihe zu untersuchen, in dem ein Zufallsexperiment unabhängig wiederholt wird. Konkret gehen wir von einem Zufallsexperiment aus, bei dem ein Ereignis A eintreten kann. Pas- send dazu kann man dann eine Zufallsgröße X definieren, die genau dann gleich 1 ist, wenn das Ereignis A eintritt und ansonsten gleich 0 ist. Führt man nun eine Versuchsreihe durch, in der das dem Ereignis A zugrunde liegende Zufallsexperiment unabhängig voneinander n-mal wiederholt wird, so lassen sich die dabei beobachtbaren Ereignisse durch n Zufallsgrößen X1, X2, ..., Xn beschreiben: Dabei weisen wir der Zufallsgröße Xk genau dann den Wert 1 zu, wenn das Ereignis A im k-ten Einzelexperiment eintritt. Andernfalls soll der Wert von Xk gleich 0 sein. Die relative Häufigkeit RA,n, mit der das Ereignis A innerhalb der n Versuche eintritt, ergibt sich damit durch die Gleichung . Eine Analyse dieser Zufallsgröße beginnt mit einer Untersuchung der einzelnen Summanden: Mit den Additionsformeln für Erwartungswert und Varianz können wir nun deren Werte für die relative Häufigkeit RA,n bestimmen. Ohne Einschränkung gültig ist die Additionsformel für Erwartungswerte. Daher gilt E(RA,n) = p. Bei der Varianz ist die entsprechende Additionsformel anwendbar, weil die summierten Zufallsgrößen voneinander unabhängig sind:

Damit erhält man nun – wie schon zum Abschluss des letzten Kapitels – mit Hilfe der Ungleichung von Tschebyschow eine Aussage darüber, wie wahrscheinlich es höchstens ist, dass die relative Häufigkeit stark von der Wahrscheinlichkeit p des Ereignisses A abweicht:

Um die Interpretation noch etwas zu erleichtern, werden wir die Ungleichung in zweierlei Hinsicht modifizieren. Zunächst gilt für jede beliebige Wahrscheinlichkeit p stets p(1 – p) ? ¼. Au- ßerdem wird die maximale Abweichung ? mittels mit der Länge der Versuchsreihe sukzessive verkleinert. Man erhält dann: . Da in dieser letzten Ungleichung bei wachsender Versuchsreihenlänge n beide Brüche beliebig klein werden, erkennt man sofort, dass bei genügendem Fortschreiten der Versuchsreihe jede vorgegebene positive Abweichung zwischen relativer Häufigkeit RA,n und der Wahrscheinlichkeit p beliebig unwahrscheinlich wird. Man spricht in einem solchen Fall auch von einer stochastischen Konvergenz der relativen Häufigkeit RA,n gegen die Wahrscheinlichkeit p. Dies ist – nun aber in einer präzisen Formulierung – genau der Trend, den wir als Gesetz der großen Zahlen XE „Gesetz der großen Zahlen" bezeichnet haben und als empirisch beobachtbare Erfahrungstatsache zur Grundlegung unserer Überlegungen verwendet haben. Wichtig dabei ist, dass die nun erkannte stochastische Konvergenz letztlich einzig auf der Basis der grundlegenden Gesetzmäßigkeiten für Wahrscheinlichkeiten hergeleitet wurde, wobei maßgeblich die für unabhängige Zufallsexperimente gültigen Gesetzmäßigkeiten verwendet wurden. Erstmals wurden solche Zusammenhänge durch Jakob Bernoulli um 1690 erkannt. In seinem erst postum 1713 veröffentlichten Werk Ars conjectandi – die Kunst des Vermutens – stellte Bernoulli explizite und damit zugleich sehr präzise Berechnungen darüber an, welche relativen Häufigkeiten sich in Versuchsreihen in Abhängigkeit der theoretischen Wahrscheinlichkeiten mutmaßlich ergeben. Dabei legte Bernoulli bei der Interpretation seiner Resultate das Hauptaugenmerk darauf, Messfehler abschätzen zu können, die bei der empirischen Messung unbekannter Wahrscheinlichkeiten möglich sind. Bild 19 Jakob Bernoulli und das Titelblatt seines Buchs Ars conjectan- di. Die graphische Gestaltung der 1994 erschienen Briefmarke erinnert an das Gesetz der großen Zahlen. In Bezug auf das in der Eingangsfrage beschriebene Würfelexperiment liefert die Tschebyschow'sche Ungleichung übrigens eine Antwort. Wird im Sinne eines Hypothesentests die Symmetrie und damit p = 1/6 als Null-Hypothese unterstellt, so ergibt sich daraus . Bei n = 6000 Würfen entsprechen 700 Sechsen einer Abweichung von 300 Sechsen zum Erwartungswert 1000. Für ? = 300/6000 = 1/20 erhält man aus der letzten Ungleichung Damit ist bei 6000 Würfen die Wahrscheinlichkeit für eine „Ausreißer"- Serie mit höchstens 700 Sechsen oder mindestens 1300 Sechsen kleiner oder gleich 1/108. Ein solches „Ausreißer"-Ergebnis ist für einen symmetrischen Würfel also a priori sehr unwahrscheinlich. Es ist daher plausibel, die Beobachtung eines solchen Ergebnisses nicht als eine zufällige Ergebnis-Anomalie zu werten, sondern stattdessen auf eine Unsymmetrie des Würfels zu schließen, durch welche die Sechs benachteiligt ist. Das vermeintliche „Gesetz des Ausgleichs" Haben wir beim Spiel Mensch ärgere dich nicht lange vergeblich auf die ersehnte Sechs gewartet, so sind wir versucht zu glauben, dass unsere Chancen, nun endlich eine Sechs zu erzielen, aufgrund der Pechsträhne gestiegen sind. Auch im Spielkasino lässt sich Ähnliches beobachten: Wird beim Roulette XE „Roulette" zehnmal hintereinander eine rote Zahl ausgespielt, setzt kaum noch jemand auf „Rot", denn schließlich „muss" sich dieses Übergewicht ja nun langsam ausgleichen, und das scheint nur dadurch möglich zu sein, dass nun die schwarzen Zahlen im Übermaß ausgespielt werden.

Auch wenn weder der Würfel noch der Roulette-Kessel über ein "Gedächtnis" verfügen, so scheint gerade das Gesetz der großen Zahlen einen Beleg für die oft vermutete Tendenz zu einem Ausgleich darzustellen. Dabei werden Skeptiker sicher nicht mit dem Hinweis darauf zu überzeugen sein, dass das Gesetz der großen Zahlen mittels der Tschebyschow'schen Ungleichung gerade auf Basis der unterstellten Unabhängigkeit zwischen den einzelnen Zufallsexperimenten der Versuchsreihe hergeleitet wurde. Klarheit entsteht erst, wenn die betreffenden Aussagen eindeutig danach getrennt werden, ob sie sich auf absolute und relative Häufigkeiten beziehen. Konkret: Nach zehn roten Zahlen beim Roulette reichen bei den nächsten zehn Ausspielungen beispielsweise sechs rote und vier schwarze Zahlen, um das relative Übergewicht von „Rot" zu „Schwarz" von 10:0 auf 16:4 = 8:2 zu reduzieren, obwohl dabei gleichzeitig das absolute Übergewicht von 10 auf 12 steigt. Das heißt, auch ohne absoluten „Ausgleich" kann der dem Gesetz der großen Zahlen zugrunde liegende Trend durchaus zustande kommen. Dazu reicht es bereits vollkommen, dass das Übergewicht nicht mehr so stark ausfällt wie zuvor. Im Übrigen ist ein „Ausgleich" im Sinne einer trendmäßigen "Konvergenz" der absoluten Häufigkeiten überhaupt nicht zu erwarten. So besitzt die Anzahl, mit der ein Ereig- nis mit der Wahrscheinlichkeit p bei n unabhängigen Versuchen eintritt, als Zufallsgröße die Standardabweichung . Da dieser Wert mit der Länge der Versuchsreihe größer wird, wächst auch die durchschnittliche Abweichung der absoluten Häufigkeit zu ihrem Erwartungswert np. Das vermeintliche „Gesetz des Ausgleichs" ist damit ein reines Hirngespinst.

Wahrscheinlichkeiten und ihr mathematisches Modell Es wurde bereits zum Ende von Ka- pitel 2.2 darauf hingewiesen, dass die Gesetze der Wahrscheinlichkeitsrechnung auf der Basis rein mathematischer Objekte definiert werden können. Obwohl diese Konstruktion zum Verständnis statistischer Anwendungen entbehrlich ist, soll sie nun doch noch kurz vorgestellt werden, da ihre Kenntnis bei der Lektüre weiterführender Fachliteratur sicher hilfreich ist. Leser sollten sich aber keinesfalls durch die vielen Begriffe und Fakten von der Lektüre der weiteren Kapitel abschrecken lassen. Ereignisse finden innerhalb des rein mathematischen Modells ihre Entsprechung in Teilmengen einer bestimmten Grundmenge ?, die als Menge aller möglichen Ergebnisse ? des Zufallsexperimentes interpretierbar ist und daher auch als Ergebnismenge bezeichnet wird. Die Ergebnisse werden oft auch als Elementarereignisse bezeichnet. Dass jedem Ereignis eine Teilmenge der Grundmenge ? entspricht, hat folgenden Hintergrund: Jede solche Teilmenge umfasst genau je- ne Ergebnisse, die für das betreffende Ereignis „günstig" sind. Zum Beispiel kann man für den Wurf eines Würfels einfach die Ergebnis- menge ? = {1, 2, 3, 4, 5, 6} nehmen. Das Ereignis, eine gerade Zahl zu werfen, entspricht dann der Teilmenge {2, 4, 6}. Das sichere Er- eignis wird durch die Grundmenge ? und das unmögliche Ereignis durch die leere Menge repräsentiert. Bei den Modellen sind in ihrer allgemeinsten Form ausdrücklich auch Grundmengen ? mit unendlich vielen Elementen zugelassen. Diese Erweiterung des Modells macht selbst dann Sinn, wenn aus- schließlich Zufallsexperimente mit endlich vielen möglichen Ergeb- nissen untersucht werden sollen. Grund ist, dass Wahrscheinlich- keitsmodelle mit unendlichen Ergebnismengen gut geeignet sind, ap- proximative Aussagen über Zufallsexperimente mit sehr großer Er- gebnisanzahl zu machen. Dies sollte eigentlich nicht überraschen: Auch in der Physik wird beispielsweise die Masse einer Materie- menge meist als kontinuierlich veränderbare Zahl interpretiert, wohl wissend, dass dieses Modell, das unendlich viele Zwischenstufen zu- lässt, aufgrund der atomaren Struktur von Materie nicht realistisch ist. Ihre wohl wichtigste Anwendung finden nicht endliche Grundmengen ? bei der Untersuchung von Versuchsreihen, welche aus einer belie- big langen Folge von Einzelversuchen bestehen. Dabei ergibt sich die gedanklich unendlich fortgesetzte Folge in natürlicher Weise als das- jenige Objekt, das alle endlichen Versuchsreihen beinhaltet. Die für Ereignisse möglichen Operationen „und", „oder" und „nicht" entsprechen bei dem rein mathematischen Modell den Mengenoperationen Durchschnitt, Vereinigung und Komplement. Beispielsweise entsteht aus zwei Ereignissen A und B mit der Durchschnittsbildung das Ereignis A ? B, das genau jene Ergebnisse umfasst, die für beide Ereignisse A und B günstig sind. Den Rahmen, innerhalb dessen die Mengenoperationen stattfinden, bildet eine Menge F, welche diejenigen Teilmengen der Grundmenge ? enthält, die als Ereignisse interpretiert werden sollen. Oft, nämlich bei endlichen oder auch sogenannt abzählbar unendlichen Grundmengen ? (wie beispielsweise im Fall der ganzen Zahlen ? = Z), kann als Teilmengensystem F „einfach" die Menge aller Teilmengen der Grundmenge ? genommen werden. Soll in völliger Allgemeinheit auch der Fall einer Grundmenge ?, die wie im Fall des reellen Zahlenstrahls ? = R nicht abzählbar unendlich groß ist, abgedeckt werden, wird es leider deutlich komplizierter: Ein System von Teilmengen F der Grundmenge S wird als Sigma-Algebra bezeichnet, wenn es einerseits die Grundmenge ? enthält und andererseits unter den drei genannten Mengenoperationen abgeschlossen ist. Damit ist gemeint, dass für zwei beliebige Mengen A und B des Teilmengensystems F auch die Mengen A ? B, A ? B und A¯ zum Teilmengensystem F gehören müssen. Im Fall der Vereinigung wird zusätzlich gefordert, dass die Abgeschlossenheit auch für die Vereinigung von abzählbar vielen Mengen erfüllt sein muss. Wahrscheinlichkeiten entsprechen in- nerhalb des rein mathematischen Modells per Definition solchen Abbildungen P : F ? R, welche die folgenden Eigenschaften erfüllen, die im Wesentlichen denen aus Kapitel 2.2 entsprechen: So steht zum Beispiel die Gleichung P(?) = 1 für die Aussage, dass das sichere Ereignis die Wahrscheinlichkeit 1 besitzt. Speziell für das Beispiel eines symmetrischen Würfels spiegelt sich die Wahrscheinlichkeit, eine gerade Zahl zu werfen, im Modell in der Identität P({2, 4, 6}) = ½ wider. Der Tatsache, dass „nur" die in der Menge F enthaltenen Mengen (und nicht etwa alle Teilmengen der Grundmenge ?) durch eine Wahrscheinlichkeit gemessen werden, trägt man auch dadurch Rechnung, dass diese zum Teilmengensystem F gehörenden Menge als messbar bezeichnet werden . Das mathematische Äquivalent zur Modellierung eines Zufallsexperimentes umfasst damit stets ? eine Grundmenge ? von Ergebnissen, ? ein die möglichen Ereignisse widerspiegelndes Teilmengensystem F, das eine ?-Algebra bildet, sowie ? eine Abbildung P : F ? R, welche die drei gerade angeführten Eigenschaften erfüllt, die auch als Kolmogorow'sche Axiome der Wahrscheinlichkeit bezeichnet werden. Eine solche Abbildung wird auch als Wahrscheinlichkeitsmaß be- zeichnet.

Die Gesamtheit der drei mathematischen Objekte (?, F, P) wird auch Wahrscheinlichkeitsraum ge- nannt. Eine direkte Folgerung aus den Axiomen ist beispielsweise die Eigenschaft P(?) = 0, das heißt, die Wahrscheinlichkeit des unmöglichen Ereignisses ist gleich 0. Die Umkehrung gilt allerdings für nicht endliche Grundmengen nicht unbedingt . Die Flexibilität des mathematischen Konzepts offenbart sich unter anderem bei der Modellierung kombinierter Zufallsexperimente, wie sie insbesondere auch in Versuchsreihen auftreten. Dabei findet insbesondere die unabhängige Durchführung von zwei Zufallsexperimenten, die mathematisch durch die Grundmengen ?1 und ?2 sowie die Teilmengensysteme F1 und F2 modelliert werden, ihr mathematisches Äquivalent: Als neue Grundmenge bildet man das kartesische Produkt ? = ?1 ? ?2. Als Teilmengensystem werden alle Mengen genommen, die als abzählbare Vereinigung von Mengen des Typs A1 ? A2 mit A1 ? F1 und A2 ? F2 darstellbar sind. Die Wahrscheinlichkeiten werden bei dieser formalen Konstruktion mittels P(A1 ? A2) = P(A1)?P(A2) sowie dem Additionsgesetz definiert. Eine Zufallsgröße ist nun innerhalb des rein mathematischen Modells nichts anderes als eine reellwertige Abbildung X : ? ? R, die jedem Ergebnis ? ? ? des Zufallsexperimentes eine reelle Zahl X(? ) zuordnet und dabei die Eigenschaft besitzt, dass das Urbild eines Intervalls zur ?-Algebra F gehört , . Dabei wird ein Bild X(? ), das heißt ein „ausgewürfelter" Wert, auch als Realisierung der Zufalls- größe X bezeichnet. Bei Zufallsgrößen, die übereinstimmende Definitionsbereiche besitzen, lassen sich die im Bildbereich R möglichen Rechenoperationen auf die Zufallsgrößen selbst übertragen – ganz so, wie man es aus der Analysis von Funktionen her kennt: (X + Y)(? ) = X(? ) + Y(? ). Mathematisch ausreichend charakterisiert wird eine Zufallsgröße X bei einer endlichen Grundmenge durch die Wahrscheinlichkeiten der Form P(X = t) beziehungsweise allgemein durch die sogenannte Verteilungsfunktion FX (t) = P(X ? t), wobei der Ausdruck auf der rechten Seite abkürzend steht für . Die Verteilungsfunktion einer Zufallsgröße ist deshalb so aussagekräftig, weil aus ihr die Wahrscheinlichkeiten für alle maßgeblichen Wertebereiche, darunter insbesondere Intervalle, ausgerechnet werden können: Das zu einer gegebenen Wahrscheinlichkeit p gehörende Urbild t der Verteilungsfunktion wird übrigens als p-Quantil der Verteilung bezeichnet. Bei einer umkehrbaren Verteilungsfunktion entspricht das der Bedingung FX (t) = P(X ? t) = p. Bei einer nicht umkehrbaren Verteilungsfunktionen definiert man den kleinsten Wert t mit FX (t) ? p als p-Quantil. In der Statistik werden insbesondere nahezu extreme Quantile verwendet, etwa zu Wahrscheinlichkeiten wie p = 0,01; 0,05; 0,10; 0,90; 0,95 und 0,99. Bild 20 Dargestellt ist der Graph der Verteilungsfunktion FX, der sich für die Zufallsgröße X ergibt, die das Wurfergebnis eines symmetrischen Würfels modelliert. Erkennbar sind vier, auch allgemein für jede andere Verteilungsfunktion FX gültige Eigenschaften: FX ist monoton steigend mit

Die letzte Eigenschaft wird rechtsseitige Stetigkeit genannt. Wie jede Wahrscheinlichkeit lassen sich natürlich auch die gerade erörterten Wahrscheinlichkeiten P(X ? (a,b]) als Erwartungswert interpretieren. Explizit geht dies am einfachsten mit einer Zufallsgröße, die mit der Wahrscheinlichkeit P(X ? (a,b]) den Wert 1 annimmt und sonst gleich 0 ist. Eine universelle Methode, eine solche Zufallsgröße zu konstruieren, erhält man, wenn man die Funktionswerte der Zufallsgröße X mittels einer „Ausfilterung" transformiert. Es ist nämlich , wobei 1(a,b] die sogenannte Indikatorfunktion zum Intervall (a,b] bezeichnet, deren Funktionswerte im Intervall gleich 1 und außerhalb gleich 0 sind. Handelt es sich zum Beispiel bei X um die Zufallsgröße, die den Wurf eines symmetrischen Würfels modelliert, dann entspricht die auf das Intervall (2,4] bezogene Funktionswert-„Filterung" dem Vorgang, bei dem die Würfelseiten mit im Intervall (2,4] liegenden Werten, also 3 und 4, mit „1" und die anderen Seiten mit „0" überschrieben werden. Die gerade beschriebene Interpretation der Wahrscheinlichkeit P(X ? (a,b]) macht es auch plausibel, warum Familien von Erwartungswerten wie die Momente E(X k) (für k = 1, 2, ...) einerseits und die Funktionswerte der charakteristischen Funktion ?X(t) = E(eitX) (für t ? R) andererseits so wichtig sind: Approximiert man – im begrenzten Rahmen des Möglichen – Intervall-Indikatorfunktionen durch Polynome beziehungsweise durch periodische Funktionen, so erhält man daraus Approximationen der Verteilungsfunktion auf Basis der Momente beziehungsweise der charakteristischen Funktion. Noch eine weitere Eigenschaft vieler Verteilungsfunktionen spielt eine äußerst wichtige Rolle: Lässt sich im Fall einer nicht endlichen Grundmenge ? = R die Verteilungsfunktion in der Form darstellen, dann wird die Funktion f Dichte der Zufallsgröße X genannt. Auch bei der Definition des Erwartungswertes einer solchen Zufallsgröße tritt dann – soweit existent – ein Integral anstelle der Summe, wie sie bei einer Zufallsgröße mit endlichem Wertebereich verwendet wird: Eine Zufallsgröße, zu der sich eine Dichte angeben lässt, besitzt automatisch auch eine stetige Verteilungsfunktion – die Umkehrung gilt allerdings nicht . Eine Zufallsgröße mit stetiger Verteilungsfunktion wird auch als stetige Zufallsgröße bezeichnet, wobei sich die Stetigkeit auch durch die Eigenschaft P(X = t) = 0 für alle Werte t ? R charakterisieren lässt. Solche Zufallsgrößen, deren Werte quasi kontinuierlich über ein Intervall des Zahlenstrahls oder sogar den gesamten Zahlenstrahl verteilt sind, bilden gewissermaßen das Gegenstück zu Zufallsgrößen, die man als diskrete Zufallsgrößen bezeichnet: Die- se Klasse von Zufallsgrößen beinhaltet per Definition alle Zufallsgrößen mit endlichem oder abzählbar unendlichem Wertebereich. Insbesondere enthalten sind damit alle Zufallsgrößen, die ausschließlich ganzzahlige Werte annehmen. Aufgaben 1. Zeigen Sie: Die Menge der abzählbaren Vereinigungen von offenen und abgeschlossenen Intervallen bildet eine ?-Algebra zur Grundmenge der reellen Zahlen. Man spricht von der Borel'schen ?-Algebra . 2. Leiten Sie für eine Zufallsgröße, deren Dichte gegeben ist, die Formel für die Varianz her. 3. Geben Sie einen Wahrscheinlichkeitsraum (?, F, P) an, der das Zufallsexperi- ment des Wurfs eines Paares symmetrischer Würfel beschreibt. 4. Beweisen Sie auf Basis der Kolmogorow'schen Axiome für zwei beliebige Ereignisse A und B die auch als allgemeines Additionsgesetz bezeichnete Gleichung samt der Folgerung Wie lautet die entsprechende Gesetzmäßigkeit für drei Ereignisse? 5. Beweisen Sie für zwei unabhängige Zufallsgrößen X und Y mit endlichem Wertebereich die sogenannte Faltungsformel, mit der die Wahrscheinlichkeitsverteilung der Zufallsgröße X + Y berechnet werden kann: Versuchen Sie, eine analoge Faltungsformel für den Fall aufzustellen, bei dem die Werte der beiden unabhängigen Zufallsgrößen X und Y über den gesamten Zahlenstrahl R verteilt sind und durch Dichten fX und fY charakterisiert werden. 6. Eine Gleichverteilung einer Zufallsgröße im Intervall [a, b] wird durch diejenige Dichte definiert, die innerhalb des Intervalls den Wert 1/(b – a) annimmt und außerhalb 0. Beweisen Sie E(X) = (a + b)/2.

2.8 Das starke Gesetz der großen Zahlen

Das Gesetz der großen Zahlen erlaubt, wie wir im letzten Kapitel gesehen haben, eine empirische Messung der Wahrscheinlichkeit eines Ereignisses. Dazu wird das betreffende Zufallsexperiment im Rahmen einer Versuchsreihe unabhängig voneinander wiederholt. Die gesuchte Wahrscheinlichkeit ergibt sich dann näherungsweise durch die in der Versuchsreihe gemessene relative Häufigkeit des Ereignisses. Abweichungen, die eine vorgegebene Schranke übersteigen, werden dabei beliebig unwahrscheinlich, sofern die Versuchsreihe genügend lang ist. Bezieht sich diese Charakterisierung „beliebig unwahrscheinlich" nur auf die besagte Länge der Versuchsreihe oder sogar auch auf den gesamten weiteren Verlauf der Versuchsreihe?

Vielleicht klingt die Frage im ersten Moment etwas haarspalterisch. Daher soll zunächst erörtert werden, was das Gesetz der großen Zahlen in der bisherigen Formulierung besagt und was nicht. Ausgegangen wird wieder von einem Zufallexperiment, bei dem ein Ereignis A mit der Wahrscheinlichkeit p = P(A) eintritt. Um diese Wahrscheinlichkeit empirisch zu ermitteln, wird eine Versuchsreihe veranstaltet, bei der das zugrunde liegende Experiment n-mal unabhängig voneinander wiederholt wird. Die Qualität der Approximation der Wahrscheinlichkeit p durch die empirisch gemessene relative Häufigkeit RA,n lässt sich dann, wie schon erörtert, mit der Ungleichung von Tschebyschow abgeschätzen: Dabei ist die letzte Ungleichung folgendermaßen zu verstehen: Sind eine Toleranzgrenze ? > 0 sowie eine Höchstwahrscheinlichkeit pmax beliebig vorgegeben, kann stets eine Versuchsreihenlänge n gefunden werden, so dass nach diesen n Versuchen der Approximationsfehler | RA,n – p | die Toleranzgrenze ? maximal mit der vorgegebenen Höchstwahrscheinlichkeit pmax überschreitet. Ebenso wird ersichtlich, dass die Wahrscheinlichkeit für „Ausreißer" im gleichen Maße begrenzt bleibt, wenn die Versuchsreihe verlängert wird, das heißt, wenn beispielsweise n + 1, 2n oder noch mehr Experimente durchgeführt werden. Allerdings bezieht sich das einen Ausreißer charakterisierende Ereignis stets auf eine einzelne (genügend große) Versuchsreihenlänge. Insbesondere ist es also durchaus möglich, dass eine nicht ausreißende, aus n Experimenten bestehende, Versuchsreihe bei einer Verlängerung auf 2n Experiment noch zum Aus- reißer wird, in dem die Toleranzgrenze ? dann übertroffen wird. Prin- zipiell wäre es sogar denkbar, dass jede unendlich lange Versuchsreihe immer wieder die vorgegebene Toleranzgrenze ? überschreiten würde, so lange nur solche Ausreißer-Ereignisse immer seltener und damit – bezogen auf eine feste Versuchslänge – immer unwahrscheinlicher würden. Glücklicherweise kann dieses Szenario aber ausgeschlossen werden, wozu allerdings eine etwas aufwändigere Argumentation notwendig ist. Sie wird uns das sogenannte starke Gesetz der großen Zahlen liefern. Es besagt, dass für beliebige Vorgaben einer Toleranzgrenze ? > 0 sowie einer Höchstwahrscheinlichkeit pmax stets eine Versuchsreihenlänge n gefunden werden kann, so dass abgesehen von seltenen Versuchsreihen-Ausreißern, deren Wahrscheinlichkeit die vorgegebene Höchstwahrscheinlichkeit pmax nicht übersteigt, sämtliche Approximationsfehler | RA,n – p |, | RA,n+1 – p |, | RA,n+2 – p |, ... höchstens gleich der Toleranzgrenze ? sind. Wie im letzen Kapitel werden wir eine leicht verallgemeinerte Aussage beweisen, die Erwartungswerte von Zufallsgrößen zum Gegenstand hat. Dazu legen wir eine Zufallsgröße X zugrunde, deren zugehöriges Zufallsexperiment in einer Versuchsreihe unabhängig voneinander wiederholt wird. Die entsprechenden Ergebnisse werden mit X = X1, X2, X3, ... be- zeichnet. Ziel wird es wieder sein, die Güte der Approximation des Er- wartungswertes E(X) durch in der Versuchsreihe gemessenen Mittelwerte zu untersuchen. Dazu gehen wir von einer beliebig vorgegebenen Toleranzgrenze ? aus. Ist Y eine beliebige Zufallsgröße, so erhalten wir zunächst mit einer Argumentation, die analog ist zur Herleitung der Ungleichung von Tschebyschow in Kapitel 2.6, die Ungleichung . Unter Verwendung der am Ende von Kapitel 2.4 im Kasten Mathematischer Ausblick: weitere Kenngrößen (Seite 65 ff.) definierten vierten Kumulante ?4(Y) erhält man daraus die folgende Abschätzung für die Wahrscheinlichkeit, dass die Zufallsgröße Y von ihrem Erwartungswerte E(Y) mehr als ? abweicht:

In ihrem Aufbau ähnelt diese Abschätzung offenkundig stark der analog hergeleiteten Ungleichung von Tschebyschow. Die neue Abschätzung ist allerdings in solchen Fällen besser geeignet, in denen es darum geht, die Wahrscheinlichkeit für sehr große Abweichungen |Y – E(Y)| zu untersuchen. Wie schon beim Beweis des Gesetzes der großen Zahlen, das zur Unterscheidung zum starken Gesetz der großen Zahlen auch als schwaches Gesetz der großen Zahlen bezeichnet wird, wählt man nun für die Zufallsgröße Y speziell den in unserer Versuchsreihe gemessenen Durchschnitt . Aufgrund der Semi-Invarianz genannten Rechen- regeln für die Varianz und die vierte Kumulante erhält man dafür Dabei hängt die für die letzte Ungleichung eingeführte Konstante c(X) nicht von der Versuchslänge n sondern nur von der Zufallsgröße X ab. Die Wahrscheinlichkeit, dass eine Versuchsreihe ab der erreichten Mindestlänge n irgendwann im Sinne einer Verletzung der Ungleichung ausreißt (und zwar für irgendeine Versuchslänge m ? n) , ist damit höchstens gleich Die zuletzt formulierte Konvergenz gegen 0 folgt direkt aus der Konvergenz der zur Abschätzung nach oben verwendeten Reihe . Mit dieser Konvergenz ist zugleich die gewünschte Aussage bewiesen: Für eine beliebig vorgegebene Toleranzgrenze ? > 0 sowie eine ebenfalls beliebig vorgegebene Höchstwahrscheinlichkeit pmax kann stets eine Versuchsreihenlänge n gefunden werden, so dass abgesehen von seltenen Versuchsreihen-Ausreißern, deren Wahrscheinlichkeit die vorgegebene Höchstwahrscheinlichkeit pmax nicht übersteigt, sämtliche Approximationsfehler höchstens gleich der Toleranzgrenze ? sind.

Es bleibt anzumerken, dass das starke Gesetz der großen Zahlen üblicherweise in einer etwas anderen, geringfügig schärferen Form formuliert wird. Gegenstand dieser Variante ist das Ereignis, das alle Versuchsrei- henverläufe umfasst, für welche die Folge der darin gemessenen Mittelwerte nicht gegen den Erwartungswert E(X) konvergiert. Dieses Ereignis der Nicht-Konvergenz besitzt, so besagt die modifizierte Formulierung des starken Gesetzes der großen Zahlen, die Wahrscheinlichkeit 0. Das Ereignis, über deren Wahr- scheinlichkeit eine Aussage getroffen wird, nimmt also – abweichend von der schon bewiesenen Version – direkten Bezug auf die unendliche Versuchsreihe. Auch wenn das Ereignis der Nicht-Konvergenz die Wahrscheinlichkeit 0 besitzt, ist es nicht unmöglich: So sind bei der unendlichen, aus lauter Einsen bestehenden, Würfelserie alle empirisch beobachtbaren Mittelwerte gleich 1. Die Folge der Mittelwerte konvergiert damit nicht gegen 3,5. Trotzdem ist diese Einser-Wurfserie theoretisch genauso denkbar wie jede andere Folge von Ergebnissen, und damit alles andere als unmöglich. Herleiten lässt sich die zweite Version des starken Gesetzes der großen Zahlen durch ein paar formale Überlegungen, die üblicherweise in Form eines als Lemma von Borel-Cantelli bezeichneten Satzes zusammengefasst werden . Das starke Gesetz der großen Zahlen untermauert nochmals die Bedeutung der theoretischen Begriffe Wahrscheinlichkeit und Erwartungswert für den Bereich der empirischen Datenerhebung: Man stelle sich dazu einfach einmal hypothetisch vor, dass Versuchsreihen nur dem schwachen, aber nicht dem starken Gesetz der großen Zahlen genügen würden. „Ausreißer" könnten damit im Verlauf einer Versuchsreihe immer wieder auftreten. Gesichert wäre einzig, dass solche „Ausreißer" immer seltener werden müssten. Eine nachhaltige Stabilisierung von Beobachtungswerten hin zu einem theoretischen Idealwert – ob Wahrscheinlichkeit oder Erwartungswert – würde also nicht vorliegen. Es gäbe sogar eine positive Wahrscheinlichkeit für eine Nicht-Konvergenz. Und damit wird klar, dass eigentlich erst das starke Gesetz der großen Zahlen genau jene Aussage beinhaltet, die man intuitiv vielleicht bereits vom schwachen Gesetz erhofft hat!

Es ist daher schon etwas verwunderlich, dass zwischen den Entdeckungen beider Ausprägungen des Gesetzes der großen Zahlen über zweihundert Jahre lagen: Nachdem Jakob Bernoulli die erste Version des schwachen Gesetzes, die er als „goldenes Theorem" bezeichnete, um 1690 erkannt hatte (die Veröffentlichung erfolgte erst 1713 postum), dauerte es bis 1909, bis Émile Borel (1871-1956) die erste, für eine Serie von Münzwürfen gültige, Version des starken Gesetzes der großen Zahlen entdeckte. Die erste allgemeinere Version wurde 1917 von Francesco Paolo Cantelli (1875-1966) bewiesen. Da die zugehörige mathematische Argumentation nicht übermäßig schwierig ist, kann man mit gutem Grund mutmaßen, dass zuvor wohl niemand die Notwendigkeit gesehen hat, die Gültigkeit solcher Aussagen zu untersuchen. Der Begriff „Gesetz der großen Zahlen" geht übrigens auf Siméon-Denis Poisson (1781-1840) zurück, der ihn 1835 erstmals gebrauchte. Der begriffliche Zusatz „stark" für die Borel- Cantelli-artigen Verallgemeinerungen wurde 1928 von Aleksandr Jakow- lewitsch Chintischin (1894-1959) eingeführt. Konvergenzbegriffe der Wahrscheinlichkeitsrechnung Es wurde bereits darauf hingewiesen, dass die dem (schwachen) Gesetz der großen Zahlen entsprechende Aussage auch als stochastische Konvergenz bezeichnet wird. Of- fenkundig handelt es sich auch beim starken Gesetz der großen Zahlen um eine Art von Konvergenz, nämlich um eine solche, die mit der Wahrscheinlichkeit 1 stattfindet. Da es darüber hinaus in der Wahrscheinlichkeitsrechnung noch diverse andere Arten von Konvergenz gibt, ist es zweifelsohne sinnvoll, diesbezüglich zumindest einen kurzen Ausblick zu geben. Konvergenz ist generell eine Eigenschaft von Folgen. Handelt es sich um eine Folge von Zahlen x1, x2, ... , so ist die Sache relativ einfach: Eine Konvergenz gegen einen Grenzwert x liegt bekanntlich genau dann vor, wenn zu jeder beliebig klein vorgegebenen Abweichung ? > 0 sämtliche Differenzen | xn – x | ab einem von ? abhängenden Mindestwert n0(? ), das heißt für alle Werte n ? n0(? ), kleiner als ? sind.

Etwas schwieriger wird es bereits bei Folgen von reellwertigen Funktionen, wo man insbesondere zwischen der gleichmäßigen Konvergenz und der punktweisen Konvergenz unterscheidet. Wir erinnern daran, dass sich der Unterschied darauf bezieht, ob der von ? abhängige Mindestwert n0(?) jeweils einheitlich für den gesamten Definitionsbereich oder nur jeweils abgestimmt auf ein einzelnes Element des Definitionsbereiches gefunden werden kann. Für Funktionen gebräuchlich sind sogar noch weitere Konvergenzarten, denen Abstandsbegriffe zwischen zwei Funktionen f und g zugrunde liegen, die sich aus einer Integration von | f – g | p ergeben. Da es sich bei Zufallsgrößen mathematisch-formal um reellwertige Funktionen X: ? ? R handelt, orientieren sich die Konvergenzüberlegungen für Zufallsgrößen an jenen für Funktionen. Allerdings resul- tiert die entscheidende Schwierigkeit, die dabei zu berücksichtigen ist, aus der stochastischen Unsicherheit, der die zu formulierenden Aussagen naturgemäß unterworfen sind. Ausgegangen wird von einer Folge von Zufallsgrößen X1, X2, ... und der gegebenenfalls als Limes zu charakterisierenden Zufallsgröße X. Formal muss eine Ereignismenge ? samt ?-Algebra und Wahrscheinlichkeitsmaß P vorliegen (oder konstruiert werden), auf deren Basis sich die genannten Zufallsgrößen X, X1, X2, ... als reellwertige Funktionen ? ? R auffassen lassen. Von einer stochastischen Konvergenz oder auch Konvergenz in Wahrscheinlichkeit XE „Konvergenz:in Wahrscheinlichkeit" , abgekürzt durch spricht man, falls für jedes ? > 0 gilt. Die Definition der stochastischen Konvergenz stellt also Anforderungen an die Wahrscheinlichkeiten solcher Ereignisse {? ? ? | | Xn(? ) – X(? )| > ? }, die jeweils auf Basis eines einzelnen Folgengliedes Xn definiert sind: Eine Abweichung, die den beliebig vorgegebenen Höchstwert ? > 0 überschreitet, muss mit Fortschreiten der Reihe beliebig unwahrscheinlich werden. Wir kennen solche Sachverhalte bereits vom schwachen Gesetz der großen Zahlen. Dessen Aussage, die für eine Folge von identisch verteilten und voneinander unabhängigen Zufallsgrößen Y = Y1, Y2, ... gilt, lässt sich nun kurz wie folgt formulieren: Von einer fast sicheren Konvergenz oder auch Konvergenz mit Wahrscheinlichkeit 1, abgekürzt durch spricht man, wenn eine punktweise Konvergenz vorliegt, wobei allerdings Ausnahmen mit der Wahrscheinlichkeit 0 zugelassen sind: Äquivalent zu dieser Bedingung ist – wozu wieder wie in Fußnote 37 argumentiert werden kann – die für jedes ? > 0 zu erfüllende Bedingung Die letzte Bedingung verdeutlicht sehr schön den Unterschied zwischen der stochastischen Konvergenz und der fast sicheren Konvergenz: Ein „Ausreißer" im Sinne der stochastischen Konvergenz liegt vor, wenn der vorgegebene Höchstabstand ? bei der aktuell betrachteten Versuchslänge n überschritten wird. Dagegen reicht es für einen „Ausreißer" im Sinne der fast sicheren Konvergenz bereits aus, wenn bei irgendeiner Versuchslänge m oberhalb des aktuell betrachteten Wertes n der Höchstabstand ? übertroffen wird. Die zur Definition der fast sicheren Konvergenz verwendete Anforderung orientiert sich am starken Gesetz der großen Zahlen. Dessen Aussage, die für eine Folge von identisch verteilten und voneinander unabhängigen Zufallsgrößen Y = Y1, Y2, ... gilt, kann nun in der folgenden Weise formuliert werden:

Offensichtlich impliziert die fast sichere Konvergenz immer auch die schwache Konvergenz. Wichtig ist aber auch noch eine weitere, deutlich schwächere Form der Konvergenz, die sogenannte Verteilungskonvergenz, Konvergenz nach Verteilung oder auch schwache Konvergenz, die mit abgekürzt wird (d steht für distribution, dem englischen Wort für Verteilung): Diese liegt genau dann vor, wenn in jedem Stetigkeits- punkt t der Verteilungsfunktion FX eine punktweise Konvergenz der Verteilungsfunktionen vorliegt. Von einer starken Verteilungskonvergenz spricht man übrigens, wenn die Konvergenz der Verteilungsfunktionen gleichmäßig ist. Eine Konvergenz der Verteilungsfunktionen kann im Anwendungsfall äußerst praktisch sein, und zwar insbesondere dann, wenn komplizierte Verteilungen, wie sie in Versuchsreihen auftreten, durch ein- fach zu berechnende Grenzverteilungen näherungsweise berechnet werden können. Den wichtigsten Spezialfall werden wir im nächsten Kapitel kennenlernen. Man sollte aber stets bedenken, dass die Konvergenz einer Verteilungsfunktion nicht zur Folge hat, dass die Werte der Zufallsgröße Xn(? ) auch nur teil- oder ansatzweise irgendein Konvergenzverhalten zeigen! Die Werte Xn(? ) müssen also keineswegs ein sich auf lange Dauer stabilisierendes Verhalten aufweisen . Weitere Konvergenzarten wie die sogenannte Konvergenz im p-ten Mittel, für welche die Bedin- gung erfüllt sein muss, werden wir nicht verwenden und seien daher hier nur der Vollständigkeit halber am Rande erwähnt. Aufgaben 1. Durch das n-malige Werfen einer symmetrischen Münze werde der Wert Xn(? ) einer Zufallsgröße Xn folgendermaßen definiert: Bei einer geraden Anzahl von geworfenen „Zahl"-Ereignissen ist der Wert gleich 0, ansonsten gleich 1. In welcher Hinsicht liegt eine Konvergenz gegen die Gleichverteilung vor? Das heißt, liegt eine schwache, stochastische oder gar fast sichere Konvergenz vor? 2. Die Folge (Xn)n einer Zufallsgröße werde wie folgt definiert: Bei einer Reali- sierung wird in jeder der 10k Folgenglieder umfassenden Teilfolge (für k = 0, 1, 2, ...) X1(? ), X2(? ), ..., X11(? ), X12(? ), ..., X111(? ), ... gleichwahrscheinlich genau ein Folgenglied ausgelost, dessen Wert nicht gleich 0 ist und stattdessen den Wert 1 besitzt. In welcher Hinsicht konvergiert die so konstruierte Folge gegen diejenige Zufallsgröße, die stets den Wert 0 annimmt? Das heißt, liegt eine schwache, stochastische oder gar fast sichere Konvergenz vor? 3. Beweisen Sie, dass für zwei stochastisch konvergente Folgen von Zufallsgrö- ßen (Xn)n und (Yn)n, die auf dem gleichen Maßraum definiert sind, der Limes der Summen gleich der Summe der beiden Limites ist. 4. Beweisen Sie die zu Aufgabe 3 analoge Aussagen für Produkte. 5. Beweisen Sie die zu Aufgaben 3 und 4 analogen Aussagen für den Fall von zwei mit Wahrscheinlichkeit 1 konvergenten Folgen von Zufallsgrößen. 6. Suchen Sie zwei Folgen von Zufallsgrößen, die beide nach Verteilung konver- gieren, ohne dass ihre Summen verteilungskonvergent sind.

2.9 Der Zentrale Grenzwertsatz

Ein Zufallsexperiment wird im Rahmen einer Versuchsreihe unabhängig voneinander wiederholt. Gesucht sind Aussagen über die relativen Häu- figkeiten eines Ereignisses, das innerhalb des Einzelexperimentes beo- bachtet werden kann. Auch wenn die Ungleichung von Tschebyschow im Zuge des Beweises des Gesetzes der großen Zahlen Aussagen darüber macht, wie schnell und sicher die Trendbildung der relativen Häufigkeiten mindestens vonstattengeht, so sind diese Aussagen im Vergleich zum wirklichen Voranschreiten des Trends doch sehr grob. Insofern liegt der Wunsch nahe, präzisere Angaben über die Wahrscheinlichkeiten der Häufigkeiten machen zu können. Dazu werden wir sowohl exakte Formeln als auch verbesserte Näherungsformeln herleiten. Zur Herleitung solcher Formeln gehen wir von einem Ereignis A mit der Wahrscheinlichkeit p = P(A) aus. Das zugehörige Zufallsexperiment wird in einer Versuchsreihe n-mal unabhängig voneinander wiederholt, wobei wir jeweils nur danach fragen, ob das Ereignis A eingetreten ist oder nicht – eine solche Reduktion auf ein Zufallsexperiment mit nur zwei Er- gebnissen wird übrigens Bernoulli-Experiment genannt. Wir interessieren uns nun dafür, wie wahrscheinlich die möglichen Treffer-Häufigkeiten k = 0, 1, ..., n sind. Im konkreten Fall fragen wir also beispielsweise danach, wie wahrschein- lich es ist, in fünf Würfen genau k = 2 Sechsen zu werfen. Dabei können die beiden Treffer durch unterschiedliche Verläufe wie zum Beispiel Treffer, Treffer, Nicht-Treffer, Nicht-Treffer, Nicht-Treffer oder Treffer, Nicht-Treffer, Treffer, Nicht-Treffer, Nicht-Treffer und so weiter zustande kommen. Jeder solcher Verlauf besitzt die Wahr- scheinlichkeit , wobei für das konkrete Beispiel des Ereignisses, mit einem Würfel eine Sechs zu werfen, p = 1/6 ist. Die möglichen Verläufe der Versuchsreihe, in denen sich k = 2 Treffer beobachten lassen, entsprechen damit den Möglichkeiten, zwei aus fünf Zahlen 1, 2, 3, 4, 5 auszuwählen und dafür gibt es insgesamt 10 Möglichkeiten: 1-2, 1-3, 1-4, 1-5, 2-3, 2-4, 2-5, 3-4, 3-5, 4-5 Auch allgemein gibt es für das Erreichen von genau k Treffern so viele Verläufe von Versuchsreihen, wie es Möglichkeiten gibt, k Zahlen aus insgesamt n Zahlen auszuwählen – nämlich entsprechend den Nummern von denjenigen Versuchen, die zu einem Treffer führen. Wie sich solche Anzahlen allgemein berechnen lassen, wurde bereits im Kasten Kombinatorik – wenn zählen zu lange dauert (Seite 27 ff.) erörtert. Demgemäß ist die Wahrscheinlichkeit, in fünf Würfen genau zwei Sechsen zu werfen, gleich Die Wahrscheinlichkeiten für die anderen Anzahlen von Sechsen in fünf Würfen sind in Bild 21 graphisch dargestellt. Analog kann man im allgemeinen Fall eines Bernoulli-Experimentes mit der Trefferwahrscheinlichkeit p = P(A) und der Nicht-Treffer-Wahrscheinlichkeit q =1 – p vorgehen. Bei n unabhängigen Versuchen ist die Wahrscheinlichkeit für genau k Treffer (und damit für die relative Häufigkeit RA,n = k/n) gleich . Aufgrund der in dieser Formel vorkommenden Binomialkoeffizienten XE „Binomialkoeffizient" wird die Wahrscheinlichkeitsverteilung für die (absoluten) Häufigkeiten auch Binomialverteilung genannt. Die Tatsache, dass eine Zufallsgröße X binomial- verteilt ist, wird oft mit X ~ Bin(n, p) abgekürzt. Damit gilt insbesondere . Bild 21 Wahrscheinlichkeitsverteilung für die Anzahl der Sechsen in fünf Würfen Bild 22 Binomialverteilung bei n = 30 Versuchen mit einer Trefferwahrscheinlichkeit von p = 1/6. Dies entspricht der Wahrscheinlichkeitsverteilung für die Anzahl der Sechsen in 30 Würfen. Zwar kann mit der letzen Formel die Trendbildung innerhalb einer Versuchsreihe im Prinzip rechnerisch völlig exakt nachvollzogen werden. Allerdings geht die absolute Exaktheit zu Lasten der Übersichtlichkeit: Noch nicht einmal der Erwartungswert E(RA,n) = pn, dessen Wert aufgrund der für Erwartungswerte geltenden Rechenregeln völlig offensichtlich ist, kann unmittelbar aus der Binomialformel abgelesen werden. Auch ist nicht direkt ersichtlich, welche Werte der Zufallsgröße RA,n die höchste Wahrscheinlichkeit besitzen. Schließlich ist die Formel für große Werte k und n rechnerisch schwer anzuwenden, vor allem dann, wenn wie beispielsweise zur Beantwortung der Eingangsfrage von Kapitel 2.7 Wahrscheinlichkeiten der Form berechnet werden müssen. Diese Summe entspricht nämlich der Wahrscheinlichkeit, dass sich in 6000 Würfen eines symmetrischen Würfels eine Anzahl von Sechsen ergibt, die um mindestens 300 vom Erwartungswert 1000 abweicht. Dabei ist es ohne Computer völlig aussichtslos, Ausdrücke wie zum Beispiel den ersten Summanden der zweiten Summe, nämlich , berechnen zu wollen. Allerdings gibt es deutlich praktikablere Verfahrensweisen, bei denen die Summanden nacheinander, und zwar jeweils aus dem unmittelbar vorausgehenden Summanden, berechnet werden. Trotzdem verdeutlicht das Beispiel den Bedarf für einfach handzuhabende Approximationsformeln. Als Grundlage bieten sich die Techniken der Integrationstheorie an, weil Integrale einem Grenzwert von Summen mit vielen kleinen Summanden entsprechen. Bild 23 Das graphisch als Fläche unter dem Funktionsgraphen y = ln x dargestellte Integral liegt in den Grenzen von k bis k + 1 wert- mäßig zwischen ln k und ln(k+1). Bei den Summanden größenmäßig am schwierigsten abzuschätzen sind sicherlich die Fakultäten. Da wir bei solchen Approximationen mehr an den prinzipiellen Folgerungen als an den Details interessiert sind, wollen wir hier nur beschreiben, wie man eine sehr grobe Abschätzung erhalten kann : Die Funktion des natürlichen, das heißt zur Basis e gebildeten, Logarithmus ln x ist in ihrem Definitionsbereich der positiven reellen Zahlen monoton wachsend. Damit gilt, wie in Bild 23 zur Verdeutlichung nochmals graphisch dargestellt, für jede natürliche Zahl k . Summiert man nun diese beiden Ungleichungen für k = 1, 2, ..., n – 1, so erhält man für n ? 1 wegen ln n! = ln n + ln(n – 1) + ... + ln 1: Subtrahiert man von den drei Termen der Ungleichungskette jeweils ln n! und multipliziert dann alles mit –1, so erhält man: Bezeichnet man die Differenz zwischen ln n! und dem Integral mit cn, so gilt 0 ? cn ? ln n und . Durch Anwendung der Exponentialfunktion erhält man nun mit . In diesem Zusammenhang bleibt anzumerken, dass mit aufwändigeren Überlegungen die Approximation noch deutlich verbessert werden kann. Man erhält dann die sogenannte Stirling'sche Formel

Die Genauigkeit der Stirling'schen Formel wird durch die Eingrenzung charakterisiert, wobei der den Fehler der Stirling'schen Approximation beschreibende Faktor Dn für n ? ? gegen 1 konvergiert. Allerdings konvergiert die Differenz zwischen der Fakultät n! und seiner Stirling'schen Approximation für n ? ? nicht gegen 0. Auf Basis der Stirling'schen Formel können nun auch Binomialkoeffizienten abgeschätzt werden. Für die bereits explizit bestimmten Wahrscheinlichkeiten der Binomialverteilung erhält man damit Für die letzte Identität wurden die drei Faktoren Dn, Dk und Dn–k zu einem Faktor Dn,k zusammengefasst. Aufgrund der Tschebyschow'schen Ungleichung sind nur solche Wahrscheinlichkeiten interessant, bei denen die Treffer-Anzahl k höchstens um „einige wenige" Vielfache von vom Erwartungswert pn ab- weicht. Für diese Wertepaare (n, k) ist aber für den Grenzfall n ? ? ebenfalls k ? ? sowie (n – k) ? ?, was die Konvergenz Dn,k ? 1 sichert. Eine besonders einfache Situation tritt ein, wenn die Anzahl k gleich (oder annähernd gleich) dem Erwartungswert pn ist. Wegen k = pn und folglich auch n – k = qn ergibt sich . Wir hatten bereits in Fußnote 40 festgestellt, dass die Wahrscheinlichkeit P(RA,n = k/n) für eine zum Erwartungswert pn benachbarte Ganzzahl k maximal wird. Nun erkennen wir, dass das zugehörige Maximum für lange Versuchsreihen mit einer einheitlichen, nur in offensichtlicher Weise von der Wahrscheinlichkeit p abhängenden Formel berechenbar ist. Diese Tatsache ist bereits das erste Indiz für ein wesentlich allgemeiner gültiges Prinzip, gemäß dem alle diese Wahrscheinlichkeiten für große Werte n durch eine einheitliche Formel approximiert werden können: Um dies tun zu können, werden zunächst die Treffer-Anzahlen k durch ihre Abweichungen vom Erwartungswert pn charakterisiert, wobei diese Abweichungen als Vielfache der Standardabweichung dargestellt werden: (und daher ) mit der Standardabweichung eines einzelnen Bernoulli-Experimentes Diese Darstellung der Treffer-Anzahlen k erlaubt es nun, die beiden in der Approximationsformel vorkommenden Potenzen zu vereinfachen. Dazu bestimmt man deren natürlichen Logarithmus unter Verwendung der entsprechenden Potenzreihe, wobei die Sum- manden mit n-Potenzen im Nenner vernachlässigt werden können: Zusammen mit der dazu symmetrischen Formel, mit welcher der natürliche Logarithmus der zweiten in der Approximationsformel von Seite 120 vorkommenden Potenz näherungsweise berechnet werden kann, erhält man nun insgesamt Häufig, etwa zur Beantwortung der Eingangsfrage von Kapitel 2.7, ist mehr als die Wahrscheinlichkeit P(RA,n = k/n) eines einzelnen Wertes k/n gesucht. Benötigt wird in einem solchen Fall meist die Wahrscheinlich- keit für ein ganzes Intervall, das heißt P(k1/n ? RA,n ? k2/n). Auch für diese, auf Intervalle bezogenen Wahrscheinlichkeiten kann man mit den soeben skizzierten Methoden – ergänzt um eine Schritt für Schritt sorgsam vorgenommene Abschätzung der möglichen Approximationsfehler – eine Näherungsformel herleiten. Dabei muss eine aus Summanden der Form P(RA,n = k/n) bestehende Summe approximiert werden, wobei die Anzahl der Summanden mit steigendem Wert n im Verhältnis wächst. Man erhält auf diesem Weg einen Nachweis für die folgende, als Zentraler Grenzwertsatz von Moivre-Laplace bezeichnete Grenzwerteigen- schaft, die in der Praxis zu Approximationszwecken eingesetzt werden kann:

Auch wenn die Formel aufgrund des Integrals vielleicht im ersten Augenblick etwas erschreckend erscheinen mag, so verbirgt sich dahinter doch eines der wichtigsten Prinzipien der angewandten Statistik! Überlegen wir uns daher zunächst, welche Konsequenzen diese Formel nach sich zieht: * Der Grenzwert und damit auch die sich daraus ergebende Näherungsformel hängt nicht von der Wahrscheinlichkeit p ab, sieht man einmal davon ab, dass die offensichtlichen Abhängigkeiten von p (und mittelbar von?? ) auf der linken Seite, das heißt bei den Gliedern der konvergenten Folge, eingeflossen sind. * Diese Unabhängigkeit des Grenzwertes von der Wahrscheinlichkeit p erlaubt es, dass die Approximation trotz des nicht elementar berechenbaren Integrals äußerst universell und praktikabel eingesetzt werden kann. Grund ist, dass jeder Näherungswert, wie er auf der rechten Seite steht, mittels Differenzbildung auf zwei Werte zurückgeführt werden kann, die jeweils nur noch von einem Parameter abhängen und damit einfach tabellierbar sind: mit Dabei entsprechen diese Integrale jeweils einer Fläche unter dem Gauß'sche Glockenkurve genannten Funktionsgraphen (siehe Bild 24). Da die eingeschlossenen Flächen auch als Werte einer Verteilungsfunktion von einer Zufallsgröße aufgefasst werden können – allerdings von einer Zufallsgröße, deren Wertebereich den gesamten Zahlenstrahl der reellen Zahlen umfasst –, spricht man auch von der Normalverteilung (siehe Kasten Die Normalverteilung). * Im Vergleich zur – allerdings allgemeiner gültigen – Ungleichung von Tschebyschow erlaubt der Zentrale Grenzwertsatz deutlich präzisere Aussagen. So erhält man bei- spielsweise für der Fall a = –2 und b = 2 mit der Tschebyschow'schen Ungleichung die grobe Abschätzung , während der Zentrale Grenzwertsatz für große Anzahlen von Versu- chen n die folgende Näherung liefert:

Natürlich können wir nun auch für die Würfelversuchsreihe mit 6000 Würfen, die uns im vorletzten Kapitel und zu Beginn dieses Kapitels beschäftigt hat, die gesuchten Wahrscheinlichkeiten mit dem Zentralen Grenzwertsatz approximieren. Dabei lassen sich die Aussagen des vorletzten Kapitels mit den verbesserten Methoden des Zentralen Grenzwertsatzes deutlich verschärfen. Konkret muss nämlich bereits eine Anzahl von Sechsen, die um mindestens 75 von der zu erwartenden Anzahl von 1000 Sechsen abweicht, als Indiz dafür gewertet werden, dass der geworfene Würfel unsymmetrisch ist – mit der Tschebyschow-Ungleichung XE „Ungleichung von Tschebyschow" konnte eine solche Schluss- folgerung erst ab einer wesentlich größeren Abweichung von mindestens 300 gefolgert werden. Bild 24 Die Gauß'sche Glockenkurve der Normalverteilung. Das der dunkelgrauen Fläche entsprechende Integral kann als Differenz ?(b) – ?(a) berechnet werden. Die Symmetrie der Glocken- kurve hat die Gleichung ?(–t ) + ?(t ) = 1 zur Folge. Die Normalverteilung Möchte man sich mit den grundlegenden Prinzipien auseinandersetzen, die sich hinter dem Zentralen Grenzwertsatz verbergen, so kommt man kaum umhin, dessen approximierende Integraldarstellung als Verteilung einer – kontinuierlich über den ganzen Zahlenstrahl verteilten – Zufallsgröße aufzufassen. Da wir die Terminologie der Zufallsgrößen im Rahmen unserer elementaren Einführung – abseits einiger Ausblicke – bewusst nur auf den einfachen Fall einer Zufalls- größe mit endlichem Wertebereich beschränkt haben, begnügen wir uns wieder mit einem kurzen Überblick. Dass die Funktion als Verteilungsfunktion einer kontinuierlichen Zufallsgröße aufgefasst werden kann, liegt zunächst daran, dass die zugehörige Dichte nirgends negativ ist und dass das auf ihrer Basis definierte Integral die Eigenschaft ?(?) = 1 erfüllt . Die so definierte Verteilungsfunktion hat den Erwartungswert 0 und die Varianz 1 – man spricht daher auch von einer Standardnormalverteilung. Als normalverteilt XE „Zufallsgröße:normalverteilte" werden alle Zufallsgrößen Y be- zeichnet, die aus einer standardnormalverteilten Zufallsgröße X mittels einer Transfor- mation Y = aX + b hervorgehen, wobei b eine reelle Zahl und a eine positive Zahl ist. Wegen E(Y ) = a·E(X ) + b = b und ?Y = a?X = a wird jede normalverteilte Zufallsgröße eindeutig durch die Angabe ihres Erwartungswertes und ihrer Standabweichung charakterisiert, was auch in der gebräuchlichen Notation Y ~ N(b, a) seinen Niederschlag findet. Die Verteilungsfunktion von ?X + m ist gleich wobei der letzten Identität die Transformation s = (u– m)/? zugrunde liegt. Die wichtigste Eigenschaft von normalverteilten Zufallsgrößen ist, dass die Summe von zwei unabhängigen, normalverteilten Zufallsgrößen wieder normalverteilt ist . Tabelle 2 Einige Werte der (Standard-)Normalverteilung. Bei einem Tabellenkalkulationsprogrammen können die Funktionen ?(x) = NORMVERT(x; 0; 1; WAHR) sowie in umgekehrter Richtung ?–1(p) = NORMINV(p; 0; 1) vewendet werden.

In jedem einzelnen der n = 6000 voneinander unabhängigen Würfelversuche beträgt die Treffer-Wahrscheinlichkeit für eine Sechs p = 1/6 und die Varianz ? 2 = 5/36. Die Wahrscheinlichkeit dafür, dass die insgesamt erzielte Anzahl von Sechsen um weniger als 75 von der zu erwartenden Anzahl 1000 abweicht, ist daher gleich , wobei der Parameter a so zu wählen ist, dass gilt. Dieser vorgegebene Wert 74,5 trägt dem Umstand Rechnung, dass die Lücke der Länge 1, die zwischen den beiden Bereichen ganzzahliger Werte von „weniger als 75" und „mindestens 75" klafft, bei der Approximation mittels kontinuierlich festlegbarer Integrationsgrenzen am besten in der Mitte aufgeteilt wird – man nennt dies Stetigkeitskorrektur XE „Stetigkeitskorrektur" . Für den solchermaßen festgelegten Wert a = 2,5807557... ergibt sich dann für die Wahrscheinlichkeit eine Approximation von 0,990141..., was dem exakten Wert von 0,990146... mit hoher Präzision entspricht. Dabei ist allerdings anzumerken, dass die Zahlen hier nur deshalb so genau angegeben wurden, um die Qualität der Approximation zu zeigen. In der statistischen Praxis kann man sich meist auf zwei oder drei Nachkommastellen beschränken, um etwa eine Wahrscheinlichkeit von 0,99 oder 0,995 zu verifizieren. Dank der nun präziserer möglichen Berechnung der Wahrscheinlichkeit zu „Ausreißer"-Ereignissen kann also die „Empfindlichkeit" eines Hypothesentests entscheidend verbessert werden. In dem gerade untersuchten Beispiel bedeutet dies konkret, dass – bei unveränderter Länge der Versuchsreihe – auch weniger stark ausgeprägte Unsymmetrien mit besserer Aussicht entlarvt werden können. Dabei hat sich der prinzipielle Aufbau des Tests und seine methodische Motivation überhaupt nicht verändert. Verbessert wurden lediglich die vorher nur sehr vage möglichen Angaben über die Wahrscheinlichkeit für mögliche „Ausreißer"-Ereignisse, die bei der Versuchsreihe eines symmetrischen Würfels eintreten können. Bild 25 Carl Friedrich Gauß (1777-1855) in einer Darstellung auf der 10-DM-Banknote zusammen mit der nach ihm benannten Glockenkurve. Auf diese stieß Gauß bei der Auswertung astronomischer und geodätischer Messreihen und dem dabei notwen- digen Fehlerausgleich. Bild 26 Nochmals die Normalverteilung – nun passend skaliert zur Approximation der Verteilung der Zufallsgröße (X1 + ... + Xn)/n mit unabhängigen, identisch verteilten Zufallsgrößen X1, ... , Xn mit m = E(Xj) und ? = ?(Xj). Entsprechende Verbesserungen wären natürlich auch für solche Situationen wünschenswert, bei denen sich die Hypothese nicht auf eine Wahrscheinlichkeit bezieht, sondern auf einen Erwartungswert. Beispielsweise kann ein zu testendes Würfelexemplar darauf getestet werden, dass die mit ihm generierte Zufallsgröße den Erwartungswert 3,5 besitzt. Glücklicherweise kann der Zentrale Grenzwertsatz auch auf solche Situationen verallgemeinert werden. Für eine Folge X1, X2, ... von identisch verteilten und voneinander unabhängigen Zufallsgrößen mit dem Erwartungswert m = E(Xj) und der Standardabweichung ? = ? (Xj) gilt nämlich die meist einfach als Zentraler Grenzwertsatz bezeichnete Grenzwerteigenschaft So erhält man beispielsweise für die in n Würfen ermittelte durchschnittliche Wurfhöhe (X1 + ... + Xn)/n eines Würfels die Approximation , womit sich auch die Überlegungen aus Kapitel 2.6 stark verbessern lassen. Dabei ergibt sich für n = 5000 Würfe und a = –b = 2,576 die Approximation

Wegen 0,0622?5000 = 311 liegt damit die in 5000 Würfen erzielte Würfelsumme mit einer Wahrscheinlichkeit von 0,99 im Bereich von 5000?3,5 – 311 = 17189 bis 5000?3,5 + 311 = 17811. Ein „Ausreißer"-Ergebnis, das nicht in diesem, gegenüber dem in Kapitel 2.6 deutlich verengten, Bereich liegt, ist daher bei einem symmetrischen Würfel sehr unwahrscheinlich. Es ist daher plausibel, ein entsprechendes Ergebnis der Versuchsreihe als Indiz dafür zu werten, dass der verwendete Würfel überhaupt nicht symmetrisch ist. Berechnungen zu Arbuthnots Test Bei der systematischen Erörterung von Arbuthnots Test (siehe Seite 16 ff.) musste die Berechnung des Ablehnungsbereiches noch offen bleiben. Dies kann nun nachgeholt werden. Unter der Hypothese eines gleichwahrscheinlichen Geschlechts bei Neugeborenen beträgt die Wahrscheinlichkeit eines Übergewichtes männlicher Neugeborener in mindestens n der insgesamt 82 Jahre . Wir approximieren nun diesen Wert für n = 53 mittels der Normalverteilung:

Damit besitzen unter der Hypothese, dass die Geschlechter bei Neugeborenen gleichwahrscheinlich sind, Übergewichte eines Geschlech- tes, die in den 82 Jahrgängen stärker als 53:29 beziehungsweise 29:53 ausfallen, eine Wahrscheinlichkeit von 0,011. Ein entsprechend abgegrenzter Ablehnungsbereich hat daher eine Sicherheit von 99%, da durchschnittlich nur jede hundertste solche Testreihe ein solchermaßen ausgefallenes Ergebnis liefern würde, wenn die Hypothese stimmt. Abseits solcher Anwendungsbeispiele können wir uns auch allgemein anhand der sehr universellen Gesetzmäßigkeit des Zentralen Grenzwertsatzes klarmachen, warum die Normal- verteilung das Prädikat „normal" mehr als verdient: Wird der Wert irgendeiner Zufallsgröße im Rahmen einer genügend langen Messreihe gemessen, bei der das der Zufallsgröße zugrunde liegende Zufallsexperiment unabhängig voneinander genügend oft durchgeführt wird, dann unterliegen die Wahrscheinlichkeiten für den in der Versuchsreihe gemessenen Durchschnitt den Formeln der Normalverteilung. Dabei geht die Bedeutung dieser Grenzwerteigenschaft weit über die Fälle hinaus, bei der wir es wie bei der Ermittlung der durchschnittlichen Wurfhöhe eines Würfels mit offensichtlich zufälligen Phänomenen zu tun haben. Selbst bei der wiederholten Messung einer im Prinzip festen Größe, bei der die einzelnen Messergebnisse de facto zufälligen Ungenauigkeiten ausgesetzt sind, ist für das durchschnittliche Messreihenergebnis eine Normalverteilung zu erwarten, sofern die Messreihe genügend lang ist. Das heißt, werden mehrere Messreihen durchgeführt, so wird die dabei beobachtete Häufigkeitsverteilung der gemessenen Durchschnitte der Normalverteilung ähneln. Aber auch ohne Durchschnittsbildung tritt die Normalverteilung bei den Häufigkeitsverteilungen von vielen Merkmalswerten in Erscheinung. Der tiefere Grund für diese Erfahrungstatsache liegt in einer mathematischen Gesetzmäßigkeit, die in ihrer Allgemeinheit noch etwas über die soeben formulierte Version des Zentralen Grenzwertsatzes hinausgeht: Unter bestimmten Umständen ergibt sich selbst dann eine Normalverteilung als Grenzwert, wenn die summierten Zufallsgrößen X1, X2, ... nicht identisch verteilt sind. Das erklärt auch, dass viele in der Natur beobachtbare Merkmalswerte normalverteilt sind, beispielsweise die Körpergrößen erwachsener Menschen. Bei einem solchen Merkmalswert überlagern sich nämlich viele nicht deterministisch wirkende Einflussfaktoren.

Dabei kann man sich vorstellen, dass sich der Gesamtwert als Summe von Zufallsgrößen ergibt, von denen jede einen der Einflussfaktoren widerspiegelt. Sehr plastisch beschreibt dies Bartel Leendert van der Waerden in seinem 1957 erschiene- nen Buch Mathematische Statistik: Lebhaft erinnere ich mich noch, wie mein Vater mich als Knaben an den Rand der Stadt führte, wo am Ufer die Weiden standen und mich 100 Weidenblätter willkürlich pflücken ließ. Nach Aussonderung der beschädigten Spitzen blieben noch 89 unversehrte Blätter übrig, die wir dann zu Hause, nach abnehmender Größe geordnet, wie Soldaten in Reih und Glied stellten. Dann zog mein Vater durch die Spitzen eine gebogene Linie und sagte: „Dies ist die Kurve von Quételet. Aus ihr siehst du, wie die Mittelmäßigen immer die große Mehrheit bilden und nur wenige nach oben und unten zurückbleiben." Der erwähnte belgische Mathematiker, Astronom und Sozialwissen- schaftler Adolphe Quételet (1796-1874) war übrigens der Erste, der die Notwendigkeit für statistische Untersuchungen zur Erforschung gesellschaftlicher Erscheinungen propagierte. Dabei erkannte er insbesondere auch die Bedeutung der Normalverteilung. Aus heutiger Sicht erscheinen einige von Quételets Thesen über „mittlere Menschen" allerdings etwas skurril. Es bleibt nachzutragen, dass sich die Bezeichnung „Normalverteilung" erst relativ spät, nämlich in den Siebziger Jahren des neunzehnten Jahr- hunderts, eingebürgert hat. Die große Verbreitung der Normalverteilung zusammen mit der Eigenschaft, dass eine Normalverteilung durch nur zwei Parameter bestimmt wird, ermöglicht für viele Situationen prinzipielle Aussagen. Beispielsweise besitzen 68% der Bevölkerung einen Intelligenzquotienten, der höchstens um eine Standardabweichung vom Mittelwert 100 abweicht. Und 95% der Bevölkerung besitzen einen Intelligenzquotienten, der höchstens um die doppelte Standardabweichung vom Wert 100 abweicht. Der Zentrale Grenzwertsatz: ein Beweis Konnte die rein für die Binomialver- teilung geltende Version des Zentralen Grenzwertsatzes mittels der Approximation von Fakultäten bewiesen werden, so bedarf es zum Beweis der allgemeinen Version tiefer gehender Techniken. Meist werden zum Beweis charakteristische Funktionen verwendet, wie sie im Kasten Mathematischer Ausblick: weitere Kenngrößen (Seite 65 ff.) beschrieben wurden. Die Tradition dieses Ansatzes geht bereits auf Laplace zurück, der bei der Approximation der Binomialverteilung den „mittleren" Bino- mialkoeffizienten als konstanten Term der Funktion erkannte, der sich aus dieser Funktion mittels Integration von –? bis ? „herausfiltern" lässt (die anderen Summanden sind alle Winkelfunktionen, deren Integrale über volle Perioden verschwinden). Zwar ist diese Grundidee prinzipiell in voller Universalität verallgemeinerbar. Grundlage ist die schon erwähnte Umkehrformel, mit der die Wahrscheinlichkeitsverteilung einer Zufallsgröße aus ihrer charakteristischen Funktion berechnet werden kann. Im Fall der für den Zentralen Grenzwertsatz zu tätigenden Approximation reicht es sogar, die charakteristische Funktion nur in einem kleinen Bereich um 0 zu untersuchen, was mittels der kumulantenerzeugenden Funktion sehr einfach möglich ist. Die für diese Reduktion notwendige Argumentation ist aber im Detail alles andere als einfach. Von einer Darlegung wird daher hier abgesehen. Stattdessen werden wir einen „elementaren", das heißt ohne charakteristische Funktionen auskommenden, Beweis des Zentralen Grenzwertsatzes geben, der 1922 von Jarl Waldemar Lindeberg (1876- 1932) gefunden wurde. Ausgegangen wird von einer Folge von identisch verteilten und voneinander unabhängigen Zufallsgrößen X = X1, X2, ... mit dem Erwartungswert m = E(X) und der Standardabweichung ? = ?X , so dass wir nach einer affin linearen Transformation der Form Xj' = (Xj – m))/? ohne Beschränkung der Allgemeinheit sogar E(Xj) = 0 und Var(Xj) = 1 annehmen können. Zur Approximation der Wahrscheinlichkeiten verwenden wir eine weitere Folge von identisch verteilten Zufallsgrößen Y = Y1, Y2, ... mit E(Yj) = 0 und Var(Yj) = 1, die untereinander, aber auch zu den Zufallsgrößen X1, X2, ..., unabhängig sind. Weitere Details dieser Zufallsgrößen Y1, Y2, ... werden wir erst später in einer Weise festlegen, welche die gesuchte Approximation ermöglichen wird. Im Kasten Wahrscheinlichkeiten und ihr mathematisches Modell (Seite 95 ff.) wurde schon darauf hingewiesen, dass wertvolle Informationen über die Verteilungsfunktion einer Zufallsgröße Z aus Er- wartungswerten der Form E(f (Z)) zu erhalten sind. Dabei ist f eine Funktion, mit der die Werte der Zufallsgröße Z transformiert werden. Demgemäß verwenden wir als Grundlage der folgenden Beweisführung die Gleichung , wobei wir, um Hilfsmittel der Analysis anwenden zu können, die auf der rechten Seite stehende Indikatorfunktion durch genügend glatte Funktionen approximieren werden. Für eine solch glatte Funktion f werden wir dann Summen der Form dahingehend untersuchen, wie stark sich dieser Erwartungswert ändert, wenn der Index j um 1 erhöht wird – entsprechend der Ersetzung des Summanden Xj durch Yj. Zu diesem Zweck werden wir zunächst Erwartungswerte der Form E(f (U + V)) untersuchen, wobei U und V voneinander unabhängige Zufallsgrößen sind und f eine dreimal differenzierbare Funktion mit beschränkter dritter Ableitung f (3) ist. Um zu sehen, wie der Erwartungswert E(f (U + V)) durch die Eigenschaften eines einzelnen Summanden V beeinflusst wird, wollen wir ihn mit dem Erwartungswert E(f (U + W)) vergleichen, wobei die drei Zufallsgrößen U, V und W als voneinander unabhängig mit E(V) = E(W) und E(V 2) = E(W 2) vorausgesetzt werden: Zunächst erhalten wir aufgrund des Satzes von Taylor für einzelne Funktionswerte u, v und w die beiden Gleichungen wobei ??1 ? [u, u+v] und ?2? [u, u+w] geeignet gewählte Zwischenwerte sind. Nach einer Subtraktion der beiden Gleichungen bildet man den Erwartungswert. Auf diese Weise ergibt sich wegen die nicht mehr von der Zufallsgrößen U abhängende Abschätzung . Dabei bezeichnet ||f (3)||? das Maximum der als beschränkt vorausgesetzten dritten Ableitung der Funktion f. Außerdem ist die Abschätzung natürlich nur dann sinnvoll, wenn die beiden Erwartungswerte E(|V |3) und E(|W |3) endlich sind, was nur im Fall von endlichen Wertebereichen selbstverständlich ist, ansonsten aber vorausgesetzt werden muss. Ersetzt man nun Schritt für Schritt jeweils einen einzelnen Summanden Xj der Summe X1 + X2 + ... + Xn durch die gleich indizierte Zufallsgröße Yj, so erhält man nach n Schritten Verwendet man jetzt als Funktion f eine genügend gute und genügend glatte Approximation der Indikatorfunktion zum Intervall (a,b], so wird für große Anzahlen n die Näherung plausibel. Dabei werden wir mit Hilfe von geeignet ausgewählten, das heißt rechentechnisch einfach zu untersuchenden, Zufallsgrößen Y1, Y2, ... die gewünschte Approximation konkretisieren . Die Details bedürfen allerdings der Sorgfalt. Wir grenzen dazu zunächst die Indikatorfunktion 1(a,b] durch zwei ausreichend glatte Funktionen genügend eng ein. Konkret konstruieren wir zu einem beliebig klein vorgegebenen Wert ? > 0 mit ? < (b – a)/2 zwei dreimal differenzierbare Funktionen f1 und f2 mit den folgenden Eigenschaften:

Ein Bild verdeutlicht sofort, um was es bei dieser Approximation geht:

Auch wenn es sehr plausibel ist, dass solche Funktionen existieren, wollen wir die Details nicht gänzlich übergehen. Wir gehen dazu von einer dreimal stetig differenzierbaren Funktion h: R ? R aus mit den Eigenschaften ? 0 ? h(x) ? 1, ? h(x) = 0 für x ? 0, ? h(x) = 1 für x ? 1 und ? ||h (3)||? = 105/2. Mit Hilfe einer solchen Funktion h lassen sich nun die beiden ge- wünschten, dreimal stetig differenzierbare Funktionen f1 und f2 ab- schnittsweise durch die Funktionswerte 0, 1 sowie h(1 + (x – a)/?), h((x – a)/?), 1 – h(1 + (x – b)/?) und 1 – h((x – b)/?) definieren. Um das Grenzverhalten der Wahrscheinlichkeit für n ? ? zu berechnen, konkretisiert man die Auswahl der Zufallsgrößen Y1, ..., Yn. Naheliegenderweise nimmt man dafür standardnormalverteilte Zufallsgrößen, so dass auch die Zufallsgröße standardnormalverteilt ist. Damit ist und folglich Entsprechend beweist man die analoge Abschätzung nach unten: Insgesamt erhält man also wobei für die letzte Identität neben den konkreten Eigenschaften von standardnormalverteilten Zufallsgrößen auch die noch ausstehende Festlegung des die Approximationsgüte steuernden Parameters ? durch ? = n–1/8 eingeflossen ist. Die so insgesamt erzielte Abschät- zung zeigt wie gewünscht, dass die Approximation mit steigender Versuchslänge n beliebig genau wird. Aufgaben 1. Verallgemeinern Sie den Beweis des Zentralen Grenzwertsatzes auf Folgen von voneinander unabhängigen, aber nicht unbedingt identisch verteilten Zufallsgrößen X1, X2, ... mit endlichen Erwartungswerten und endlichen Standardabweichungen, welche die Bedingung erfüllen. Zeigen Sie dafür und damit für genügend große Werte n . Anmerkung: Die Voraussetzung ist insbesondere dann erfüllt, wenn die absoluten zentralen Momente dritter Ordnung E(|X – Xj|3) eine gemeinsame obere Schranke und die Standardabweichungen ?(Xj) eine gemeinsame untere, positive Schranke besitzen. 2. Berechnen Sie alle Momente einer standardnormalverteilten Zufallsgröße. Zeigen Sie dazu analog zu den Berechnungen des zweiten Moments in Fußnote 46 mittels partieller Integration . 3. Gegeben sind voneinander unabhängige, standardnormalverteilte Zufalls- größen Y1, ..., Yn. Folgern Sie aus den Ergebnissen von Aufgabe 2: Anmerkung: Solche Quadratsummen treten insbesondere dann in Erscheinung, wenn die Längen von Zufallsvektoren, deren Koordinaten voneinander unabhängige, standardnormalverteilte Zufallsgrößen sind, betrachtet werden. Weit häufiger sind in der Praxis allerdings diejenigen Fälle, in denen solche Quadrat- summen approximativen Charakter haben. 4. Beweisen Sie entsprechend dem Hinweis in Fußnote 45 die Gleichung Statt der Verwendung von Polarkoordinaten können Sie auch ein geometrisches Argument für die Identität finden, wobei Ur für den Umfang eines Kreises mit Radius r steht.

2.10 Monte-Carlo-Verfahren: Wenn Formeln zu kompliziert sind

Können die in langen Versuchsreihen auftretenden Wahrscheinlichkeiten, das heißt die Werte sogenannter Grenzverteilungen wie beispielsweise der Normalverteilung, einfacher bestimmt werden als durch umfangreiche und komplizierte Integralberechnungen? Das letzte Kapitel hat uns zwei Dinge gezeigt: Zum einen haben wir gesehen, dass die Normalverteilung in vielen Fällen anwendbar ist, wo es darum geht, den in einer großen Stichprobe für eine Zufallsgröße gemessenen Mittelwert als eine Aussage über den betreffenden Erwartungswert zu interpretieren. Zum anderen wurde deutlich, dass die zugrunde liegende Mathematik durchaus anspruchsvoll ist, wenn Summen mit vielen Summanden durch Integrale zu approximieren sind. Leider treten vergleichbare mathematische Schwierigkeiten auch in ähnlichen Situationen auf, bei denen die Bewertung des Ergebnisses einer umfangreichen Stichprobe eine andere, das heißt von der Normalverteilung verschiedene, Approximationsformel erfordert. Um die dabei notwendigen Integraltransformationen zu vermeiden, ist es daher wün- schenswert, alternative Wege zu finden, mit denen die Werte einer zur Approximation verwendbaren Grenzverteilung bestimmt werden können. Zwar sind solche Überlegungen für den praktischen Anwendungsfall meistens entbehrlich, da man dann ohnehin auf die Werte in entsprechenden Tabellen zurückgreifen kann. Aber spätestens dann, wenn die Werte einer solchen Tabelle und die Konstruktion des betreffenden Tests von andernfalls unvermeidlichen Mysterien befreit werden sollen, muss es zumindest plausibel gemacht werden, wie man solche Tabellenwerte bestimmt. Wir wollen uns diese Möglichkeit zunächst an einem Beispiel ansehen, wozu wir nochmals einen Würfel auf seine Symmetrie testen wollen. Bei unseren bisherigen Überlegungen haben wir Würfel-Testreihen bereits in zweierlei Hinsicht untersucht: ? Einerseits wurde die durchschnittliche Wurfhöhe gemessen, ? andererseits wurde die Anzahl der geworfenen Sechsen untersucht. Da sich beide Untersuchungen jeweils auf nur einen Teilaspekt der Würfelergebnisse konzentrieren, können mit einer solchen Verfahrensweise keinesfalls alle denkbaren Unsymmetrien aufgedeckt werden. Effizienter ist dagegen ein Verfahren, bei dem nach einer Versuchsreihe von n Würfen alle sechs Häufigkeiten N1, ..., N6 der sechs möglichen Ergebnisse simultan darauf untersucht werden, ob sie annährend ihrem jeweiligen Erwartungswert von n/6 entsprechen. Dabei bewährt hat sich wieder – ähnlich wie bei der Definition der Varianz – die Verwendung einer Summe von quadrierten Differenzen, die als ? 2, gesprochen Chi-Quadrat, bezeichnet wird und von dem Statistiker Karl Pearson (1857-1936) 1900 erstmals vorgeschlagen wurde: Offensichtlich bewirkt jedes unsymmetrische Verhalten des Würfels innerhalb der Testreihe, egal ob durch eine Unsymmetrie des Würfels oder rein zufallsbedingt verursacht, eine Vergrößerung des ? 2-Wertes. Der Wert der Testgröße misst damit quasi den Abstand zwischen dem theoretischen „Soll" und dem beobachteten „Ist". Ergibt sich in einer Testreihe ein auffällig großer Testgrößen-Wert, so ist dies ein Indiz für eine in Wahrheit gar nicht vorhandene Würfel-Symmetrie, das heißt, die Nullhypothese eines symmetrischen Würfels wird verworfen. Ab welchem Mindestwert die Symmetrie verworfen werden kann, wird – abhängig von der angestrebten Sicherheit, dabei keinen Fehler zu machen – Ziel unserer weiteren Überlegungen sein. Natürlich kann eine analoge Testgröße auch zur experimentellen Überprüfung einer Hypothese aufgestellt werden, die sich auf eine nicht symmetrische Situation bezieht. Für diesen allgemeinen Fall gehen wir von einem Experiment aus, dessen mögliche Ergebnisse mit den Wahrscheinlichkeiten p1, ..., ps eintreten. Wird nun dieses Zufallsexperiment in einer Testreihe n-mal unabhängig voneinander wiederholt, so definiert man die als Pearson'sche Stichprobenfunktion bezeichnete Testgröße durch , wobei N1, ..., Ns wieder die Häufigkeiten bezeichnen, mit denen die s Ergebnisse in den n Experimenten eingetreten sind. Der zugehörige Test von derjenigen Hypothese, gemäß der die Wahrscheinlichkeiten p1, ..., ps die unbekannte Wahrscheinlichkeitsverteilung beschreiben, wird als Pearson'scher Anpassungstest beziehungsweise ? 2-Test bezeichnet. Wie schon die Spezialversion zur Symmetrieprüfung des Würfels reagiert auch die allgemeine Form der ? 2-Testgröße auf jede Abweichung vom „Ideal"-Verhalten, das den Wahrscheinlichkeiten p1, ..., ps entspricht, mit einer Vergrößerung des „ausgewürfelten" Testgrößen-Wertes. Dabei wurde die Normierung der Summanden so vorgenommen, dass die Quadratwurzel eines einzelnen Summanden für sich allein betrachtet bei einer großen Anzahl N annähernd standardnormalverteilt ist – eine wirkliche Standardnormalverteilung würde sich ergeben, wenn im Nenner jeweils pj (1 – pj) n statt pj n stehen würde. In der Praxis rechentechnisch etwas einfacher zu handhaben ist übrigens die folgende, völlig äquivalente Form der ? 2-Testgröße:

Diese einfachere, andererseits in ihrer Funktionalität aber auch weniger plakative Form erklärt sich dadurch, dass jeder Summand der ursprünglichen ? 2-Testgrößen-Darstellung in der folgenden Weise umgeformt werden kann, so dass die anschließende Summation unter Berücksichtigung von p1 + ... + ps = 1 und N1 + ... + Ns = n die gewünschte Vereinfachung erbringt: Der Clou dieser ? 2-Testgröße sind nun die beiden folgenden Eigenschaften, deren Beweis im nächsten Kasten nachgetragen wird: ? Ist die Anzahl N der durchgeführten Versuche groß genug, hängt die Verteilung der ? 2-Testgröße nicht von den konkreten Werten der Wahrscheinlichkeiten p1, ..., ps ab, sondern nur von der Zahl der sogenannten Freiheitsgrade s – 1: Dabei müssen die Wahrscheinlichkeiten p1, ..., ps als von Null verschieden vorausgesetzt werden; außerdem ist der Konvergenzfortschritt an eine genügende Größe der Werte np1, ..., nps gebunden. ? Die Verteilung der ? 2-Testgröße ist bei genügend großen Werten n annährend gleich derjenigen Verteilung, die sich ergibt, wenn die Quadrate von s – 1 voneinander unabhängigen, standardnormalverteilten Zufallsgrößen addiert werden. Vor allem der ersten Eigenschaft, gemäß der die Verteilung der ? 2-Testgröße bei genügend langen Versuchsreihen invariant gegenüber Ände- rungen der Wahrscheinlichkeiten ist, verdankt die ? 2-Testgröße ihre große Bedeutung. Nur aufgrund dieses Umstandes können nämlich universelle Tabellen der entsprechenden Verteilungen erstellt werden, die nur nach der Anzahl der Freiheitsgrade differenziert werden müssen. Offen bleibt dagegen, wie man die Wahrscheinlichkeiten dieser Verteilungen – und damit insbesondere die Grenzen der Ablehnungsbereiche, das heißt die Mindestwerte für das Verwerfen der Null-Hypothese – numerisch bestimmen kann. Die in Statistikbüchern beschriebene Möglichkeit, komplizierte Integralberechnungen durchzuführen, wollen wir nur in einem kleinen Ausblick verfolgen (siehe Kasten Nur ohne Scheu vor Integralen: die Berechnung der ? 2-Verteilung, S. 159 f.). Nur auf den ersten Blick sehr mühsam ist eine gänzlich andere, nämlich experimentelle Verfahrensweise, ganz nach dem Motto „Probieren geht über Studieren": Wir nehmen einen garantiert symmetrischen Würfel, veranstalten mit ihm 1000 Wurfserien mit je 1000 Würfen. Die so empirische gemessene Verteilung des Merkmals „Wert der ? 2-Stichproben- funktion", oft auch als empirische Verteilungsfunktion bezeichnet, nehmen wir dann zur Approxi- mation der gesuchten Verteilung. Natürlich lassen sich sofort diverse Einwände formulieren: ? Der Aufwand von einer Million Würfen ist nicht gerade gering. ? Wie kann festgestellt werden, dass der verwendete Würfel garantiert symmetrisch ist? ? Im Vergleich zur exakten Berechnung der Verteilung ergeben sich zufallsbedingte Abweichungen. Die ersten beiden Einwände lassen sich sofort beseitigen, wenn wir die Würfe eines vollkommen symmetrischen Würfels mit einem Computer simulieren. Dabei lässt sich auch der letzte Einwand entkräften, wenn wir einfach mehr als 1000 Testreihen veranstalten und so den zufallsbedingten Fehler verringern. Bei dieser Gelegenheit lassen sich auch die Testreihen noch verlängern, um so eine bessere Annäherung an die Grenzverteilung zu erhalten. Tabelle 3 Einige Daten der ? 2-Verteilung: Tabelliert sind zu den Freiheitsgraden f = 1, ..., 10 diejenigen Argumente („Quantile") x, bei denen die jeweilige ? 2-Verteilungsfunktion P(? 2 ? x) den Wert p = 0,95, 0,99 beziehungsweise 0,995 erreicht . Gebräuchliche Tabellenkal- kulationsprogramme beinhalten die beiden Funktionen CHIVERT und CHIINV mit p = 1 – CHIVERT(x, f ) und x = 1 – CHIINV(1 – p, f ).

Schließlich befreit uns ein entsprechend programmierter Computer auch noch von der lästigen Erfassung und Auswertung der Testergebnisse: So veranstaltet man also 1000, 10000 oder am besten noch mehr Testreihen und sucht dann den einprozentigen Anteil mit maximalen ? 2-Werten heraus. Beispielsweise kann das zufallsabhängige Ergebnis lauten, dass 10 von 1000 veranstalteten Testreihen einen ? 2-Wert von mehr als 14,8 aufweisen, während bei 10000 veranstalteten Testreihen der einprozenti- ge Ausreißer-Anteil durch 15,2 abgegrenzt wird. Bei noch mehr Testreihen wird sich dann dieser Wert auf jeden Fall der Zahl 15,09 annähern . Mit genügend Ausdauer erhält man so alle Daten, die man für die prakti- sche Durchführung von ? 2-Tests braucht (siehe Tabelle 3) . Es bleibt damit „nur" noch die Frage zu klären, wie man Würfelexperimente mit einem Computer simulieren kann. Dass diese Frage keinesfalls banal ist, liegt schlicht daran, dass ein Computer im Allgemeinen deterministisch arbeitet, das heißt, anders als ein Würfel startend von der glei- chen Anfangssituation – bestehend aus Programm und Input – immer die gleichen Ergebnisse liefert. Die Verteilung der ? 2-Testgröße Wir wollen für die Verteilung der ? 2-Testgröße zeigen, dass sie bei langen Versuchsreihen nur von der Freiheitsgrade-Anzahl s – 1, nicht aber von den konkreten Werten der Wahrscheinlichkeiten p1, ..., ps abhängt, solange diese Wahrscheinlichkeiten nur größer als 0 sind. Nichts zu zeigen ist im Fall s = 1, für den die Testgröße ? 2 offen- sichtlich konstant gleich 0 ist. Im Fall s > 1 beginnen wir damit, die beiden zu den Wahrscheinlichkeiten p1 und p2 gehörenden Ergebnisse bei der Zählung der Häufigkeiten zusammenzulegen, um so die Anzahl der Freiheitsgrade auf s – 2 zu verringern. Konkret werden wir zunächst untersuchen, in welcher Beziehung die beiden zugehörigen ? 2-Testgrößen zueinander stehen. Dazu bilden wir und definieren zum Zweck des Vergleichs . Dabei lässt sich der letzte Ausdruck noch umformen: Wir wiederholen die gerade dargelegte Vorgehensweise, und zwar mit sukzessiv immer weiter zusammengelegten Ereignissen, bis zum Wert s = 1. Auf diese Weise erhält man die folgende Darstellung für die ? 2-Zufallsgröße in Form einer Summe von s – 1 Quadraten: Wir merken zunächst an, dass jede dieser Zufallsgrößen ?1, ... ?s–1 den Erwartungswert 0 und die Standardabweichung 1 besitzt. Wir können uns beim Nachweis auf die erste Zufallsgröße ?1 beschränken, weil die weiteren Zufallsgrößen nach dem Zusammenlegen von Ereignissen analog zur ersten Zufallsgröße ?1 definiert sind. Wir bemerken zunächst, dass die Werte der Zufallsgrößen N1 und N2 Ereignis-Häufigkeiten entsprechen, deren Werte sich pro Einzelexperiment um 1 erhöhen oder unverändert bleiben. Folglich ist die Zufallsgröße p2 N1 – p1 N2 gleich einer Summe von n unabhängigen Zufallsgrößen, von denen jede nur die Werte p2, –p1 und 0 annehmen kann, und zwar mit den Wahrscheinlichkeiten p1, p2 beziehungsweise 1 – p1 – p2. Die Gesetzmäßigkeiten für Erwartungswert und Varianz zeigen

Damit folgt – unter nochmaligem Rückgriff auf die Darstellungen der Zufallsgrößen ?1, ... ?s–1 als Summen von jeweils n unabhängigen Zufallsgrößen – aufgrund des Zentralen Grenzwertsatzes, dass die Wahrscheinlichkeitsverteilungen der Zufallsgrößen ?1, ... ?s–1 gegen die Standardnormalverteilung konvergieren. Insgesamt wird damit die Vermutung plausibel, dass die Verteilungsfunktion P(? 2 ? t) zur Testgröße ? 2 mit steigender Versuchszahl n gegen die Verteilungsfunktion einer Summe von s – 1 Quadraten von voneinander unabhängigen und standardnormalverteilten Zufallsgrö- ßen konvergiert . Für einen vollständigen Nachweis werden wir per Induktion nachweisen, dass die ? 2-Testgröße die Form besitzt, wobei voneinander unabhängige, standardnor- malverteilte Zufallsgrößen sind und Dn eine Zufallsgröße ist, die bei steigender Versuchszahl n stochastisch gegen 0 konvergiert. Für s = 1 ist wieder nichts zu zeigen. Im Fall s > 1 führt man die der ? 2-Testgröße zugrunde liegenden Zufallsentscheidungen in zwei Stufen durch. In der ersten Stufe werden, wie bereits dargelegt, die bei- den zu den Wahrscheinlichkeiten p1 und p2 gehörenden Ergebnisse zusammengelegt. In jedem Einzelexperiment wird daher zunächst eine Entscheidung zwischen s – 1 Ergebnissen mit den Wahrscheinlichkeiten p1 + p2, p3, ..., ps herbeigeführt. In denjenigen Experimenten, bei denen das erste Ergebnis getroffen wird, erfolgt als zweite Stufe eine dazu unabhängige Entscheidung zwischen den beiden Unter-Ergebnissen mit den bedingten Wahrscheinlichkeiten p1/(p1 + p2) und p2' = p2/(p1 + p2). Zur en-bloc-mäßigen Abwicklung der zweiten Stufe stellen wir uns eine Folge von zueinander und zu den Ergebnissen der ersten Stufe unabhängigen Bernoulli-Experimenten mit der Wahrscheinlichkeit p2' vor, wobei wir abhängig von den Ergebnissen der ersten Stufe auf die ersten N1 + N2 Ergebnisse zurückgreifen. Bei den Bernoulli-Experimenten, die der zweiten Stufe zugrunde liegen, ist die Zahl der Treffer Tm bei einer festen Zahl von Experimenten m binomialverteilt. Aufgrund des Zentralen Grenzwertsatzes kann die Verteilung der Treffer-Anzahlen Tm für große Versuchszahlen m durch eine Normalverteilung approximiert werden. Eine stochastische Konvergenz liegt aber nicht vor. Allerdings lässt sich eine Folge von standardnormalverteilten Zufallsgrößen Zm konstruieren, mit denen auch die Werte der Zufallsgrößen Tm approximiert werden können : Wir kommen nun wieder zurück zur schon hergeleiteten Zerlegung der ? 2-Testgröße: . Die beiden Summanden entsprechen der zweistufigen Abwicklung der Zufallsentscheidungen. Den ersten Summanden, dessen Wert durch die zweite Stufe bestimmt wird, formen wir um zu Innerhalb des so umgeformten Ausdrucks konvergiert der erste Faktor nach dem Gesetz der großen Zahlen fast sicher gegen 1. Die Verteilung des zweiten Faktors konvergiert nach dem Satz von Moivre- Laplace gegen eine Standardnormalverteilung. Wie dargelegt können wir die Werte des zweiten Faktors durch die Zufallsgröße approximieren. Damit gibt es eine Approximation der Form mit einer stochastisch gegen 0 konvergierenden Zufallsgröße Fn und einer standardnormalverteilten Zufallsgröße . Zusammen mit der Induktionsannahme erhält man , wobei die Werte der standardnormalverteilten und voneinander unab- hängigen Zufallsgrößen nur von den Zufallsentscheidungen der ersten Stufe bestimmt werden, so dass diese Zufallsgrößen unabhängig zur Zufallsgröße sind. Auf Basis der gerade induktiv bewiesenen Summendarstellung erkennt man nun für die Werte P(? 2 ? t) der Verteilungsfunktion das behauptete Konvergenzverhalten: Für eine beliebig klein vorgegebene Schranke ? > 0 gilt nämlich , sofern nur die Versuchsanzahl n genügend groß ist, , wobei Y1, ..., Ys–1 voneinander unabhängige, standardnormalverteilte Zufallsgrößen sind. Da deren Quadratsumme eine stetige Verteilungsfunktion besitzt, erhält man beim Übergang ? ? 0 die gewünschte Aussage.

Wie man bei schiefen Würfeln die Chancen ausgleicht Auch ohne Computer lassen sich durchaus qualitativ hochwertige Folgen von Zufallszahlen generieren. Das kann sogar mit Hilfe von Spielwürfeln geschehen, deren Symmetrie keines- wegs gesichert ist . Allerdings muss man dann einen Trick anwenden: Dazu würfelt man zur Erzeugung jeder Zufallszahl einfach mehrfach, addiert die dabei erzielten Ergebnisse und berücksichtigt von dieser Summe schließlich nur den Rest, der bei der Division durch 6 entsteht. Im Ergebnis entspricht diese Verfahrensweise der Verwendung eines sechsfeldrigen Würfelrundkurses, auf dem ein Spielstein jeweils um das Ergebnis des aktuell erzielten Würfelwurfes vorgerückt wird, um nach dem letzten Wurf das dann erreichte Feld als Zufallsergebnis zu werten. In der Mathematik, genauer gesagt in der sich mit den Eigenschaften ganzer Zahlen beschäftigenden Zahlentheorie, nennt man solche Operationen Modulo-Arithmetik. Zahlenwerte werden dabei zyklisch interpretiert, wie man es von Zeitangaben kennt, die kein Jahr enthalten. Beim Würfeln auf dem 6-Felder-Rundkurs haben die beiden Würfelergebnisse 3-1 dieselbe Wirkung wie 4-6, denn 3 + 1 = 4 und 4 + 6 = 10 ergeben bei der Division durch 6 denselben Rest, nämlich 4. In Formelschreibweise notiert man diesen Sachverhalt abkürzend als 3 + 1 ? 4 + 6 ? 4 mod 6. Um zu erkennen, wieso eine solche Verfahrensweise die Wahrschein- lichkeiten zwischen den einzelnen Ergebnissen ausgleicht, untersu- chen wir etwas allgemeiner die Situation von zwei voneinander unab- hängigen Zufallsgrößen X und Y mit ganzen Werten. Dabei werden wir ausgehend von den Wahrscheinlichkeitsverteilungen, die beide Zufallsgrößen in Bezug auf die bei der Division durch n entstehenden Restklassen besitzen, die entsprechende Wahrscheinlichkeitsverteilung von X + Y bestimmen. Konkret wollen wir uns ansehen, wie sich bei einer solchen Modulo-Addition die „Symmetrie-Störungen", das heißt die Abweichungen von der Gleichverteilung, ausgleichen. Dazu gehen wir bei den Werten der Wahrscheinlichkeitsverteilungen von X und Y von folgenden Darstellungen aus (j = 0, 1, ..., n – 1): Offensichtlich erfüllen die Werte d0, ..., dn–1, e0, ..., en–1, welche die Abweichungen von der Gleichverteilung charakterisieren, die Eigen- schaften . Außerdem bezeichnen wir mit D und E die größten Absolutbeträge unter diesen Abweichungen: Nun erhalten wir für die modulo n gebildete Summe X + Y die folgende Wahrscheinlichkeitsverteilung, wobei wir die Modulo-Arithmetik auch auf die Indizes übertragen:

Die Abweichung der durch Modulo-Summation erzielten Verteilung zur Gleichverteilung kann daher folgendermaßen nach oben abgeschätzt werden:

Ausgehend von einer durch D < 1 beschränkten Asymmetrie erhält man damit nach m Zufallsexperimenten pro generierter Zufallszahl eine Wahrscheinlichkeitsverteilung, deren Asymmetrie durch Dm begrenzt wird. Bei genügend langen Versuchsreihen gleichen sich daher die Wahrscheinlichkeiten für die n Restklassen beliebig nahe einander an. Für den Fall eines Würfels bedeutet dies konkret: Ist die Symmetrie des Würfels nicht so stark verletzt, dass eine Seite die Wahrscheinlichkeit von 2/6 = 1/3 erreicht oder überschreitet (was in der Praxis nicht mal annähernd zu erwarten ist) , kann auf dem beschriebenen Weg der Ausgleich der Wahrscheinlichkeiten beliebig genau sichergestellt werden. Dazu muss einfach – abhängig vom Grad der Asymmetrie – eine genügend große Anzahl von Würfen festgelegt werden, mit der jede Zufallszahl mittels einer Modulo-6- Addition ermittelt wird. Wie aber kommt nun der Zufall in den Computer? Ein Würfel ist ja offensichtlich nicht eingebaut. Zwei Möglichkeiten bieten sich an: ? Außerhalb des Computers werden Zufallsexperimente durchgeführt, wobei die Ergebnisse für den Computer registriert und aufgezeichnet werden. Will man sich die Arbeit sparen, kann man auch auf Roulette- Permanenzen von Spielkasinos zurückgreifen und diese gegebenenfalls transformieren. Die so erhaltene Liste sogenannter Zufallszahlen kann man dann für die verschiedensten Untersuchungen verwenden. So wurde 1955 ein Buch veröffentlicht, das eine Million Zufallsziffern enthält. ? Der Computer selbst erzeugt die Zufallszahlen, obwohl sich Berechnung und Zufall eigentlich auszuschließen scheinen. Es gibt allerdings Rechenprozesse, deren Ergebnisse für den unvoreingenommenen Betrachter keiner erkennbaren Regel folgen und sich statistisch wie zufällige Zahlen verhalten. Man spricht deshalb auch von Pseudo- Zufallszahlen. In der Praxis wird heute generell nur noch die zweite Methode verwendet, denn bei ihr ist der Aufwand deutlich geringer. So besitzt heute eigentlich jede moderne Programmiersprache einen Befehl, mit dem solche Pseudo-Zufallszahlen erzeugt werden können. Beispielsweise erhält man durch Math.floor(100*Math.random()+1) in JavaScript und INT(100*RND(1))+1 in BASIC gleichverteilte, gan- ze Pseudo-Zufallszahlen zwischen 1 und 100. Auch wenn es in der Praxis, etwa zur Simulation einer Reihe von Würfelwerten und einer dazu berechneten ? 2-Testgröße, völlig reicht, die entsprechende Standardfunktion der verwendeten Programmiersprache zu verwenden, wollen wir den Rest dieses Kapitels dazu nutzen, etwas die mathematischen Grundlagen zu beleuchten, mit denen Pseudo- Zufallszahlen erzeugt werden. Die Rechenverfahren zur Erzeugung von Pseudo-Zufallszahlen basieren meist auf der sogenannten Modulo-Arithmetik ganzer Zahlen, wie wir sie schon im Kasten Wie man bei schiefen Würfeln die Chancen ausgleicht (Seite 152 ff.) kennengelernt haben. Allen diesen Verfahren gemein ist, dass sie jeweils auf einer Formel basieren, mit der bestimmte Daten Schritt für Schritt transformiert werden, wobei in jedem Schritt eine Pseudo-Zufallszahl entsteht. Wir wollen uns dies zunächst am Beispiel einer Formel ansehen, die viel zu einfach ist, um etwas wirklich Zufälliges zu produzieren. Trotzdem ist die Formel aber dazu geeignet ist, die prinzipielle Funktionswiese einer solchen Pseudo-Zufallszahlen-Erzeugung zu verdeutlichen. Beginnend mit dem Startwert x1 = 15 generieren wir eine Zahlenfolge x1, x2, x3, ... mittels der Formel , wobei das durch „mod" abgekürzte Wort modulo wie schon im letzten Kasten für den Sachverhalt steht, dass vom Produkt 42xn so lange die Zahl 101 abgezogen wird, bis das Ergebnis im Bereich von 0 bis 100 liegt. Beispielsweise ergibt sich aus der ersten Zahl x1 = 15 der Folgewert x2 = 42·15 – 6·101 = 24. Dadurch, dass das abzuziehende Vielfache von 101 im Verlauf der Zahlenfolge stark schwankt, sind Regelmäßigkeiten in der Zahlenfolge nur schwer erkennbar: Grund dafür, dass die angegebene Formel alle Zahlen von 1 bis 100 erzeugt, ist übrigens der sogenannte kleine Satz von Fermat. Danach gibt es für jede Primzahl p eine Zahl a, so dass die Zahlen 1, a, a2, a3, ..., ap–1 bei der Division durch p jeden möglichen Rest mit Ausnahme der 0 bilden. Im Beispiel ist p = 101 und a = 42. Um wirklich praktisch verwendbare Pseudo-Zufallszahlen zu erzeugen, müssen sehr große Primzahlen verwendet werden; gebräuchlich sind Werte im Milliardenbereich und darüber. Ist eine Primzahl p festgelegt, gibt es für die mögliche Auswahl der Zahl a meist sehr viele Möglichkeiten, damit die erzeugte Sequenz wirklich alle Zahlen von 1 bis p – 1 erreicht. Einschränkungen ergeben sich aber auch dadurch, dass die erzeugten Zahlen einen zumindest augenscheinlichen zufälligen Charakter haben sollen. Das heißt insbesondere, dass auf Zahlen einer bestimmten Größenordnung immer Zahlen des gesamten Größenspektrums folgen müssen, um so bei aufeinanderfolgenden Zahlen das einer stochastischen Unabhängigkeit entsprechende Verhalten zu erzielen. Dadurch scheiden unter anderem relativ kleine Werte für a aus. Um Pseudo-Zufallszahlen zu erhalten, die universell einsetzbar sind, wird die generierte Zahlenfolge meist gleichverteilt in den Bereich zwischen 0 und 1 transformiert. Dies geschieht mit einer Division durch p. Aus einem so erhaltenen Zufallswert y kann dann mit INT(6*y+1), das ist der ganze Anteil der zwischen 1 und 7 liegenden Dezimalzahl 6y + 1, ein Würfelergebnis simuliert werden. Bei vielen der eingesetzten Zufallsgeneratoren ist das Erzeugungsprinzip verallgemeinert worden. Einerseits wird der Rest nicht unbedingt zu einer Primzahl gebildet, andererseits kann die Rekursionsformel eine komplexere Gestalt haben. Meist erhält man eine neue Pseudo-Zufallszahl xn+k aus k vorangegangenen Zahlen mit einer Formel vom Typ .

Dabei sind a0, a1, ..., ak–1, b, m sowie die Anfangswerte x1, x2, ... und xk geeignet gewählte ganze Zahlen. Alle erzeugten Zahlen sind ganze Zahlen zwischen 0 und m – 1, wobei die Periode bei der erhaltenen Zahlen- folge maximal mk lang sein kann. Unter den einfach aufgebauten Zufallsgeneratoren, das heißt unter sol- chen mit k = 1 und b = 0, sind unter anderem die folgenden Parameter gebräuchlich:

In der Praxis bewährt hat sich auch die Kombination unterschiedlicher Zufallsfolgen . Wird ein experimentelles Verfahren auf der Basis von Zufallszahlen durchgeführt, spricht man von einer Monte-Carlo-Methode. Ihr Vorteil liegt darin, dass mit einem universellen Ansatz relativ einfach und schnell ungefähre Ergebnisse erzielt werden können, deren Genauigkeit für die Praxis meist völlig reicht. Die Einfachheit des Verfahrens erlaubt es insbesondere, gegebenenfalls Simulationen unter verschiedenen Bedingungen durchzuführen, um anschließend die Ergebnisse miteinander zu vergleichen. Auf diese Art kann etwa die Abhängigkeit des Ergebnisses von Eingangsparametern zahlenmäßig erfasst werden. Da sich Monte-Carlo-Methoden ohne Computer kaum durchführen las- sen, überrascht es kaum, dass Monte-Carlo-Methoden ungefähr so alt sind wie die ersten Computer. Obwohl die theoretischen Grundlagen, also insbesondere das Gesetz der großen Zahlen, schon lange bekannt waren, erfolgte erst 1949 die erste Publikation über Monte-Carlo-Methoden. Begründet wurde die Monte-Carlo- Methode wohl schon drei Jahre früher, nämlich 1946 durch Stanislaw Ulam (1909-1984). Maßgebliche Beiträge gehen auf John von Neumann (1903-1957) zurück, die dieser anlässlich der Berechnung von Kernreaktionen leistete. Wie schon dargelegt sind Monte-Carlo-Methoden insbesondere dazu ge- eignet, Verteilungen von statistischen Prüfgrößen empirisch zu ermitteln. Die wohl großartigste Idee in Bezug auf Monte-Carlo-Methoden ist es, solche Verfahren auch auf Bereiche aus- zudehnen, die im Prinzip keinem Zufallseinfluss unterworfen sind. So lassen sich zum Beispiel Flächen oder Rauminhalte, etwa von Kreisen, Kugeln oder anderen Figuren und Körpern, dadurch bestimmen, dass man zufällig Punkte innerhalb eines genügend großen Quadrates beziehungs- weise Würfels generiert und dann zählt, wie viel anteilig davon im zu messenden Objekt liegen. Mit steigender Länge der Versuchsreihe erhält man so Ergebnisse, deren statistische Abweichungen immer geringer – das heißt kleiner und unwahrscheinlicher – werden. Nur ohne Scheu vor Integralen: die Berechnung der ? 2-Verteilung Will man die Bestimmung der ? 2-Verteilung nicht empirisch vor- nehmen, so müssen die Wahrscheinlichkeiten der Form berechnet werden. Zu untersuchen sind also Ereignisse, die auf Basis des f-dimensionalen Zufallsvektors Y = (Y1, …, Yf)T definiert sind, wobei die Koordinaten Y1, …, Yf voneinander unabhängig und stan- dardnormalverteilt sind . Ist das zu untersuchende Ereignis als karte- sisches Produkt von Intervallen definiert, so kann deren Wahrschein- lichkeit direkt auf Basis der (eindimensionalen) Normalverteilung berechnet werden. Beispielsweise ist im einfachsten nicht-trivialen Fall von f = 2 Freiheitsgraden . Da eine solche Berechnung nur für Ereignisse funktioniert, deren Wertebereich im zweidimensionalen Fall einem Rechteck bezie- hungsweise allgemein einem Produkt von Intervallen entspricht, ist eine Umformung zu einem mehrdimensionalen Integral sinnvoll: Bild 27 Die Dichte der zweidimensionalen Standardnormalverteilung Die mit der letzten Identität erhaltene Integraldarstellung auf Basis einer zweidimensionalen Dichte funktioniert auch für ein beliebiges Ereignis B, dessen Wertebereich keinem Rechteck entspricht. Die Wahrscheinlichkeit P((Y1, Y2) ? B) kann daher geometrisch als Volumen interpretiert werden: Der zuge- hörige Körper erstreckt sich im dreidimensionalen Koordinatensys- tem senkrecht oberhalb des in der Grundebene gelegenen Inte- grationsbereichs B und wird nach oben durch die Fläche begrenzt, die sich als Funktionsgraph des Integranden ergibt. Dabei handelt es sich um eine Rotationsfläche, weil der Integrand nur von der Distanz zum Nullpunkt abhängt. Dass die Fläche durch die Rotation der Gauß'schen Glockenkurve um die vertikale Achse entsteht, erkennt man, wenn man den Integranden auf der durch die Gleichung s2 = 0 beschriebenen Ebene betrachtet. Analog kann auch im Fall von mehr als zwei Freiheitsgraden vorge- gangen werden . Um die Werte der ? 2-Verteilung zu berechnen, muss zur Hyperkugel mit Radius das Integral berechnet werden. Dieses Integral kann aufgrund seines rotationssymmetrischen Integranden mittels einer Variablentransformation in Polarkoordinaten vereinfacht werden. Aber auch ohne explizite Durchführung der Transformation ist es direkt plausibel, dass sich das Integral auf Basis der Oberfläche Of(s) der f- dimensionalen Hyperkugel B mit Radius s folgendermaßen umformen lässt:

Auf die explizite Berechnung der Konstanten soll hier verzichtet werden. Natürlich sind die beiden ersten Werte, nämlich O2(1) = 2? und O3(1) = 4?, aus der Elementargeometrie bestens bekannt. Der nächste Wert lautet O4(1) = 2?2. Allgemein sind diese Konstanten durch Werte der Gamma-Funktion, die als eine Verallgemeinerung der Fakultät auf reelle Zahlen verstanden werden kann, darstellbar. Abschließend bleibt anzumerken, dass die Pearson'sche Stichprobenfunktion auf Basis der Begriffsbildungen zu multivariaten Normalverteilungen eine weitere Deutung erhält. Zunächst kann man den Wert der Testgröße als Quadrat der Länge des Zufallsvektors auffassen. Da die s Koordinaten dieses Zufallsvektors stets die Summe 0 besitzen, liegt er in einer Hyperebene, das heißt in einem (s–1)- dimensionalen Unterraum. Innerhalb dieser Hyperebene lässt sich ei- ne Verteilungskonvergenz gegen eine (s–1)-dimensionale Standard- normalverteilung nachweisen. Aufgaben 1. Zeigen Sie unter Verwendung von Aufgabe 3 des letzten Kapitels, dass die ? 2-Verteilung bei nicht zu kleinen f Freiheitsgraden durch eine Normalverteilung mit dem Erwartungswert f und der Standardabweichung approximiert werden kann. 2. Beweisen Sie Fishers Approximation der Chi-Quadrat-Verteilung für eine Zufallsgröße mit einer zu f Freiheitsgraden ? 2-verteilten Zufallsgröße S. Verwenden Sie dazu ausgehend von der Darstellung eine Taylor-Entwicklung, deren Anwendbarkeit zu begründen ist. Zeigen Sie auf diese Weise, dass die Verteilung der Zufallsgröße gegen eine Standardnormalverteilung konvergiert. 3. Ermitteln Sie mit Hilfe einer Tabelle, eines Statistik-Programmes oder eines Tabellenkalkulationsprogrammes das 0,99-Quantil der ? 2-Verteilung zu f = 1000 Freiheitsgraden. Vergleichen Sie diesen Wert mit der Approximation gemäß Aufgabe 1. 4. Erstellen Sie ein Computerprogramm, das die Werte von Tabelle 3 mittels einer Monte-Carlo-Simulation näherungsweise ermittelt. Verwenden Sie dazu einmal 1000 Blöcke mit je 1000 Versuchen und einmal 10000 Blöcke mit je 10000 Versuchen. 5. Beweisen Sie für die Chi-Quadrat-Verteilung zu f = 2 Freiheitsgraden die Identität . 2.11 Resümee der Wahrscheinlichkeitsrechnung Was sind die beiden wichtigsten Resultate der Wahrscheinlichkeitsrech- nung? Bekanntlich gibt es einen Hauptsatz der Differential- und Integralrechnung. Die Thermodynamik kennt sogar zwei Hauptsätze, und in der Algebra gibt es sowohl einen Fundamentalsatz der Algebra als auch einen Hauptsatz der Galois-Theorie. Und auch für den Bereich der Mathematischen Statistik ist die Bezeichnung eines Hauptsatzes sogar gebräuchlich, wenn es um die Konvergenz empirischer Verteilungsfunktionen geht (siehe Fußnote 53). Allerdings hat sich eine entsprechende, allgemein gebräuchliche Benennung für die Disziplin der Wahrscheinlichkeitsrechnung nicht etabliert, obwohl es kaum einen Dissens darüber geben dürfte, welche Resultate diese Bezeichnung verdienen würden: ? Das wichtigste Resultat ist zweifelsohne das Gesetz der großen Zahlen. Insbesondere in seiner starken Form besagt es letztlich, dass unsere intuitive Vorstellung einer Wahrscheinlichkeit tatsächlich dem entspricht, was im formalen Modell als Wahrscheinlichkeit definiert wurde: Mit Wahrscheinlichkeit 1 konvergieren die relativen Häufigkeiten eines Ereignisses, dessen zugrunde liegendes Zufallsexperiment im Rahmen einer Versuchsreihe unabhängig wiederholt wird, gegen die Wahrscheinlichkeit des Ereignisses. Die geringfügige Einschränkung „mit Wahrscheinlichkeit 1" ist dabei unvermeidbar, auch wenn sie aufgrund des Selbstbezugs ein wenig an das Abenteuer des Barons von Münchhausen erinnert, der sich bekanntlich an seinen eigenen Stiefeln aus dem Sumpf zog: Das sich auf Versuchsreihenverläufe beziehende Konvergenz-Ereignis, das durch die Konvergenz der relativen Häufigkeiten gegen die Wahrscheinlichkeit charakterisiert wird, besitzt also die Wahrscheinlichkeit 1. Außerhalb des Konvergenz- Ereignisses liegende Versuchsreihenverläufe wie beispielsweise eine nur aus Sechsen bestehende Serie von Würfelergebnissen sind möglich, besitzen aber insgesamt nur die Wahrscheinlichkeit 0. ? Das zweite Hauptresultat ist sicher der Zentrale Grenzwertsatz. Mit ihm wird deutlich, warum die Normalverteilung bei der Messung vieler Merkmalshäufigkeiten in Erscheinung tritt, nämlich überall dort, wo sich die Wirkungen von mehreren, voneinander unabhängigen Zufallseinflüssen addieren. Zugleich ist der Zentrale Grenzwertsatz das Muster für ähnlich gelagerte Szenarien, in denen die Wahrscheinlichkeitsverteilung von Testgrößen durch relativ universelle, das heißt nur von wenigen Parametern abhängenden, Integralformeln angenähert werden kann. Im vorherigen Kapitel haben wir eine solche Situation bei der Untersuchung der ?2-Testgröße kennengelernt, auch wenn wir die dazugehörenden Integralformeln bewusst ausgeklammert haben. Beiden Hauptresultaten gemeinsam ist, dass sie – obwohl zu ihrer Herleitung nur die grundlegenden Eigenschaften von Wahrscheinlichkeiten verwendet wurden – tief liegende Aussagen über komplexe Situationen machen, nämlich über den Verlauf von Versuchsreihen. Die große Bedeutung der beiden Resultate ist selbstverständlich auch der Grund dafür, dass die mathematischen Beweisführungen trotz einiger im Detail schwierigen Argumentationen hier bewusst nicht unterschlagen wurden, da nur auf diesem Weg der Charakter von logischen Folgerungen aus den grundlegenden Eigenschaften des Wahrscheinlichkeitsbegriffs deutlich wird. Die in der gegebenen Beweisführung offen gebliebenen Lücken betreffen übrigens weniger die konkrete Argumentationskette als bewusst ausgeklammerte Grundlagen, insbesondere in Bezug auf die formale Charakterisierung von Zufallsgrößen mit nicht endlichem Wertebereich.

3 Statistische Methoden

3.1 Die Problemstellungen der Mathematischen

Statistik

In welcher Weise kann von den Ergebnissen einer Stichprobenuntersuchung auf die Grundgesamtheit geschlossen werden?

In den generellen Überlegungen in Kapitel 1.2 haben wir dargelegt, dass sich die Statistik mit Häufigkeitsverteilungen beschäftigt, mit der Merkmalswerte innerhalb einer fest vorgegebenen Grundgesamtheit auftreten. Dabei dienen die Methoden der Mathematischen Statistik dem Ziel, Er- kenntnisse über solche Häufigkeitsverteilungen mittels der Untersuchung einer Stichprobe – statt der Grundgesamtheit – zu erhalten. Um Stichprobenuntersuchungen mit den mathematischen Überlegungen, die wir im zweiten Teil des Buches angestellt haben, auswerten zu können, legen wir gedanklich dasjenige Zufallsexperiment zugrunde, bei dem zufällig mit gleichverteilten Wahrscheinlichkeiten ein einzelnes Mitglied aus der Grundgesamtheit ausgewählt wird, um dann mit dessen Merkmalswert den Wert einer Zufallsgröße zu definieren. Die auf die Grundgesamtheit bezogene Häufigkeitsverteilung eines Merkmals kann so als Wahrschein- lichkeitsverteilung einer Zufallsgröße interpretiert werden. Gleichzeitig erscheinen die Ergebnisse einer Stichprobenuntersuchung als Folge von Werten, die für diese Zufallsgröße im Rahmen einer Versuchsreihe realisiert, das heißt „ausgewürfelt", werden (siehe Bild 28). Basierend auf dieser mathematischen Interpretation kann man nun die für die Mathematische Statistik zentrale Aufgabenstellung, die auch als Einstichprobenproblem bezeichnet wird, neu formulieren: Gegeben ist eine Zufallsgröße X, deren Verteilung überhaupt nicht oder zumindest nicht vollständig bekannt ist. Wird das zugrunde liegende Zufallsexperiment im Rahmen einer Versuchsreihe mehrfach, unabhängig voneinander wiederholt, so entspricht diese Situation einer endlichen Folge von identisch verteilten, voneinander unabhängigen Zufallsgrößen X = X1, ..., Xn , für die in der durchgeführten Versuchsreihe abhängig von deren Verlauf ? die Ergebnisse X1(? ), ..., Xn(? ) realisiert, also „ausgewürfelt", werden. Auf Basis dieser Be- obachtungswerte sind nun Aussagen über die Wahr- scheinlichkeitsverteilung der Zufallsgröße X gesucht. Bild 28 Gedankliche Grundlage einer statistischen Methode ist das Zufallsexperiment, bei dem mit gleichverteilten Wahrscheinlichkeiten ein einzelnes Mitglied aus der Grundgesamtheit ausgelost wird. Darauf aufbauend wird versucht, aus den Merkmals- werten einer zufällig ausgewählten Stichprobe Erkenntnisse über die unbekannte Häufigkeitsverteilung der Merkmale zu erhalten. Eine solche Problemstellung kehrt im Prinzip die in der Wahrscheinlichkeitsrechnung verwendete Untersuchungsrichtung um: ? Gegenstand der Wahrscheinlichkeitsrechnung ist es, ausgehend von – zumindest im Prinzip – bekannten Wahrscheinlichkeiten elementarer Ereignisse zu untersuchen, wie wahrscheinlich bestimmte Versuchsergebnisse sind. Insbesondere kann damit von der Häufigkeitsverteilung innerhalb einer Grundgesamtheit auf die Wahrscheinlichkeiten von Stichprobenergebnissen geschlossen werden. ? Die Mathematische Statistik verwendet dieselben mathematischen Methoden dazu, in umgekehrter Richtung aus Versuchsergebnissen Rückschlüsse auf die Verteilung zu ziehen. Konkret werden beispielsweise zu einem Stichprobenergebnis jene Zusammensetzungen der Grundgesamtheit gesucht, mit welchen das Stichprobenergebnis plausibel erklärt werden kann. Dabei ist selbstverständlich das gege- benenfalls vorhandene Vorwissen über die Verteilung, etwa den Wertebereich oder den Typ der Verteilung betreffend, bestmöglich zu berücksichtigen. Dies ist zugleich eine der Ursachen dafür, dass es eine ganze Palette von statistischen Methoden gibt, darunter sowohl relativ universelle, wie auch gezielt auf spezielle Situationen ausgerichtete, Methoden. Bild 29 Mit Methoden der Wahrscheinlichkeitsrechnung lassen sich, ausgehend von bekannten Werten für die Wahrscheinlichkeiten elementarer Ereignisse, Wahrscheinlichkeiten für komplexere Situationen berechnen, beispielsweise für bestimmte Beobachtungsergebnisse von Stichprobenuntersuchungen. Ein wichtiger Spezialfall betrifft solche Ergebnisse, die gemäß dem Gesetz der großen Zahlen annähernd sicher eintreten. Die Methoden der Mathematischen Statistik ermöglichen es, umgekehrt von Stichprobenergebnissen auf diejenigen Szenarien zu schließen, welche die beobachteten Ergebnisse erklären können und nicht im Widerspruch zu ihnen stehen. Die beschriebene Formalisierung auf Basis des mathematischen Modells der Wahrscheinlichkeitsrechnung ist so allgemein, dass sie sowohl den eigentlich interessierenden Fall einer Stichprobenuntersuchung abdeckt als auch viele klassische Lehrbuchbeispiele wie eine Wurfserie mit einem auf Symmetrie zu prüfenden Würfel. Die Sprechweise innerhalb der Mathematischen Statistik orientiert sich dabei am wichtigsten Anwendungsfall: So bezeichnet man eine Folge von identisch verteilten, voneinander unabhängigen Zufallsgrößen X = X1, ..., Xn generell als Stichprobe – bisher haben wir bei solchen Folgen meist von einer Versuchsreihe gesprochen. Entsprechend wird die Menge X aller möglichen Beobachtungsergebnisse x = (X1(? ), ..., Xn(? )) Stichprobenraum genannt. Bild 30 Wird die Prüfgröße T geschickt gewählt, kann mit großer Sicherheit von dem zu einem konkreten Beobachtungsergebnis x ermittelten Prüfwert t0 = T(x ) auf die unbekannte Häufigkeitsverteilung geschlossen werden. Als technisches Hilfsmittel zur Lösung des gestellten Problems wird jeweils eine sogenannte Stichprobenfunktion verwendet, die oft auch als Teststatistik, manchmal auch einfach als Statistik und – insbesondere im Fall eines Hypothesentests – als Testgröße oder Prüfgröße bezeichnet wird. Dabei handelt es sich um eine Zufallsgröße T, deren Werte aus den einzelnen Ergebnissen der Stichprobe X1, ..., Xn berechnet werden:

Jedem Beobachtungsergebnis x = (X1(? ), ..., Xn(? )), das in der Praxis je nach Anwendungsfall durch die Stichprobenauswahl beziehungsweise den Versuchsreihenverlauf ? bestimmt wird, ist damit ein Wert der Stichprobenfunktion zugeordnet. Da der Wert T(? ) nur soweit von der Stichprobenauswahl beziehungsweise von dem Versuchsreihenverlauf ? abhängt, wie dadurch das Beobachtungsergebnis x = (X1(? ), ..., Xn(? )) beeinflusst wird, kann man T auch als eine vom zufälligen Beobachtungsergebnis x abhängende Zufallsgröße ansehen, womit T als eine auf dem Stichprobenraum X definierte Zufallsgröße interpretierbar wird. Wie die Stichprobenfunktion im Einzelfall konstruiert wird, hängt ganz von der jeweiligen Problemstellung ab: Will man beispielsweise den Erwartungswert E(X) ermitteln, bietet es sich sicherlich an, den Durchschnitt der realisierten Stichprobenergebnisse X1(? ), ..., Xn(? ) zu bilden. Das heißt, man verwendet die Prüfgröße

Dieser Ansatz ist sinnvoll, weil der Mittelwert T gemäß dem Gesetz der großen Zahlen – zumindest bei genügend großer Versuchsanzahl n – mit hoher Wahrscheinlichkeit annähernd gleich dem gesuchten Erwartungswert E(X) ist. Andere Situationen verlangen nach anderen Konstruktionen: So ist, wie wir bereits in Kapitel 2.10 gesehen haben, die ? 2-Test- größe bestens zur Prüfung der Symmetrie eines Würfels geeignet. Wie in der Wahrscheinlichkeitsrechnung sind auch die umgekehrten Aussagen der Mathematischen Statistik aufgrund des Zufallseinflusses immer mit einer Unsicherheit behaftet. Um diese Unsicherheit einerseits so gering wie möglich zu halten und andererseits quantitativ bewerten zu können, gibt es verschiedene methodische Ansätze, die zunächst in groben Zügen vorgestellt werden: * Hypothesentests: Hypothesentests haben wir bereits im ersten Teil erörtert, und zwar sowohl am Beispiel von Arbuthnots Test als auch im allgemeinen Kontext. Die Schlussweise erinnert an einen mathematischen Widerspruchsbeweis. Ausgangspunkt ist eine Annahme – eben die Hypothe- se – über die Wahrscheinlichkeitsverteilung der empirisch zu untersuchenden Zufallsgröße. Ziel ist es, einen Widerspruch zwischen der Hypothese und einem empirischen Versuchsergebnis herzuleiten, um so die Hypothese verwerfen zu können. Passend zu diesem Ziel wird als Hypothese meist die Negierung der eigentlichen Vermutung verwendet. Mit der statistischen Widerlegung der Hypothese erfährt dann die Vermutung ihre Bestätigung. Der empirische Teil des Hypothesentests umfasst eine Versuchsreihe des betreffenden Zufallsexperimentes, wobei eine Widerlegung auf Basis eines vermeintlichen „Ausreißer"-Ergebnisses angestrebt wird. Dabei bezieht sich der „Ausreißer"-Charakter auf den Fall, dass die Hypothese richtig ist. Konkret wird für diesen Fall der richtigen Hypothese vor der Testdurchführung für die zu verwendende Prüfgröße ein Bereich von „Ausreißer"-Werten ermittelt, die insgesamt nur mit einer sehr geringen Wahrscheinlichkeit auftreten, so dass ein sol- chermaßen „ausreißendes" Testergebnis als fundierter Beleg für eine in Wahrheit falsche Hypothese gewertet werden kann. Gegenstand der Mathematischen Statistik ist es, für die verschiedensten Anwendungsfälle möglichst aussagekräftige Tests zu planen, das heißt, Hypothesen und Prüfgrößen so zu konstruieren, dass fehlerhafte Entscheidungen relativ unwahrscheinlich sind. * Schätzformeln: Statt der indirekten Schlussweise eines Hypothesentests kann man auch direkt vorgehen. Dabei wird ein Parameter der gesuchten Wahrscheinlichkeitsverteilung – wie zum Beispiel eine einzelne Merkmalswahrscheinlichkeit, der Erwartungswert oder die Varianz – auf Basis der Beobachtungsergebnisse einer Stichprobe geschätzt. Konkret wird der Wert einer eigens dafür konstruierten Stichprobenfunktion als Schätzwert verwendet. Gegenstand der Mathematischen Statistik ist es nun, die Qualität solcher Schätzformeln zu bewerten. Dies geschieht durch Angaben darüber, wie genau solche Schätzungen sind und wie (un)wahrscheinlich größere Abweichungen zwischen dem zufallsabhängigen Schätzwert und dem wirklichen Wert sind. Eine Sonderform solcher Schätzformeln liefert jeweils die beiden Grenzen eines Intervalls, das als Konfidenz- oder Vertrauensintervall bezeichnet wird und in dem der gesuchte Parameter mit einer vorgegebenen, hohen Wahrscheinlichkeit liegt. Dabei bezieht sich die Wahrscheinlichkeit natürlich nicht auf den festen (aber unbekannten) Parameterwert, sondern auf die zufallsabhängigen Intervallgrenzen. Schätzformeln für Parameter sind besonders dann von hoher Bedeutung, wenn gewisse Kenntnisse über die qualitativen Eigenschaften der gesuchten Verteilung vorliegen. Ist es beispielsweise aufgrund des Zentralen Grenzwertsatzes bekannt – oder aufgrund anderer Umstände sehr naheliegend –, dass die gesuchte Verteilung sich annährend wie eine Normalverteilung verhält, so brauchen nur zwei Parameter, näm- lich Erwartungswert und Standardabweichung, geschätzt zu werden, um die gesamte Verteilung zu bestimmen. ? Überprüfung auf Abhängigkeit und identische Verteilungen: Sicher ist die Erforschung von kausalen Einflüssen eine Hauptaufgabe der angewandten Wissenschaften. Indizien für solche – wie auch immer wirkende – Einflüsse ergeben sich aus der Untersuchung von zwei (oder mehr) Zufallsgrößen: Einerseits möglich ist die Untersuchung, ob die Wahrscheinlichkeitsverteilungen von zwei Zufallsgrößen – etwa die Körpergrößen von zufällig ausgewählten Männern beziehungsweise Frauen – verschieden sind. Ist das in signifikanter Weise der Fall, ist dies ein gewichtiger Hinweis darauf, dass die Umstände, die beiden Stichprobenentnahmen zugrunde liegen, dafür die Ursache sind. Fragestellungen dieser Art werden als Zweistichprobenprobleme bezeichnet (siehe auch Bild 31). Ein Test, der speziell die Identität zweier Verteilungen zum Gegenstand hat, wird als Homogenitätstest bezeichnet. In der Regel erfolgen bei Zweistichprobentests die Stichprobenentnahmen unabhängig voneinander, so dass auch die dadurch definierten Zufallsgrößen unabhängig voneinander sind. Ebenso möglich ist eine Untersuchung dahingehend, ob zwischen zwei auf Basis des gleichen Zufallsexperimentes definierten Zufallsgrößen – etwa von Körpergröße und -gewicht zufällig ausgewählter Versuchspersonen – eine stochastische Abhängigkeit besteht und wenn ja, in welcher Weise diese ausgeprägt ist: Ist es bei höheren Werten der ersten Zufallsgröße eher wahrscheinlich, dass auch die Werte der zweiten Zufallsgröße größer sind? Oder liegt ein größenmäßig eher gegenläufig verlaufender Trend vor? Oder existiert überhaupt kein solcher Trend? Da bei solchen Problemen zu jedem Mit- glied der Stichprobe Werte von zwei Zufallsgrößen ermittelt werden, spricht man auch von einer verbundenen Stichprobe (siehe auch Bild 31). In den weiteren Kapiteln werden wir Beispiele für diese drei Klassen von Methoden vorstellen. Übrigens sind die prinzipiellen Unterschiede zwischen den Verfahren der drei Klassen gar nicht so groß, wie sie vielleicht auf den ersten Blick erscheinen: ? Die Verfahren der dritten Klasse sind ohnehin eher durch die verfolgten Ziele und die dazu verwendeten Kenngrößen wie zum Beispiel die Korrelation charakterisiert. Dagegen können sie im Hinblick auf die prinzipielle Methodik zum Teil auf die ersten beiden Klassen aufgeteilt werden. ? Allen statistischen Verfahren gemein ist, dass sie letztlich einer Stich- probenfunktion entsprechen, für die ein Wert „ausgewürfelt" wird: Dabei kann selbst die Entscheidung über die Verwerfung einer Hypothese als eine Stichprobenfunktion aufgefasst werden, die nur die Werte 0 und 1 annimmt. Und auch die Grenzen eines Konfidenzintervalles können als Wert einer zweidimensionalen Stichprobenfunktion aufgefasst werden. Für die Stichprobenfunktion, die den Test charakterisiert, sind Voraussagen zu suchen, die abhängig von bestimmten Eigenschaften der unbekannten Wahrscheinlichkeitsverteilung mit hoher Wahrscheinlichkeit gültig sind, um so umgekehrt aus konkreten Stichprobenergebnissen auf diese Eigenschaften der Wahrscheinlichkeitsverteilung schließen zu können. Bild 31 Zwei Zufallsgrößen X und Y: Links definiert auf Basis von zwei (unverbundenen) Stichproben und rechts auf Basis einer verbundenen Stichprobe. Die links dargestellte Situation wird durch Wahrscheinlichkeitsverteilungen von zwei (reellwertigen, das heißt eindimensionalen) Zufallsgrößen beschrieben. Das rechts abgebildete Szenario wird durch die Wahrscheinlichkeitsverteilung eines zweidimensionalen Zufallsvektors charakterisiert.

Mathematische Statistik als formales Modell

Ergänzend soll noch ein kurzer Ausblick auf die Begriffsbildungen gegeben werden, mit denen statistische Fragestellungen in völlig abstrakter Weise formalisierbar sind – analog zum Überblick über die formale Modellbildung der Wahrscheinlichkeitsrechnung am Ende von Kapitel 2.7. Obwohl wir diese Terminologie im Folgenden nicht weiter verwenden werden, ist eine Auseinandersetzung mit dem zugrunde liegenden, den Stichprobenraum fokussierenden Blickwinkel hilfreich für das Verständnis der Mathematischen Statistik. Der Grund dafür ist, dass die gemeinsame Struktur der Fragestellungen der Mathematischen Statistik besser erkennbar wird. Die formale Beschreibung der Grundfrage der Mathematischen Statistik blendet die Grundgesamtheit weitgehend aus, obwohl deren Zustand – beispielsweise charakterisiert durch die Häufigkeitsverteilung eines Merkmals – der eigentliche Gegenstand des Interesses ist. Ebenso ausgeblendet wird die Zufallsgröße, die der Stichprobenuntersuchung zugrunde liegt: Beide Objekte, also Grundgesamtheit und Zufallsgröße, werden nur indirekt berücksichtigt, und zwar in Form des Stichprobenraumes X, der die möglichen Stichprobenergebnisse umfasst, bei denen es sich oft um n-dimensionale reelle Vektoren handelt . Dabei spiegelt sich der Zustand der Grundgesamtheit im Stichprobenraum X dadurch wider, dass man für jeden zulässigen Zustand ? ? ? der Grundgesamtheit das zughörige Wahrscheinlichkeitsmaß P? für die innerhalb des Stichprobenraumes X beobachtbaren Ereignisse berechnen kann. Formal erhält man so eine zum Stichprobenraum X definierte Sigma-Algebra , das heißt ein den Stichproben-Ereignissen entsprechendes Teilmengensystem sowie eine Vielfalt von dazu definierten Wahrscheinlichkeitsmaßen P?, nämlich zu jedem für die Grundgesamtheit möglichen Zustand ? ? ? eines. Ausgangspunkt einer allgemeinen Untersuchung der Mathematischen Statistik sind nun mathematische Objekte, deren Beziehungen untereinander dem gerade beschriebenen Szenario entsprechen, und zwar unabhängig davon, wie sie konstruiert wurden. Dies motiviert den Begriff des statistischen Raumes. Per Definition handelt es sich dabei um eine Zusammenfassung einer Sigma- Algebra und einer darauf definierten Menge von Wahrscheinlichkeitsmaßen: Konkret handelt es sich um eine als Stichprobenraum bezeichnete Grundmenge X mit einem entsprechenden Teilmengensystem sowie um eine Familie von Wahrscheinlichkeitsmaßen {P? | ? ? ?}. Dabei wird die Gesamtheit {P? | ? ? ?} der möglichen Wahrscheinlichkeitsmaße auch als Verteilungsannahme bezeichnet. Bild 32 Statistischer Raum: seine Komponenten und deren Ursprung Wird zum Beispiel ein Bernoulli-Experiment mit der unbekannten Wahrscheinlichkeit ? = p insgesamt n-mal unabhängig durchgeführt und dabei die Zahl der Treffer ermittelt, dann entspricht diesem Szenario der Stichprobenraum X = {0, 1, ..., n} mit der ?-Algebra, deren Mengensystem aus allen 2n+1 Teilmengen besteht. Der statistische Raum ergibt sich schließlich, wenn man als Familie von Wahrscheinlichkeitsmaßen die Binomialverteilungen hinzunimmt, die für alle Wahrscheinlichkeiten p ? [0, 1] definiert sind:

Das Grundproblem der Mathematischen Statistik besteht nun darin, von einer konkreten Stichprobenbeobachtung, das heißt von einem Element x ? X, auf diejenigen Verteilungen P? zu schließen, die plausibel zum gemachten Beobachtungsergebnis x passen. Die dazu verwendeten Methoden basieren auf Prüfgrößen, bei denen es sich um Zufallsgrößen handelt, die auf dem Stichprobenraum X definiert sind. So kann zum Beispiel die durch einen Hypothesentest herbeigeführte Entscheidung als eine Zufallsgröße der Form X ? {0, 1} aufgefasst werden: Dabei wird im Rahmen der Testplanung jedem möglichen Beobachtungsergebnis x ? X eine durch die Werte 0 und 1 charakterisierte Entscheidung zugeordnet, ob die Null-Hypothese verworfen wird.

3.2 Hypothesentest: ein Beispiel aus der Qualitätssicherung

Der Produzent eines in Serie hergestellten Produktes garantiert eine Qualität, bei welcher der Anteil fehlerhafter Stücke maximal 1,5% beträgt. Der Käufer benötigt für seine Bedürfnisse eine Qualität, bei der die Fehlerrate 3 % nicht übersteigen darf. Im Kaufvertrag wird daher vereinbart, dass Lieferungen mit einer Fehlerrate von über 1,5% zurückgewiesen werden, wobei diese Rate anhand einer dafür repräsentativen Stichprobe ermittelt wird. Die Problemstellung macht deutlich, dass wir nach unserem Exkurs in die mathematischen Grundlagen nun wieder zum Bereich konkreter Anwendungen zurückgekehrt sind. Dabei sind Stichprobenerhebungen und deren statistische Auswertungen gerade bei qualitätssichernden Produktprüfungen unverzichtbar, da in diesem Bereich Vollerhebungen oft nicht nur am quantitativ bedingten Aufwand scheitern, nämlich dann, wenn eine Prüfung nicht zerstörungsfrei möglich ist. Daher wurden für solche Anwendungsfälle diverse Methoden mit zugehörigen Tabellen entwickelt, die in ihrer Gesamtheit als statistische Qualitätskontrolle bezeichnet werden. Mathematisch ist das gestellte Problem aufs Engste mit Arbuthnots Test verbunden. Wieder – und wie allgemein in der Mathematischen Statistik üblich – muss die auf der zufälligen Stichprobenauswahl beruhende Ungewissheit so gut es geht überwunden werden. Dabei sind – und das ist die Besonderheit der aktuellen Problemstellung – die Interessen und Risiken der beiden Vertragsparteien gegeneinander abzuwägen. Dadurch entsteht – abweichend von vielen anderen Szenarien eines Hypothesentests – eine weitgehend symmetrische Situation: ? Das Risiko des Produzenten, kurz Produzentenrisiko, besteht darin, dass eine in ihrer Gesamtheit qualitativ genügend gute Lieferung aufgrund einer für den Produzenten ungünstigen Stichprobenauswahl als fehlerhaft zurückgewiesen wird. Dieses Risiko entspricht einem Fehler 1. Art, so- fern die Null-Hypothese darin besteht, dass die Lieferung eine genügende Qualität aufweist: Aufgrund der konkreten Stichprobenauswahl wird etwas „gesehen", was nicht vorhanden ist. ? Das Risiko des Käufers, oft als Konsumentenrisiko bezeichnet, besteht darin, dass eine qualitativ zu schlechte Lieferung aufgrund einer für den Käufer ungünstigen Stichprobenauswahl nicht als schlecht erkannt und daher nicht zurückgewiesen wird. In diesem Fall wird die Null-Hypothese, gemäß der die Lieferung eine genügende Qualität aufweist, nicht verworfen, obwohl sie in Wahrheit falsch ist, was somit einem Fehler 2. Art entspricht: Aufgrund der konkreten Stichprobenauswahl wird etwas „übersehen", was vorhanden ist. Wie aber sollte nun die Stichprobenprüfung und die anschließende Entscheidungsregel organisiert werden, damit die Risiken der beiden Betei- ligten entsprechend ihrer Interessenlage begrenzt werden? Um den Stichprobenplan, wie die Testplanung im Bereich der statistischen Qualitätskontrolle genannt wird, in seinen quantitativen Details zunächst noch offen zu halten, gehen wir von einem allgemeinen Ansatz aus: Es wird eine Stichprobe von n Untersuchungseinheiten zufällig ausgewählt und dann darauf untersucht, ob davon mindestens k Stücke fehlerhaft sind. Die Lieferung wird zurückgewiesen, sofern diese Mindestanzahl von k fehlerhaften Stücken innerhalb der Stichprobe erreicht oder überschritten wird. Mit p bezeichnen wir die Wahrscheinlichkeit, dass ein einzelnes, zufällig ausgewähltes Teil fehlerhaft ist. Mittels der Binomialverteilung erhält man dann für die Wahrscheinlichkeit, die Null-Hypothese nicht zu ver- werfen und damit die Lieferung anzunehmen, den Wert . Entsprechend ist die Wahrscheinlichkeit, dass die Null-Hypothese ver- worfen und damit die Lieferung zurückgewiesen wird, gleich . Aufgrund des Zentralen Grenzwertsatzes können die Wahrscheinlichkei- ten L(p) und M(p) bei genügend großen Stichproben mittels der Normal- verteilung approximiert werden. Bei fest gewählten Werten für den Stich- probenumfang n und das „Rückweisungsminimum" k hängen beide Wahrscheinlichkeiten L(p) und M(p) nur von der unbekannten Wahr- scheinlichkeit p ab, die dem Ausschussanteil in der Gesamtlieferung ent- spricht: Dabei wird die Wahrscheinlichkeit L(p), die Null-Hypothese nicht zu verwerfen und damit die Lieferung anzunehmen, als Testcha- rakteristik oder Operationscharakteristik XE „Operationscharakteristik" des Tests bezeichnet. Die Wahrschein- lichkeit M(p), die Null-Hypothese zu verwerfen und damit die Lieferung zurückzuweisen, nennt man Gütefunktion. Für Wahrscheinlichkeiten p, bei denen die Hypothese in Wahrheit nicht rich- tig ist, spricht man bei M(p) auch von der Macht des Tests. Je größer diese Macht-Werte sind, desto besser funktioniert der Hypothesentest in dem Sinn, dass mit ihm eine falsche Hypothese als falsch erkannt wird.

Wie aber soll nun konkret geprüft werden? Das heißt, wie sollten die bei- den im Stichprobenplan noch offen gelassenen Parameter, nämlich der Stichprobenumfang n und das „Rückweisungsminimum" k, gewählt wer- den? Intuitiv ist klar, welche Eigenschaften erfüllt sein müssen: ? Weist die Lieferung eine genügende Qualität in dem Sinne auf, dass der Ausschuss-Anteil höchstens p+ = 0,015 beträgt, dann soll die Lie- ferung nur in seltenen Ausnahmefällen abgewiesen werden. Das heißt, „Ausreißer"-Stichproben, bei denen das Rückweisungsminimum k überschritten wird, dürfen dann nur mit einer kleinen Wahrscheinlich- keit von beispielsweise ? = 0,05 möglich sein: L(p) ? 1 – ? für p ? p+. ? Eine qualitativ zu schlechte Lieferung mit einem Ausschuss-Anteil von mindestens p– = 0,03 soll dagegen nur ausnahmsweise, das heißt mit einer kleinen Wahrscheinlichkeit von zum Beispiel ? = 0,10 den zu vereinbarenden Stichprobentest bestehen: L(p) ? ? für p ? p–. Bild 33 Dargestellt ist ein typischer Graph der für einen Stichproben- plan geltenden Operationscharakteristik L(p). Jeder Funktionswert entspricht der Wahrscheinlichkeit, dass die Lieferung aufgrund der Stichprobenuntersuchung angenommen wird. Zu erkennen ist, wie diese Akzeptanzwahrscheinlichkeit von dem sich für die Gesamtlieferung ergebenden Ausschussanteil p abhängt: Bei einer hohen Qualität mit p ? p+ ist das Produzentenrisiko höchstens gleich ?, und bei einer niedri- gen Qualität mit p ? p– ist das Konsumentenrisiko höchstens gleich ?. Man kann nun eine minimale Stichprobengröße n, welche beide formu- lierten Anforderungen erfüllt, dadurch finden, dass man für die beiden Ausschuss-Anteile p+ und p– nach denjenigen Werten n und k sucht, für welche die beiden Anforderungen so gerade eben noch erfüllt werden : Um aus diesen zwei Bedingungen die beiden den Stichprobenplan festlegenden Parameter n und k konkret zu berech- nen, approximiert man die Binomialverteilung durch die Normalverteilung, was sich nachträglich als zulässig herausstellen wird, da die notwendige Stichprobengröße n keinesfalls zu klein ausfällt. Grundlage der Berechnung sind die beiden Quantile der Normalverteilung t1–? = ?– 1(1 – ? ) und t? = ?–1(? ), die angeben, welche Vielfachen der Standardabweichung zu den Wahrscheinlichkeiten 1 – ? und ? gehören: ?(t1–?) = 1 – ? und ?(t?) = ?. Konkret für die gerade angeführten Beispielwerte ? = 0,05 und ? = 0,10 sind die beiden Quantile gleich t1–? = 1,65 und t? = –1,30. Für das Rückweisungs- Minimum k, das im Sinne einer Stetigkeitskorrektur zur besseren Approximation mit der Normalverteilung durch den Wert k – ½ ersetzt wird, gilt somit . Aus dieser Gleichung erhält man nun zunächst die Stichprobengröße , was im hier konkret untersuchten Beispiel zur Stichprobengröße n = 793 führt. Mit Hilfe der Doppel-Gleichung für den Wert k – ½ findet man schließlich noch k = 18 als Wert für das Rückweisungsminimum. Um die beiden beispielhaft vorgegebenen Irrtumswahrscheinlichkeiten, das heißt 5% für das Produzentenrisiko und 10% für das Konsumenten- risiko, zu erreichen, muss also eine Stichprobe von 793 Stücken darauf- hin untersucht werden, ob es mindestens 18 fehlerhafte Stücke gibt. Be- zogen auf die Stichprobe entspricht das einer Fehlerrate von 2,27%. Abschließend bleibt noch anzumerken, dass das gerade erörterte Beispiel aus der Qualitätssicherung in zweierlei Hinsicht etwas untypisch für Hypothesentests ist: ? Es wurde schon darauf hingewiesen, dass Verwerfung und Annahme der Null-Hypothese in Bezug auf die Risiken, denen die Beteiligten ausgesetzt sind, einigermaßen symmetrisch zueinander sind. Dies ist bei vielen Hypothesentests gänzlich anders, etwa wenn es um einen Nachweis dafür geht, dass ein Medikament keine Nebenwirkungen hat. ? Die Wahrscheinlichkeiten für Fehler 1. und 2. Art konnten simultan begrenzt werden. Dies war aber nur deshalb möglich, weil Zustände der Grundgesamtheit, die einem Fehleranteil zwischen p– = 0,015 und p+ = 0,03 entsprechen, bei der Testplanung nicht in Betracht gezogen wurden. Aufgaben 1. Nach den Mendel'schen Regeln der Vererbung kann die Wahrscheinlichkeitsverteilung eines Merkmals, das nur durch ein einzi- ges Gen bestimmt wird, in der Gesamtpopulation vorausgesagt werden. Demnach beträgt die Wahrscheinlichkeit ¼ für die rezessive Ausprägung und ¾ für die dominante Ausprägung. Wie groß ist die Fehlerwahrscheinlichkeit, wenn man bei einer Stichprobe von nur 15 Pflanzen die häufigere Blütenfarbe als dominant erklärt? Welche beiden Fehlentscheidungen sind möglich? Ist die Wahrscheinlichkeit von einem der beiden möglichen Fehler größer? 2. Zwei Spieler halten verdeckt je vier Spielkarten in ihren Händen. Dabei ist es nicht ausgeschlossen, dass ein Spieler einen Spielkartenwert mehrfach besitzt. Allerdings sind die Karten so verteilt, dass es in Bezug auf die festgelegte Rang- folge unmöglich ist, dass eine Karte des einen Spielers gleichwertig zu einer Karte seines Gegners ist. Über insgesamt 100 Runden wird nun bei beiden Spielern eine Karte nach gründ- lichem Mischen zufällig ausgelost und aufgedeckt. Der Spieler mit der höher- wertigen Karte gewinnt die Runde. Danach werden die beiden Karten wieder in den Vorrat des betreffenden Spielers zurückgelegt. Nach Abschluss der 100 Runden werden Ihnen die Regeln und die Ergebnisse des Spiels, nicht aber die ausgespielten Karten mitgeteilt: Wie oft muss ein Spie- ler in 100 Spielrunden gewinnen, damit sein Kartenblatt mit einer Fehlerwahr- scheinlichkeit von maximal 0,01 als echt chancenreicher angesehen werden kann? Wieso kann für diese spezielle Testentscheidung die Wahrscheinlichkeit eines Fehlers 2. Art auf weniger als 0,831 beschränkt werden?

3.3 Hypothesentests: die Grundlagen

Gibt es eine allgemeine Form eines Hypothesentests? Die klassische Untersuchung von Arbuthnot zum Nachweis, dass das Geschlecht eines Neugeborenen nicht gleichwahr- scheinlich verteilt ist, hat uns im einführenden Teil 1 dazu gedient, die Idee eines Hypothesentests zu erläutern. Erörtert wurde dabei insbesondere die mathematische Begründung der verwendeten Argumentation. Dank der zwischenzeitlich dargelegten mathematischen Grundlagen sind wir jetzt in der Lage, auch kompliziertere Situationen wie das im letzten Kapitel erörterte Problem der Wareneingangsprüfung zu untersuchen. Um dies systematisch tun zu können, werden wir nun einen allgemeinen Rahmen beschreiben, in dem ein Hypothesentest durchgeführt werden kann. Dabei konkretisieren wir die Überlegungen des Überblicks in Kapitel 3.1. Gegenstand des Tests ist eine empirisch beobachtbare Zufallsgröße, über deren Wahrscheinlichkeitsverteilung auf Basis von Stichprobenergebnis- sen Erkenntnisse erzielt werden sollen. Bei der Konzeption des Tests zu berücksichtigen ist das vorhandene Vorwissen über die zu untersuchende Zufallsgröße X und deren Wahrscheinlichkeitsverteilung. Dabei kann es sich zum Beispiel um Angaben über den Wertebereich der Zufallsgröße handeln, etwa in Form von möglichen Minimal- und Maximalwerten oder auch in Form der Aussage, dass alle Werte ganzzahlig sind. Denkbar sind aber auch weit detailliertere Kenntnisse, etwa dergestalt, dass sich Kör- pergrößen erwachsener Personen ungefähr normalverteilt verhalten. Letztlich kann ein solches Vorwissen mathematisch stets dadurch charak- terisiert werden, dass die unbekannte Wahrscheinlichkeitsverteilung der Zufallsgröße X von einem wertmäßig unbekannten, gegebenenfalls mehr- dimensionalen Parameter ? bestimmt wird. Konkret ist dabei anzugeben, welche Menge ? die Gesamtheit der möglichen Werte des Parameters ? widerspiegelt und in welcher Weise der Parameter ? die Verteilung der Zufallsgröße X bestimmt. Aus Sicht des Anwenders lässt sich die Menge ? als Menge der mögli- chen Zustände der Wirklichkeit interpretieren, aus denen der wahre Zu- stand ? ermittelt werden soll. Um die gemachten Überlegungen etwas ihrer Abstraktion zu berauben, sehen wir uns zunächst einige Beispiele an: ? Beschreibt die Zufallsgröße X den Ausgang eines Bernoulli-Experi- mentes, so ist die Wahrscheinlichkeit des zugrunde liegenden Ereig- nisses eigentlich die einzig sinnvolle Wahl für den Parameter ?. Ohne weiteres Vorwissen ist in diesem Fall die Menge der zulässigen Para- meter gleich dem Intervall ? = [0, 1]. ? Handelt es sich bei X um eine normalverteilte Zufallsgröße, nimmt man als Parameter ? am besten das aus Erwartungswert und Standard- abweichung gebildete Wertepaar ? = (m, ? ), da beide Werte zusam- men die Verteilung der Zufallsgröße X vollständig bestimmen. Folg- lich entspricht der Parameterbereich der Halbebene ? = R ? R+. ? Auf Basis des Vorwissens, dass die Zufallsgröße X normalverteilt mit bekannter Standardabweichung ist, wählt man als Parameter ? den Er- wartungswert m. Der Parameterbereich umfasst in diesem Fall den Zahlenstrahl der reellen Zahlen: ? = R. ? Wird die Zufallsgröße X durch den Wurf eines unter Umständen asymmetrischen Würfels bestimmt, ist der Parameter ? gleich dem Vektor (p1, ..., p6), dessen sechs Koordinaten den Wahrscheinlichkeiten der möglichen Würfelergebnisse entsprechen. ? Wird in einer endlichen Grundgesamtheit ein quantitatives Merkmal stichprobenartig untersucht, dann basiert, wie schon in Kapitel 3.1 beschrieben, das zugehörige mathematische Modell auf einer Zufallsgröße X, die den Merkmalswert eines zufällig ausgewählten Mitgliedes der Grundgesamtheit widerspiegelt. Als Parameter ? bietet sich dann die relative Häufigkeitsverteilung der Merkmalswerte an, die wertmäßig mit der Wahrscheinlichkeitsverteilung der Zufallsgröße X übereinstimmt.

Nachdem wir uns anhand der gerade angeführten Beispiele davon überzeugen konnten, dass der beschriebene Ansatz anscheinend genügend allgemein ist, können wir nun daran gehen, Hypothesentests auf Basis des Parameters ? zu beschreiben. Wir beginnen damit, die meist mit H0 bezeichnete Null-Hypothese in der Form ? ? ?0 zu charakterisieren, wobei ?0 eine geeignete Teilmenge der Gesamtmenge ? aller möglichen Parameterwerte ist. Mit Hilfe der komplementären Menge ?1 = ? – ?0 lässt sich dann die meist mit H1 bezeichnete Alternativhypothese mit der Aussage ? ? ?1 charakterisieren . Bei Arbuthnots Test ist ?0 = {½} und ?1 = [0, ½) ? (½, 1], wobei der Parameter ? einfach der Wahrscheinlichkeit entspricht, dass ein Neugeborenes männlich ist. Der eigentliche Test besteht nun darin, mittels einer Prüfgröße T eine Entscheidung für oder gegen die Ablehnung der Null-Hypothese ? ? ?0 zu treffen. Dieses Vorgehen einer Entscheidungsfindung ist eigentlich nur dann sinnvoll, wenn die Wahrscheinlichkeitsverteilung der zur Entscheidung verwendeten Prüfgröße T = T? vom Parameter ? abhängt. Dies ist in der Regel aber bereits dadurch sichergestellt, dass die Prüfgröße T auf Basis einer Stichprobe zur Zufallsgröße X gebildet wird. Das heißt, die Werte der Prüfgröße T werden aus den Ergebnissen einer Stichprobe X = X1, ..., Xn berechnet, wobei diese Zufallsgrößen untereinander unabhängig sind und alle die gleiche, vom Parameter abhängende ? Verteilung besitzen: Die Entscheidung, die Null-Hypothese zu verwerfen, wird nun abhängig gemacht vom Prüfwert T(x ), der mit dem zur konkreten Stichprobenauswahl ? gehörenden Beobachtungsergebnis x = (X1(? ), ..., Xn(? )) „ausgewürfelt" wird. Dabei wird für die Entscheidung ein Ablehnungsbereich XE „Ablehnungsbereich" T1 vorgegeben, der genau diejenigen T-Werte beinhaltet, bei denen die Null-Hypothese verworfen werden soll: T(x ) ? T1. Mit T0 werden wir das auch Annahmebereich genannte Komplement zur Menge T1 bezeichnen, das heißt die Menge der nicht zur Verwerfung der Null-Hypothese führenden T- Werte . Handelt es sich beim Ablehnungs- und Annahmebereich um zwei halbseitig unendliche Intervalle, etwa in der Form (–?, c] und (c, ?), so wird die trennende Zahl c kritischer Wert genannt. Bild 34 Schematisch dargestellt ist jeweils der Graph der Operations- charakteristik L(? ) = P(T? ?T0). Ihr Wert ist gleich der Wahrscheinlichkeit, dass die Hypothese nicht verworfen wird. Der linke Teil zeigt den Fall eines idealen, absolut fehlerfreien und damit maximal „trennscharfen" Tests. Auch die in der Mit- te dargestellte Situation ist noch idealisiert, wenn sie auch bereits die unvermeidlichen Fehlentscheidungen berücksichtigt. Rechts dargestellt ist eine eher realistische Situation mit einer stetigen Funktion L(? ). Sind in einem solchen Fall die Parameterbereiche ?0 und ?1 unmittelbar benachbart, ist es nicht möglich, Fehler 1. und 2. Art gleichzeitig durch beliebig klein vor- gegebene Schranken ? und ? zu begrenzen. Die Qualität des Tests, das heißt die Wahrscheinlichkeit für Fehlentscheidungen, hängt nun entscheidend davon ab, wie die Testgröße T und der Ablehnungsbereich T1 im Detail konstruiert sind: ? Zum einen darf für ? ? ?0, das heißt bei einer in Wahrheit richtigen Null-Hypothese, der Test nur in seltenen Ausnahmefällen zur Verwerfung der Null-Hypothese führen. In diesem Fall ? ? ?0 darf also die Ablehnungsbereich T1 nur unwahrscheinliche „Ausreißer"-Werte der Prüfgröße T enthalten. Konkret wird zur Begrenzung der Wahrscheinlichkeit ein kleiner Wert ? von beispielsweise ? = 0,05 oder ? = 0,01 vorgegeben. Die im letzten Kapitel eingeführte Operationscharakteristik L(? ) = P(T? ?T0), die alle Wahrscheinlichkeiten für eine Nicht-Verwerfung der Null- Hypothese umfasst, muss dann für jeden Parameter ? ? ?0, das heißt bei richtiger Null-Hypothese, mindestens gleich 1 – ? sein: Dabei steht „inf" für Infimum . Die Zahl ? nennt man Signifikanzniveau des Tests. Ist zum Beispiel ? = 0,05, so wird eine in Wahrheit richtige Null-Hypothese mit einer Wahrscheinlichkeit von mindestens 0,95 nicht verworfen, weil das Prüfergebnis mit dieser Sicherheit nicht im Ablehnungsbereich liegt. Damit kann im Umkehrschluss die Null-Hypothese bei einem im Ablehnungsbereich liegenden Prüfergebnis mit gutem Grund verworfen werden. ? Zum anderen sollte für ? ? ?1, das heißt bei einer in Wahrheit nicht richtigen Null-Hypothese, der Test möglichst oft zur Verwerfung der Hypothese führen, vor allem dann, wenn die Null-Hypothese „deutlich" verletzt ist. Die Operationscharakteristik L(? ) = P(T? ?T0), das heißt die Wahrscheinlichkeit für eine Nicht- Verwerfung der Null-Hypothese, muss also für Parameter ? ? ?1 möglichst klein sein. Das ist gleichbedeutend damit, dass die Macht M(? ) = 1 – L(? ) möglichst groß ist. In der Praxis ist dies insbesondere dann sehr wichtig, wenn der Parameter ? „deutlich" außerhalb der Parametermenge ?0 liegt.

In der schon eingeführten Terminologie von Fehlern 1. und 2. Art können die beiden Anforderungen wie folgt zusammengefasst werden: Fehler 1. Art müssen in Bezug auf ihre Wahrscheinlichkeit strikt begrenzt sein, und Fehler 2. Art sollten möglichst unwahrscheinlich sein, insbesondere in Fällen einer drastischen Fehlentscheidung,. Dass die Qualitätsanforderungen an einen Test unsymmetrisch gestellt werden, trägt den Kompromissen Rechnung, die – wie in Bild 34 dargestellt – bei der Konzeption eines Hypothesentests meist unvermeidlich sind. Man kann die Auswirkungen einer Fehlentscheidung allerdings dann begrenzen, wenn Null- und Alternativhypothese so formuliert werden, dass ein Fehler 2. Art längst nicht so schlimme Gefahren beinhaltet wie ein Fehler 1. Art. Dies wird oft dadurch erreicht, dass die Null- Hypothese gemäß dem etablierten Wissensstand formuliert wird, der durch den Test gegebenenfalls erweitert werden soll . Bei einer solchen Testplanung kann nämlich die Null-Hypothese auch ohne explizite Bestätigung durch den Test weiterhin aufrecht erhalten werden, während die Verwerfung der Null-Hypothese fundiert begründet sein muss. Beispielsweise wird man auf den Einsatz eines neuen Medikamentes verzichten, sofern die Null-Hypothese, gemäß der das neue Präparat nicht besser wirkt als bereits bekannte Mittel, nicht mit genügender Sicherheit verworfen werden kann. Gleiches gilt bei der Untersuchung von zwei Merkmalen, für die man vor dem Test keine fundierten Hinweise für eine kau- sale Verbindung besessen hat. Auch in dieser Situation wird man die bisher vertretene Sichtweise beibehalten, sofern die Null-Hypothese, dass es keine stochastische Abhängigkeit zwischen den beiden Merkmalen gibt, nicht mit genügender Sicherheit verworfen werden kann. Diese Vorgehensweise findet aber dann ihre Grenze, wenn sie mit einem hohen Risiko verbunden ist. So darf man sich bei einem Test der Nebenwirkungen eines neuen Medikaments keinesfalls damit zufriedengeben, dass die Null-Hypothese einer nicht vorhandenen Nebenwirkung nicht verworfen wird. In dubio pro reo Im Zweifel für den Angeklagten, so die deutsche Übersetzung, lautet eines der wesentlichen Prinzipien einer rechtsstaatlichen Strafprozessführung. Auch wenn eine juristische Beweisführung und ein statistischer Hypothesentest eine völlig unterschiedliche Natur aufweisen – von methodischen Überlappungen wie bei genetischen „Fingerabdrücken" einmal abgesehen –, so ist das grundsätzliche Dilemma doch identisch: Wie ein Hypothesentest kann ein Strafprozess in zweierlei Hinsicht zu einer falschen Entscheidung führen. Einerseits kann ein in Wahrheit Schuldiger mangels einer eindeutigen Beweislage frei gesprochen werden, und andererseits kann ein Unschuldiger zu Unrecht verurteilt werden, wobei es de facto nicht möglich ist, beide Fehlerarten zugleich auszuschließen. In welchem Verhältnis die Häufigkeiten der beiden Fehlerarten stehen, wird durch die Anforderung an die Beweislast – entsprechend der Entscheidungsregel eines Hypothesentests – bestimmt, die für eine Verurteilung vorhanden sein muss. Dabei ist es ein Eckpfeiler rechtsstaatlicher Prinzipien, einen Unschuldigen vor einer Verurteilung zu schützen. Da auf rein mathematischer Ebene in Bezug auf die Mengen ?0, ?1, T0 und T1 eine Symmetrie zwischen Null- und Alternativhypothese besteht, ist es aus Sicht der Problemformulierung nicht zwangsläufig, welche Fehlurteile einem Fehler 1. beziehungsweise 2. Art entsprechen. Nur die Tradition der Hypothesentests, gemäß der ein Fehler 1. Art auf jeden Fall strikt beschränkt bleiben muss, führt dazu, dass die Verurteilung eines Unschuldigen eher als Fehler 1. Art interpretiert werden kann, während ein Fehler 2. Art dem Freispruch eines in Wahrheit Schuldigen entspricht . Demgemäß lautet die Null-Hypothese: „Der Angeklagte ist nicht schuldig." Bei der Formulierung der Null-Hypothese sollte unbedingt der angestrebte Erkenntnisgewinn berücksichtigt werden. Dabei sind insbesondere die beiden am häufigsten gebrauchten Typen von Hypothesen, nämlich ? = ?0 und ? ? ?0, gegeneinander abzuwägen. Welcher Typ einer Hypothese besser geeignet ist, hängt von der konkreten Fragestellung ab: ? Die erste Form des Tests, bei der man die Null-Hypothese H0: ? = ?0 gegen die Alternativhypothese H1: ? ? ?0 testet, wird als zweiseitige Alternative bezeichnet. Dieser Test- ansatz wird insbesondere dann verwendet, wenn es darum geht, irgendeine Änderung gegenüber dem Ist-Stand statistisch zu untermau- ern. ? Entsprechend wird der Test zwischen den beiden Hypothesen H0: ? ? ?0 und H1: ? > ?0 als einseitige Alternative bezeichnet. Diese Form des Hypothesentests wird unter anderem dann verwendet, wenn ein statistischer Nachweis für eine gerichtete Veränderung, also beispielsweise für eine erhoffte Verbesserung, gesucht wird. Bild 35 Gegenüber Bild 3 und Bild 5 überarbeitetes Schema eines Hypothesentests. Der gesamte Testablauf ist nun auf Basis mathematischer Objekte formuliert. Oben angegeben sind die Wahrscheinlichkeiten für die Fehler 1. und 2. Art. Dabei ist der Test so zu planen, dass das vorgegebene Signifikanzniveau ? erreicht wird. Das heißt: Die Wahrscheinlichkeit eines Fehlers 1. Art darf ? nicht überschreiten. Die zu Beginn dieses Kapitels als Ziel erklärte allgemeine Form eines Hypothesentests ist damit erreicht. Zu fragen bleibt natürlich nach dem damit erzielten Vorteil: Da jeder Hypothesentest nun – wie in Bild 35 nochmals zusammenfassend dargestellt – rein auf der Basis mathematischer Objekte wie Zahlen, Mengen, Wahrscheinlichkeiten und Zufallsgrößen formuliert werden kann, sind jetzt insbesondere auch qualitative Vergleiche zwischen den verschiedenen Testansätzen möglich, die zur Prüfung eines bestimmten Szenarios prinzipiell geeignet sind. Damit wird insbesondere die Basis dafür geschaffen, Hypothesentests im Rahmen grundlegender Forschung völlig abstrakt, aber natürlich letztlich trotzdem zum Nutzen der Anwender zu optimieren. Qualitative Bewertung von Tests Hypothesentests können in verschiedener Hinsicht in Bezug auf ihre Qualität bewertet werden. Die wichtigste Eigenschaft ist natürlich das Signifikanzniveau ?, das die Wahrscheinlichkeit für einen Fehler 1. Art begrenzt und für das in der Praxis meist ein kleiner Wert, wie zum Beispiel 0,01 oder 0,05, gewählt wird. Zu beachten ist allerdings, dass insbesondere bei endlichen Mengen von möglichen Stichprobenergebnissen nicht für jeden solchen „runden" Wert, der als Signifikanzniveau vorgegeben wird, ein genau passender Ablehnungsbereich gefunden werden kann. In solchen Fällen geht man meist „auf Nummer sicher". Das heißt, die Vorgabe wird als obere Grenze interpretiert, so dass ein entsprechend ausgewählter Ablehnungsbereich in der Regel zu einem Signifikanzniveau ? führt, der kleiner ist als die Vorgabe. Eine solche, das Signifikanzniveau nicht vollständig ausschöpfende, Test-Konstruktion wird konservativ genannt . Innerhalb der Gesamtheit aller Tests mit einem bestimmten Signifikanzniveau ? lassen sich weitere Qualitätskriterien formulieren, die sich – und was läge näher? – auf die Wahrscheinlichkeit für einen Fehler 2. Art beziehen . Fehler 2. Art können nur in Situationen eintreten, in denen die Null-Hypothese falsch ist. Formal entspricht das einem Parameter ? ? ?1, wobei die Wahrscheinlichkeit für einen Fehler 2. Art gleich der Operationscharakteristik L(? ) = P(T? ?T0) ist. In qualitativer Hinsicht anzustreben sind also Tests, deren Operationscharakteristik für – möglichst alle – Parameter ? ? ?1 vergleichsweise geringe Werte aufweist. Es wurde schon darauf hingewiesen, dass man die Obergrenze ? für einen Fehler 2. Art meist nicht beliebig weit verkleinern kann.

Ein erstes Qualitätsmerkmal fordert, dass die Wahrscheinlichkeit für einen Fehler 2. Art durch die Ungleichung ? ? 1 – ? beschränkt ist, was für typische Werte wie ? = 0,01 oder ? = 0,05 zweifellos keine starke Anforderung ist. Tests, die diese Bedingung erfüllen, werden unverfälscht genannt. Die durch diese Einschränkung ausgeschlossenen, auch verfälscht genannten, Tests sind so schlecht, dass man sie seriös eigentlich nicht nutzen kann: Da nämlich bei einem solchen verfälschten Test ein Fehler 2. Art mit einer Wahrscheinlichkeit von über 1 – ? auftreten kann, wird für die entsprechende Situation ?1 ? ?1 ein zur Ablehnung der Null-Hypothese führendes Testergebnis T? ?T1 nur mit einer Wahrscheinlichkeit erzielt, die kleiner ist als ?. Handelt es sich bei ? um die bestmögliche Grenze für die Wahrscheinlichkeit eines Fehlers 1. Art, dann gibt es eine Situation ?0 ? ?0, in der – trotz richtiger Null-Hypothese – eine Ablehnung der Null-Hypothese wahrscheinlicher ist als in der Situation ?1 ? ?1, in der die Null-Hypothese falsch ist. Somit spiegelt das Testergebnis in seiner stochastischen Tendenz nicht die – eigentlich mit dem Test zu ergründende – Wirklichkeit wider. Der Plausibilität der angestrebten Schlussfolgerung wird somit der Boden weitgehend entzogen. Da es Schwierigkeiten bereitet, die Wahrscheinlichkeit für einen Fehler 2. Art global zu begrenzen, geht man dazu über, verschiedene Tests qualitativ miteinander zu vergleichen. Dabei wird sowohl von einem festen Signifikanzniveau ? ausgegangen als auch von einer festen Stichprobengröße. Bei einem solchen Vergleich ist es nun durchaus denkbar, dass ein Test für bestimmte Zustände ? ? ?1 gut arbeitet, also Fehler 2. Art weitgehend vermeidet, während ein anderer Test für andere Zustände ? ' ? ?1 gut arbeitet. Man definiert deshalb für Tests einen Begriff der gleichmäßigen Qualität: Ein Test heißt gleichmäßig besser als ein anderer, wenn seine Operationscharakteristik im gesamten Bereich ?1 höchstens so groß ist wie die Ope- rationscharakteristik des anderen Tests. Analog kann man von einem gleichmäßig besten Test innerhalb der Menge aller Tests mit dem Signifikanzniveau ? sprechen. Ein solcher gleichmäßig bester Test muss allerdings nicht unbedingt existieren. Sollte er allerdings existieren, dann ist er automatisch auch unverfälscht . So wenig brauchbar verfälschte Tests sind, so können sie doch für eine einzelne Situation ? ? ?1 durchaus eine kleine Operationscharakteristik L(? ) besitzen, womit eigentlich überragend guten Tests das Prädikat eines gleichmäßig besten Tests entgehen kann. Es macht daher Sinn, die Qualitätsanforderung leicht abzuschwächen zu einem Begriff eines gleichmäßig besten unverfälschten Tests mit Signifikanzniveau ?. Ein solcher Test muss „nur" gleichmäßig besser sein als alle unverfälschten Tests, deren Signifikanzniveau den Wert ? nicht übersteigt. Die mathematische Formalisierung schützt natürlich nicht vor inhaltlichen Missinterpretationen. Die häufigste und wichtigste Fehlinterpretation eines Fehlers 1. Art zeigt sich dann, wenn über die Alternativhypothese ausgesagt wird, sie sei aufgrund der Testergebnisse mit einer Wahrscheinlichkeit von (beispielsweise) 95% richtig. Eine solche Formulierung ist aber allein schon deshalb unsinnig, weil der unbekannte, in vielen Fällen allerdings mittels einer Vollerhebung zumindest theoretisch zweifelsfrei feststellbare, Wahrheitscharakter einer Aussage über die Grundgesamtheit überhaupt nicht vom Zufall abhängt. Zufallsabhängig ist nämlich nur das auf Basis der Stichprobe erzielte Testergebnis. Und dieses Testergebnis besitzt im Fall einer in Wirklichkeit wahren Null- Hypothese nur mit einer Wahrscheinlichkeit von höchstens 5% einen Wert, der zur Verwerfung der Null-Hypothese führt. Anders ausgedrückt: Man stelle sich 1000 wissenschaftliche Veröffentlichungen vor, die jeweils aus einem, mit einem Signifikanzniveau von 5% bestätigten Ergebnis bestehen. Kann man nun sagen, dass etwa 50 dieser Ergebnisse ein reines Produkt des Zufalls sind? Entstammen 50 der akademischen Titel, die mit diesen Resultaten womöglich erworben wurden, in Wahrheit einer „Titel-Lotterie"? Nein, die Aussage ist nicht zulässig! Denn wir wissen nicht, wie viele Wissenschaftler bei ihren Forschungen – natürlich nichts ahnend – angetreten sind, eine in Wahrheit richtige Null-Hypothese zu widerlegen. Was wir wissen ist, dass etwa 5% von diesen Wissenschaftlern ein Testergebnis erzielen, das sie zu einer falschen Schlussfolgerung kommen lässt. Weitergehende Erkenntnisse über die Häufigkeit solcher falschen Schlussfolgerungen erhielte man nur dann, wenn man wüsste, wie viele Untersuchungen anteilig wahre und falsche Hypothesen zum Gegenstand hatten. Mangels Kenntnis könnte man diesbezüglich auch eine Annahme treffen, zum Beispiel „fifty-fifty". Aber eine solche Annahme wäre natürlich reine Spekulation! Nicht unerwähnt bleiben darf ein anderer Effekt, der als publication bias bezeichnet wird. Wie bei allgemeinen Nachrichten, bei denen ein einzelner Flugzeugabsturz, nicht aber die vielen tausend problemlos verlaufenden Flüge zum Thema werden, finden in der Regel nur signifikante Testreihen den Weg in Fachzeitschriften. Dies hat unter anderem zur Konsequenz, dass Meta-Analysen, bei denen Testreihen verschiedener Untersuchungen kumulativ untersucht werden, zwar von einer großen, aber keineswegs repräsentativen Datenbasis ausgehen. Der einfachste Fall eines Hypothesentests Das denkbar einfachste Szenario eines Hypothesentests liegt vor, wenn sowohl die Null-Hypothese als auch die Alternativhypothese jeweils nur durch einen einzelnen Parameterwert repräsentiert wird. Ohne Einschränkung der Allgemeinheit können wir die beiden Werte als 0 beziehungsweise 1 annehmen: ?0 = {0} und ?1 = {1}. Man nennt solche, nur einen Parameterwert umfassende Hypothesen übri- gens einfach. Andernfalls spricht man von einer zusammengesetzten Hypothese

Ein Anwendungsbeispiel für dieses Szenario sieht wie folgt aus: Eine Stichprobe von Werkstücken ist zu prüfen, die sämtlich von einer einzelnen von zwei möglichen, mit „0" und „1" bezeichneten, Ma- schinen produziert worden sind. Dabei sind die unterschiedlichen Fehlerraten p0 und p1 der beiden Maschinen a priori bekannt. Es soll nun aus der Fehlerrate innerhalb der Stichprobe darauf geschlossen werden, mit welcher der beiden Maschinen die Werkstücke produ- ziert worden sind. Die Bedeutung des beschriebenen Szenarios basiert aber weniger auf solchen Anwendungsbeispielen, die zweifellos etwas konstruiert erscheinen. Vielmehr eignen sich derartige, in ihrer Komplexität minimalistische, Fälle bestens dazu, die zuvor beschriebenen Konzepte zu testen – und zwar im wahrsten Sinne des Wortes. Dabei bedingen die ein-elementigen Hypothesen offensichtlich die vorteilhafte Eigen- schaft, dass sich die Wahrscheinlichkeiten für einen Fehler 1. oder 2. Art jeweils nur aufgrund eines einzelnen Parameterwertes ergeben. Eine Maximierung beziehungsweise Minimierung ist dabei nicht notwendig. Insbesondere kann damit auch die Qualität von zwei verschiedenen Tests besonders einfach miteinander verglichen werden: Ist bei einem von zwei Tests mit gleichem Signifikanzniveau die Wahrscheinlichkeit für einen Fehler 2. Art kleiner, dann ist er automatisch auch gleichmäßig besser. Bild 36 Das linke Balkendiagramm zeigt beispielhaft die Wahrscheinlichkeiten für die diversen Beobachtungsergebnisse x bei Gültigkeit der Null-Hypothese ?0 (dunkle Balken) sowie bei Gültigkeit der Alternativhypothese ?1 (helle Balken). Ebenfalls links dargestellt ist die „symmetrische" Testentscheidung für die jeweils plausibelste Ursache. Die Wahrscheinlichkeiten der sich auf diese Weise ergebenden Fehlentscheidungen sind rechts zusammengestellt. Wie aber finden wir nun eine gute Entscheidungsregel? Unvoreingenommen, das heißt ohne die bisherigen Erörterungen von Hypothesentests, würden wir wahrscheinlich folgendermaßen vorgehen: Man berechnet zunächst für jedes mögliche Beobachtungsergebnis x ? X, mit welcher Wahrscheinlichkeit dieses Beobachtungsergebnis realisiert wird, das heißt bei der Entnahme einer zufälligen Stichprobe ? „ausgewürfelt" wird: x(? ) = x. Dabei muss zwischen den beiden Szenarien „0" und „1" unterschieden werden. Auf diese Weise erhält man zu jedem Beobachtungsergebnis x ? X zwei Wahrscheinlichkeiten, nämlich P0(x) und P1(x). Dabei gehen wir zur Vermeidung formaler Schwierigkeiten der Einfachheit halber davon aus, dass die Menge X der Beobachtungsergebnisse endlich ist. Und wie würde wohl nun die nächstliegende und plausibelste Entscheidung aussehen, ein konkret beobachtetes Stichprobenergebnis x ursächlich zu interpretieren? Die Antwort lautet natürlich: Im Fall von P0(x) > P1(x) erscheint die Null-Hypothese ?0 = {0} als die plausiblere Erklärung für das Beobachtungsergebnis x. Dagegen kann im umgekehrten Fall P0(x) < P1(x) die Alternativhypothese ?1 = {1} das Beobachtungsergebnis x plausibler erklären (siehe auch Bild 36). Auch wenn dieser symmetrische Ansatz auf den ersten Blick intuitiv erscheinen mag, so wissen wir aufgrund der bisherigen Überlegungen doch, dass es oft gute Gründe dafür gibt, die beiden Hypothesen ?0 = {0} und ?1 = {1} nicht symmetrisch zu berücksichtigen, um so insbesondere Fehler 1. Art zu vermeiden. Daher überlegen wir uns, wie ein Fehler 1. Art unwahrscheinlicher gemacht werden kann. Offenkundig muss es erschwert werden, dass eine in Wahrheit richtige Null-Hypothese verworfen wird. Dazu muss die Entscheidung für eine Verwerfung noch stärker legitimiert sein im Sinne eines Übergewichtes der Wahrscheinlichkeit P1(x) gegenüber P0(x). Demgemäß modifizieren wir die Entscheidungsregel für eine Verwerfung mit einem ausreichend großen Schwellenwert c > 0: P1(x) > c·P0(x)

Ein solcher, als Neyman-Pearson-Test bezeichneter, Test ? führt im Fall von P1(x) > c·P0(x) zur Verwerfung der Null-Hypothese, das heißt ?(x) = 1, und im Fall von P1(x) < c·P0(x) zur Nicht-Verwerfung, das heißt ?(x) = 0. Die Entscheidung des Tests bei Beobachtungsergebnissen x mit P1(x) = c·P0(x) bleibt zunächst offen, wobei aber im Sinne eines randomisierten Tests insbesondere auch die Möglichkeit einer zufälligen Entscheidung auf Basis eines Bernoulli-Experimentes in Betracht gezogen wird. In diesem Fall spiegelt die den Test charakterisierende Abbildung ? : X ? [0, 1] die Wahrscheinlichkeit wider, mit der die Null-Hypothese verworfen wird. Ist ein Signifikanzniveau ? vorgegeben, kann man dazu immer einen geeigneten Neyman-Pearson-Test finden: Dazu gruppiert man die möglichen Beobachtungsergebnisse x ? X gemäß den Werten der Stichprobenfunktion P1(x)/P0(x). Anschließend sortiert man die so gebildeten Gruppierungen nach absteigender Reihenfolge der Quotienten P1(x)/P0(x), wobei die erste Gruppierung zum Pseudo-Wert +? die Beobachtungsergebnisse x mit P1(x) > 0 und P0(x) = 0 enthält. Aus dieser Liste gruppierter Beobachtungsergebnisse wählt man schließlich im Sinne eines konservativen Ansatzes die ersten Grup- pierungen aus, und zwar so lange, wie die Summe von deren Wahrscheinlichkeiten P0 maximal das vorgegebene Signifikanzniveau ? erreicht. Diese Konstruktion ergibt einen einseitigen Ablehnungsbereich , der bei Gültigkeit der Null-Hypothese maximal die Wahrscheinlichkeit ? besitzt. Ist das vorgegebene Signifikanzniveau ? damit noch nicht ausgeschöpft, so kann dies mit einem randomisierten Testansatz ? nachgeholt werden. Dazu nimmt man den größten Wert der Stichprobenfunktion c' = P1(x)/P0(x), deren zugehörige Gruppierung nicht zum Ablehnungsbereich T1(c) gehört, und veranstaltet für deren Beobachtungsergebnisse x ein Bernoulli-Experiment. Für die zu einer Ablehnung führende Wahrscheinlichkeit wählt man dabei den Wert . Mit dieser Wahl wird erreicht, dass bei gültiger Null-Hypothese, das heißt unter Zugrundelegung der P0-Wahrscheinlichkeiten, eine Ablehnung der Null-Hypothese mit einer Wahrscheinlichkeit von insgesamt ? stattfindet. Selbstverständlich gibt es für das hier untersuchte Szenario, das aus zwei einfachen Hypothesen besteht, durchaus Entscheidungsregeln, die keinem Neyman-Pearson-Test entsprechen. Allerdings stellt sich heraus, dass für jedes beliebige Signifikanzniveau ? ein Neyman- Pearson-Test existiert, der die Eigenschaft eines besten Tests besitzt. Zum Beweis dieses sogenannten Neyman-Pearson-Lemmas berechnet man zunächst für einen belie- bigen randomisierten Test ? : X ? [0, 1] die Wahrscheinlichkeiten für einen Fehler 1. und 2. Art. Offenbar liefert ein Beobachtungsergebnis x, für das gemäß ?(x) = 1 eine Entscheidung für die Alternativhypothese getroffen wird, den Beitrag P0(x) zur Wahrscheinlichkeit eines Fehlers 1. Art. Analog erhöht ein Beobachtungsergebnis x, bei dem eine Randomisierung stattfindet, die Wahrscheinlichkeit eines Fehlers 1. Art um P0(x)·?(x). Ein Fehler 1. Art besitzt daher die Wahrscheinlichkeit Entsprechend erhöht ein Beobachtungsergebnis x, für das gemäß ?(x) = 0 eine Entscheidung für die Null-Hypothese getroffen wird, die Wahrscheinlichkeit eines Fehlers 2. Art um P1(x). Und ein Beobachtungsergebnis x, bei dem eine Randomisierung stattfindet, trägt mit dem Summanden P1(x)·(1 – ?(x)) zur Wahrscheinlichkeit eines Fehlers 2. Art bei. Dessen Wahrscheinlichkeit ist daher gleich Auf Basis dieser beiden Formeln für die Wahrscheinlichkeiten von Fehlern 1. und 2. Art können wir nun die Qualität eines beliebigen randomisierten Tests ? : X ? [0, 1] mit Signifikanzniveau ? und eines Neyman-Pearson-Tests ? : X ? [0, 1] mit Schwellenwert c und Signifikanzniveau ? miteinander vergleichen. Dazu findet man zunächst die für jeden Beobachtungswert x ? X gültige Ungleichung deren Nachweis sich unmittelbar durch die Unterscheidung von zwei Fällen ergibt: Im ersten Fall ?(x) – ?(x) > 0 ist ?(x) > 0 und damit P1(x) ? c·P0(x). Im zweiten Fall ?(x) – ?(x) < 0 ist ?(x) = 0 und damit P1(x) ? c·P0(x). Die somit nachgewiesene Ungleichung summiert man nun über alle Beobachtungsergebnisse x ? X und findet so Unter Berücksichtigung der Formeln für die Wahrscheinlichkeiten von Fehlern 1. und 2. Art erhält man daraus Diese letzte Ungleichung zeigt, dass unter den Tests zum Signifikanz- niveau ? der Neyman-Pearson-Test ? : X ? [0, 1] besser ist als der beliebig vorgegebene Test ? : X ? [0, 1]. Aufgaben 1. Mit einer Anzahl von n ? 100 Würfen soll die Symmetrie einer Münze getestet werden. Bei welchen Stichprobenergebnissen ist bei einem vorgegebenen Signi- fikanzniveau von ? = 0,01 die Null-Hypothese zu verwerfen, gemäß der die Münze faire Entscheidungen herbeiführt? Wie groß ist die Wahrscheinlichkeit für einen Fehler 2. Art bei einer Münze, deren Ungenauigkeit maximal einem Chancenverhältnis von 51:49 oder umgekehrt entspricht? 2. Bereits in der ersten Aufgabe des letzten Kapitels wurde auf die Mendel'schen Regeln der Vererbung hingewiesen. Demnach tritt ein Merkmal, das nur durch ein einziges Gen bestimmt wird, in der Gesamtpopulation mit der Wahrscheinlichkeit ¼ für die rezessive Ausprägung und mit der Wahrscheinlichkeit ¾ für die dominante Ausprägung auf. Mit einer Stichprobe der Größe 25 soll nun die Null-Hypothese geprüft werden, gemäß der eine bestimmte der beiden Ausprägungen dominant ist. Wie oft darf dabei die hypothetisch dominante Ausprägung vorkommen, damit die Null-Hypothese mit einem Signifikanzniveau von 0,05 verworfen werden kann? Wie groß kann dabei die Wahrscheinlichkeit eines Fehlers 2. Art werden?

3.4 Normalverteilung bei kleinen Stichproben?

Im Ergebnisbericht über einen durchgeführten Hypothesentest wird aus- geführt, dass man bei dem untersuchten Merkmal von einer Normalver- teilung ausgegangen sei und dass die Stichprobe acht Untersuchungsein- heiten umfasst habe. Ist die Unterstellung eines normalverteilten Merk- mals bei einer solch kleinen Stichprobe überhaupt zulässig? Auch wenn eine große Stichprobe zur Verringerung der statistischen Unsicherheit generell wünschenswert ist, so ist deren Realisierung nicht immer erreichbar. Man stelle sich zum Beispiel eine Entwicklungsabteilung eines Automobilkonzerns vor, welche die ersten acht Prototypen eines neu konstruierten Motors hergestellt hat, um sie auf die Einhaltung von Abgasnormen zu prüfen. Natürlich könnte man noch weitere Prototypen aufbauen. Allerdings ist der damit verbundene Kostenaufwand in einem frühen Stadium der Entwicklung oft einfach noch nicht angemessen, weil zu diesem Zeitpunkt überhaupt noch nicht klar ist, ob diese Neuentwicklung in eine Erfolg versprechende Richtung weist. Wir wollen unterstellen, dass die zu prüfendende Abgasnorm besagt, dass alle später zu produzierenden Motoren dieses Typs unter vorgegebenen Bedingungen durchschnittlich einen bestimmten Wert nicht überschreiten dürfen. Der Einfachheit halber nehmen wir diesen Oberwert mit 100 (Prozent) an. Dass nicht jedes Exemplar der Baureihe die gleiche Schad- stoffemission besitzt, liegt einfach an den Maß- und Materialtoleranzen, die zumindest im geringen Umfang niemals vermeidbar sind. Und da die verschiedenen Faktoren weitgehend unabhängig voneinander die Emis- sion um gewisse Werte vergrößern oder vermindern, kann man mit einer gewissen Berechtigung davon ausgehen, dass die Höhe der Schadstoff- emission eine Normalverteilung aufweist. Natürlich bezieht sich diese Normalverteilung nicht – wie in der Eingangsfrage unterstellt – auf die acht Prototypen, sondern auf die noch fiktive Gesamtheit aller Motoren diesen Typs. Und diese Grundgesamtheit, die insbesondere auch die spä- tere Serienproduktion beinhaltet, ist groß genug, dass man die Abgaswer- te als normalverteilt ansehen kann. Untermauern lässt sich die Annahme der Normalverteilung auch empi- risch, etwa indem man andere Motorentypen untersucht, die bereits se- rienmäßig hergestellt werden und daher in großer Stückzahl zur Verfü- gung stehen. Auch wenn die Häufigkeitsverteilungen der Abgaswerte, die sich für die einzelnen Motorentypen ergeben, kaum in ihren quantitativen Eigenschaften übereinstimmen werden, so besteht doch eine gute Aus- sicht, dass sich die für bisherige Motortypen empirisch nachgewiesene Eigenschaft einer normalverteilten Schadstoffemission auch auf den neu- en Motorentyp überträgt. Unter den erörterten Gesichtspunkten kann man also die Höhe der Schad- stoffemission eines zufällig aus der fiktiven Grundgesamtheit entnom- menen Motors als Zufallsgröße X ansehen, die normalverteilt ist. Die Messwerte der acht Prototypen entsprechen damit voneinander unab- hängigen, identisch normalverteilten Zufallsgrößen X = X1, X2, ..., X8. Ge- fordert ist ein mit statistischen Methoden geführter Nachweis für die Aussage E(X) ? 100, wobei ein Signifikanzniveau von beispielsweise ? = 0,05 vorgegeben ist. Hätten wir es mit einer großen Stichprobe von beispielsweise n = 100 Motoren zu tun, wäre die Verfahrensweise deutlich einfacher. Die als empirischer Erwartungswert bezeichnete Stichprobenfunktion besitzt dann gemäß dem Gesetz der großen Zahlen eine Wahrscheinlich- keitsverteilung, die stark um den Erwartungswert E(X ) konzentriert ist. Daher – und unter nochmaligem Verweis auf das Gesetz der großen Zah- len – konzentriert sich die Wahrscheinlichkeitsverteilung der Zufallsgrö- ße stark um die Standardabweichung ?X. Gleiches gilt damit auch für die leicht modifizierte, als empirische Standardabweichung bezeichnete, Testgröße . Die Änderung des Nenners in der letzten Formel dient dem Zweck, die „Prognose"-Qualität der Testgröße zu verbessern. Wir werden darauf in Kapitel 3.7 zurückkommen. Wie gut ist nun aber die Näherung des Erwartungswertes E(X ), die der Mittelwert X¯ (x ) eines Stichprobenergebnisses x = (X1(? ), ..., Xn(? )) lie- fert? Da die Zufallsgröße X normalverteilt ist, gilt das auch für den Ap- proximationsfehler X¯ (x ) – E(X ), wobei diese Differenz den Erwar- tungswert 0 und die Standardabweichung besitzt. Im hier zu lösenden Problem ist die Standardabweichung ?X aber nur in Form einer auf Basis der Stichprobe realisierten Näherung S(x ) bekannt. Für größere Stichproben mit n = 100 Motoren ist der durch diese Approximation ent- stehende Fehler sicher vernachlässigbar. Das gilt aber nicht für kleinere Stichproben mit nur n = 8 Motoren. Folglich kann für eine solch kleine Stichprobe auch der Approximationsfehler X¯ (x ) – E(X ) nicht mittels der Normalverteilung abgeschätzt werden. Allerdings gibt es einen anderen Weg, kleine Stichproben von normalver- teilten Zufallsgrößen zu untersuchen. Dabei können Aussagen über den Erwartungswert direkt aus den drei Daten ? des empirischen Erwartungswertes, ? der empirischen Standardabweichung sowie ? der Stichprobengröße getroffen werden. Die Idee dazu stammt von dem Mathematiker William Sealy Gosset (1876-1937), der allerdings mehr unter seinem Pseudonym Student bekannt ist . Gosset erkannte nämlich, dass die Verteilung der Stichprobenfunktion zwar von der Stichprobengröße n, nicht aber von dem Erwartungswert und von der Standardabweichung der zugrunde liegenden, normalverteilten Zufallsgröße X abhängt. Die Stichprobenfunktion T wird Student'sche Testgröße genannt. Bevor wir uns davon überzeugen, dass diese Eigenschaft tatsächlich gilt, sollte man sich zumindest etwas wundern: Angestrebt wird eine Aussage über den Erwartungswert E(X ) auf Basis eines zufälligen Beobachtungsergebnisses x = (X1(? ), ..., Xn(? )). Daher erscheint es widersinnig, dass dies mit einem Testgrößenwert geschehen soll, dessen Berechnung die Kenntnis des Erwartungswertes E(X ) voraussetzt. Zu diesem nur scheinbar berechtigten Einwand kann Folgendes festgestellt werden: ? Für die theoretische Untersuchung der Stichprobenfunktion und ihrer Wahrscheinlichkeitsverteilung kann die Kenntnis des Erwartungswertes E(X ) natürlich ohne Weiteres vorausgesetzt werden. ? Für einen konkreten Test kann der Erwartungswert E(X ) im Verlauf des Tests zum Beispiel aufgrund einer zu Anfang entsprechend gemachten Hypothese „bekannt" sein. ? Darüber hinaus bleibt daran zu erinnern, dass Entsprechendes auch für die schon erörterte ? 2-Testgröße gilt: Auch diese Testgröße des Pearson'schen Anpassungstests beinhaltet die Parameter von derjenigen Zufallsgröße, die mit dem Test erst noch ermittelt werden sollen. Nach dieser Vorbemerkung wollen wir uns jetzt der Invarianz-Eigenschaft der Student'schen Testgröße zuwenden. Um diese essenzielle Eigenschaft nachzuweisen, transformieren wir die normalverteilte Zufallsgröße X mittels zweier Konstanten a > 0 und b, um dann die Zufallsgröße X durch die transformierte Zufallsgröße Y = aX + b zu ersetzen. Da sich dann auch die einzelnen Zufallsgrößen der Stichprobe X1, ..., Xn entsprechend mittels Yi = aXi + b transformieren, erhält man , und schließlich für die zugehörigen Student'schen Testgrößen TY = TX. Da jede normalverteilte Zufallsgröße mit einer affin linearen Transformation in eine standardnormalverteilte transformiert werden kann, ist damit gezeigt, dass die Verteilung der Stichprobenfunktion nicht vom Erwartungswert und der Standardabweichung der zugrunde gelegten Zufallsvariablen abhängt. Die Erzeugung von normalverteilten Pseudo-Zufallszahlen In Kapitel 2.10 wurde die Erzeugung von im Intervall (0,1) gleichverteilten Pseudo-Zufallszahlen beschrieben. Eingegangen wurde auch auf die Erzeugung von Pseudo-Zufallszahlen zu Zufallsgrößen mit endlichem Wertebereich. Um normalverteilte – oder einer anderen Verteilung unterworfene – Pseudo-Zufallszahlen zu erzeugen, ist eine Transformation der Pseudo-Zufallszahlen notwendig. Dazu geht man von einer Folge x1, x2, ... von unabhängigen, im Intervall (0,1) gleichverteilten Pseudo-Zufallszahlen aus. Diese Pseudo-Zufallszahlen werden nun mittels der Um- kehrfunktion zur Normalverteilung ? transformiert, welche zum Beispiel die Funktionswerte ?–1(0,5) = 0 und ?–1(0,9452) = 1,6 besitzt (siehe Tabelle 2 auf Seite 127). Auf diese Weise wird dann wie gewünscht eine Folge von standardnormalverteilten und voneinander unabhängigen Pseudo-Zufallszahlen generiert: Da man für die gerade beschriebene Transformation die Umkehrfunktion zur Normalverteilung benötigt, soll noch auf eine weitere Möglichkeit hingewiesen werden: Man simuliert eine genügend große Anzahl, beispielsweise 50, von Würfelergebnissen, bildet deren Summe und normiert die so definierte Zufallsgröße auf den Erwartungswert 0 und die Standardabweichung 1. Nach dem Zentralen Grenzwertsatz ist die so entstehende Zufallsgröße annähernd standardnormalverteilt.

Unter Umgehung der in vielen Statistikbüchern mehr oder minder ausführlich dargestellten, komplizierten Integraltransformationen kann man nun, wie wir es schon für ? 2-Testgröße getan haben, zu jeder Stichprobengröße n die Wahrscheinlichkeitsverteilung der Student'schen Test- größe T empirisch bestimmen. Dazu notwendig ist einzig eine genügend lange Folge von standardnormalverteilten und voneinander unabhängigen Zufallszahlen (siehe Kasten Die Erzeugung von normalverteilten Pseudo-Zufallszahlen). Aus jeweils n solcher Zufallszahlen, die man als Realisierung eines Zufallsvektors x auffassen kann, wird dann ein Wert der Testgröße T durch bestimmt. Wie in Kapitel 2.10 beschreiben, kann die Wahrscheinlichkeitsverteilung empirisch durch eine Simulationsreihe von solchermaßen realisierten T-Werten ermittelt werden. Die Verteilung wird als t-Verteilung mit n – 1 Freiheitsgraden bezeichnet. Wie die Standardnormalverteilung ist sie symmetrisch zum Nullpunkt. Für Hypothesentests hauptsächlich wichtig sind die Quantile t1–? für ? = 0,01, 0,05 und 0,10, das sind die Werte t1–? mit P(T ? t1– ?) = 1 – ?. Außerdem braucht die t-Verteilung für große Stichprobenanzahlen n nicht untersucht zu werden. Grund ist, dass sich für diese Anzahlen die empirische Standardabweichung S(x ) kaum noch vom Wert 1 der Standardabweichung unterscheidet, so dass die Stichprobenfunktion T dann ebenso wie die Stichprobenfunktion annähernd standardnormalverteilt ist. Diese Tendenz ist auch in Tabelle 4 erkennbar. Wie sich ein Hypothesentest dann vereinfacht, wird im Kasten Test für den Erwartungswert bei großen Stichproben beschrieben. Nach diesem Exkurs über die Eigenschaften der t-Verteilung können wir nun endlich das gestellte Problem angehen. Wir werden dazu auf Basis der t-verteilten Testgröße T einen Hypothesentest durchführen, den sogenannten Student'schen t-Test. Als Null-Hypothese formulieren wir, dass die Abgaswerte der neuen Motoren die Anforderungen nicht erfüllen. Wir gehen also von der einseitigen Null-Hypothese aus, gemäß welcher der durchschnittliche Abgaswert aller Motoren des neuen Typs größer als 100 ist: H0: E(X ) > 100. Um die Alternativhypothese H1: E(X ) ? 100 wie erhofft statistisch zu bestätigen, wird eine Verwerfung der Null-Hypothese auf Basis eines Signifikanzniveaus von 5% angestrebt. Das heißt, ein Fehler 1. Art, bei dem ein nicht den Abgasnormen entsprechendes Motorenkonzept den Test der ersten acht Prototypen besteht, tritt höchstens mit einer Wahrscheinlichkeit von 0,05 auf. Tabelle 4 Einige wichtige Werte der t-Verteilung, jeweils abhängig zu dem in der linken Spalte aufgeführten Freiheitsgrad f, der um 1 kleiner ist als die Stichprobengröße n, also n = f – 1. Die Werte in den drei Datenspalten sind die Quantile t, die den Wahrscheinlichkeiten P(T ? t) = 0,9; 0,95 bzw. 0,99 entsprechen. Bei hohen Freiheitsgraden stimmen die Werte mit denen in Tabelle 2 (Seite 127) überein. Der Ablehnungsbereich wird nun entsprechend den Überlegungen des letzten Kapitels konstruiert. Zwei Anforderungen muss er erfüllen: ? Ein in Wirklichkeit ungenügendes Motorkonzept, welches der Ungleichung E(X ) > 100 entspricht, darf nur in 5% der Fälle aufgrund einer „ausreißenden" Stichprobe als genügend gut erscheinen. Das heißt: Mit Wahrscheinlichkeit von 0,95 darf im Fall einer richtigen Null-Hypothese H0: E(X ) > 100 keine Ablehnung erfolgen. ? Tendenziell müssen Stichproben mit sehr guten Abgasmesswerten, bei denen der Mittelwert X¯ (x ) den Wert 100 genügend deutlich unterschreitet, zu einer Ablehnung der Null-Hypothese H0: E(X ) > 100 führen. Die zweite Anforderung führt uns zu einem Ablehnungsbereich der Form T1(c) = {t | t ? c}. Dabei wird der kritische Wert c entsprechend dem grenzwertigen Fall E(X ) = 100 gewählt. In diesem Sinne wählen wir gemäß der Zeile zu f = 7 Freiheitsgraden und dem Sicherheitsniveau von 95% in Tabelle 4 den einseitigen Ablehnungsbe- reich T1 = {t | t ? –1,90}. Für die konkrete Testdurchführung gehen wir von den in Tabelle 5 aufgeführten Messwerten aus. Dort ist auch gleich der mit diesen Daten realisierte Wert der Student'schen Stichprobenfunktion T einschließlich der zu seiner Berechnung notwendigen Zwischenwerte aufgeführt: Tabelle 5 Die Messwerte der acht Prototypen sowie die Werte der daraus berechneten Stichprobengröße. Wie erhofft liegt dieser realisierte Wert der Stichprobenfunktion im Ablehnungsbereich, so dass die Null-Hypothese als widerlegt angesehen werden kann. Wir wollen das Ergebnis des Hypothesentests nochmals in inhaltlicher Interpretation formulieren: Die Prototypen der Motoren erscheinen ausreichend abgasarm, da andernfalls das erzielte Testergebnis nur eine Wahrscheinlichkeit von weniger als 5% hätte. Test für den Erwartungswert bei großen Stichproben Bei großen Stichproben normalverteilter Merkmalswerte kann das beschriebene Testverfahren vereinfacht werden. Der Grund ist, dass die zur Abschätzung der Irrtumswahrscheinlichkeit notwendige Standardabweichung ? aufgrund des Gesetzes der großen Zahlen mit genügender Genauigkeit durch die empirische Standardabweichung S(x ) approximiert werden kann. Damit ist, wie schon erwähnt, die Prüfgröße annähernd normalverteilt. Eine für den Erwartungswert E(X ) gemachte Hypothese kann so mit Hilfe des Quantils z = ?–1(T(x )) überprüft werden.

Eine andere Interpretation der t-Verteilung Wie schon bei der Pearson'schen Stichprobenfunktion kann auch die Verteilung der Student'schen Stichprobenfunktion in direkter Weise auf normalverteilte Zufallsgrößen zurückgeführt werden. Dazu ist die Beziehung zu analysieren, in der die beiden Zufallsgrößen, die der Student'schen Testgröße zugrunde liegen, zueinander stehen. Ausgegangen wird dabei von identisch normalverteilten und voneinander unabhängigen Stichprobenergebnissen X1, ..., Xn. Dazu zu untersuchen sind der Mittelwert sowie die auf dessen Basis berechnete empirische Varianz: Da wir schon gesehen haben, dass die Verteilung der Student'schen Stichprobenfunktion bei einer affin linearen Transformation unverändert bleibt, können wir ohne Einschränkung der Allgemeinheit davon ausgehen, dass die voneinander unabhängigen Stichprobenergebnisse X1, ..., Xn standardnormalverteilt sind. Obwohl zur Berechnung der empirischen Varianz der Mittelwert verwendet wird, stellt sich überraschenderweise heraus, dass die beiden Zufallsgrößen stochastisch unabhängig voneinander sind. Das bedeutet, dass ein konkret beobachteter Mittelwert nicht die Wahrscheinlichkeitsverteilung der empirischen Varianz beeinflusst und umgekehrt. Im Fall n = 2 kann man diese Eigenschaft elementar prüfen. Es ist wobei die beiden normalverteilten Zufallsgrößen X1 + X2 und X1 – X2 zueinander unkorreliert und damit voneinander unabhängig sind: Die tiefere, bereits in Fußnote 64 erörterte, Ursache dafür ist, dass die Dichte des multivariat normalverteilten Zufallsvektors (X1, X2) rotationssymmetrisch ist. Dadurch sind die beiden mittels Skalarprodukt mit den Richtungsvektoren (1, 1) und (1, –1) gebildeten Zufallsgrößen X1 + X2 und X1 – X2 unabhängig voneinander, weil die beiden Vektoren senkrecht zueinander stehen – genauso wie im Fall der Zufallsgrößen X1 und X2, die den senkrecht zueinander stehenden Koordinatenachsen entsprechen. Auch im Fall n > 2 kann man entsprechend argumentieren: Wir bilden zunächst aus den Stichprobenergebnissen X1, ..., Xn den Zufallsvektor X = (X1, ..., Xn)T und definieren ergänzend noch den konstanten, auf Länge 1 normierten Vektor . Mit Hilfe dieser beiden Vektoren erhalten wir die beiden Darstellungen und Ergänzt man nun den Vektor b1 zu einer Orthonormalbasis b1, …, bn, so erhält man für den Zufallsvektor X zur neuen Basis die Koordinatendarstellung und folglich

Dabei sind die Zufallsgrößen b1T X, …, bnT X entsprechend den Überlegungen zu multivariaten Normalverteilungen am Ende von Kapitel 2.10 (insbesondere in den Fußnoten 62 und 64) standardnormalverteilt und voneinander unabhängig. Dies zeigt einerseits die Unabhängigkeit der beiden Zufallsgrößen X¯ und S und andererseits, dass (n – 1)S2 Chi-Quadrat-verteilt mit n – 1 Freiheitsgraden ist. Außerdem ist offensichtlich standardnormalverteilt. Insofern besitzt die Student'sche Stichprobenfunktion die gleiche Verteilung wie der Quotient wobei die Zufallsgrößen U, V1, …, Vn–1 standardnormalverteilt und unabhängig voneinander sind. Insbesondere ist damit die Quadratsumme in der Wurzel des Nenners ? 2-verteilt mit n – 1 Freiheitsgra- den. Der letzte Quotient kann übrigens auch dazu verwendet werden, eine Integraldarstellung für die t-Verteilung mit n – 1 Freiheitsgraden herzuleiten . Aufgaben 1. Generieren Sie mit einem Computerprogramm normalverteilte Zufallszahlen, und bestimmen Sie so die tabellierten Werte der t-Verteilung. 2. Geprüft werden soll die Homogenität von zwei Stichproben, die durch die normalverteilten und untereinander unabhängigen Zufallsgrößen X1, ..., Xm und Y1, ..., Yn beschrieben werden, wobei die Zufallsgrößen der ersten Serie identisch verteilt sind und ebenso die Zufallsgrößen der zweiten Serie. Solche Fragestellungen tauchen auf, wenn der Einfluss des Merkmals geprüft werden soll, das die beiden Stichproben voneinander abgrenzt. Zeigen Sie, dass im Fall der Homogenität, das heißt bei übereinstimmenden Normalverteilungen N(?,? ), die Prüfgröße t-verteilt mit m + n – 2 Freiheitsgraden ist. Dabei sind SX und SY die empirischen Standardverteilungen der beiden Stichproben. Der Test wird als Doppelter t- Test oder t-Test für unverbundene Stichproben bezeichnet. Hinweis: Bestimmen Sie zunächst die Verteilungen der beiden Prüfgrößen . 3. Mit einem Vorher-Nachher-Vergleichstest soll bei einer relativ kleinen Gruppe von Patienten die Wirksamkeit eines Medikaments getestet werden. Dabei ist bekannt, dass das zu beeinflussende Merkmal wie zum Beispiel der Blutdruck in der Gesamtpopulation normalverteilt ist. Als Null-Hypothese wird formuliert, dass der Erwartungswert bei der Medikation unverändert bleibt, wobei eine einseitige Verwerfung der Null-Hypothese angestrebt wird. Ausgehend von den zur Stichprobe ermittelten Vorher-Nachher-Wertepaaren, welche durch die identisch verteilten, voneinander unabhängigen Zufallsvektoren (X, Y) = (X1, Y1), ..., (Xn, Yn) beschrieben werden, bildet man dazu im Rahmen des sogenannten Differenzen-t-Tests, der auch als t- Test für verbundene Stichproben bezeichnet wird, die Prüfgröße Warum unterliegt diese Testgröße bei richtiger Null-Hypothese E(X) = E(Y) der t-Verteilung mit n – 1 Freiheitsgraden? Begründen Sie, warum die Voraussetzung der Normalverteilung eigentlich für die Differenz X – Y gestellt werden muss .

3.5 Testplanung ohne festgelegtes Signifikanzniveau: der p-Wert

Wäre für den im letzten Kapitel untersuchten Hypothesentest ein Signifikanzniveau von 1% vorgegeben worden, hätte die Null-Hypothese nicht verworfen werden dürfen. Die Aussagekraft eines Tests scheint damit von der a priori vorgenommenen Testplanung und dem dabei festgelegten Signifikanzniveau abzuhängen.

Es wurde bereits darauf hingewiesen, dass die Aussagekraft eines Hypothesentests daran gebunden ist, dass er systematisch durchgeführt wird. Insbesondere muss die Testplanung vor der Auswertung der Testresultate erfolgen: Keinesfalls zulässig ist das „schleppnetzartige" Durchforsten von Daten, um mit diesen Daten signifikant widerlegbare Hypothesen zu suchen. Auch wenn nachträglich der Anschein eines regulär durchgeführten Hypothesentests suggeriert werden kann, ist eine solchermaßen produzierte „Erkenntnis" wertlos. Methodisch ebenso unzulässig ist es, verschiedene in Frage kommende Prüfgrößen daraufhin zu checken, ob eine von ihnen die gefundenen Ergebnisse als signifikant bewertet. Der methodische Zwang, eine Testplanung vor der Datenauswertung abzuschließen, führt allerdings dazu, dass zum Beispiel ein Wissenschaftler, der sich mit einem fünfprozentigen Signifikanzniveau zufriedengibt, scheinbar mehr Resultate produziert als ein Wissenschaftler, der sich bei seiner Testplanung a priori ein einprozentiges Signifikanzniveau vorgegeben hat. Streng genommen ist es diesem zweiten Wissenschaftler methodisch sogar nicht gestattet, sein Signifikanzniveau nach der Stichpro- benerhebung auf beispielsweise 2 Prozent zu erhöhen, obwohl der erste Wissenschaftler entsprechend signifikante Ergebnisse als Beleg einer neuen Erkenntnis veröffentlichen würde. Die Interpretation von ein und derselben Stichprobenuntersuchung hängt damit von der A-Priori-Festlegung des Signifikanzniveaus ab, was etwas paradox erscheint. Eine Idee, dieses Dilemma zu überwinden, besteht darin, die Forderung, dass die Testplanung vollständig vor der Datenauswertung zu erfolgen hat, teilweise aufzugeben, nämlich in Bezug auf die Festlegung des Signifikanzniveaus ?. Das heißt, vor der Datenauswertung werden nur die folgenden Festlegungen getroffen: * die Hypothese H0, * die Prüfgröße T sowie * die Entscheidung zwischen einer ein- oder zweiseitigen Ausrichtung des Ablehnungsbereiches T1 Den letzten Punkt kann man noch konkretisieren. Oft besitzen – und sei es nach einer Transformation – die Prüfgrößen T eine solche Form, dass der Ablehnungsbereich T1 eine der beiden folgenden Charakterisierungen besitzt: oder .

Dabei wird die Grenze c(? ) jeweils so definiert, dass bei gültiger Null-Hypothese die Wahrscheinlichkeit für eine Verwerfung aufgrund eines Stichproben-„Ausreißers" höchstens gleich ? ist. Und nun kommt es: Statt ein Signifikanzniveau fest ? vorzugeben, führt man den Test fiktiv simultan für mehrere Signifikanzniveaus durch und bestimmt dann das kleinste Signifikanzniveau ?, bei dem die Hypothese noch verworfen werden kann. Beispielsweise erhält man für die im letzten Kapitel untersuchte Stichprobe der acht Motoren-Prototypen passend zum T-Wert von –2,92 ent- sprechend den sieben Freiheitsgraden den Wert 0,01117 für das minimale Signifikanzniveau, das zu einer Ablehnung führt. Ein solchermaßen bestimmter Wert wird Überschreitungswahrscheinlichkeit oder meist kurz p-Wert genannt. Im Beispiel hat der p-Wert von 0,01117 konkret die folgende Bedeutung: Die Null-Hypothese, dass der Erwartungswert höchstens 100 beträgt, ist für jedes a priori festgelegte Signifikanzniveau von mindestens 1,117% zu verwerfen. So einleuchtend und unzweideutig diese Interpretation klingt, so häufig wird der p-Wert jedoch missverstanden: ? Wir beginnen mit der schlimmsten Missinterpretation, auf die man trotzdem leider immer wieder stößt. Demgemäß wird für den hier beispielhaft angeführten Fall behauptet, dass die Null-Hypothese mit ei- ner Wahrscheinlichkeit von 1 – 0,01117 = 0,98883 richtig sei. In Bezug auf einen solchen Unsinn lässt sich nur Gebetsmühlen-artig wiederholen, dass die Richtigkeit einer Hypothese nicht das Ergebnis eines Zufallsprozesses ist, so dass es dafür auch keine Wahrscheinlichkeit gibt. ? Methodisch ist es unzulässig, eine Verwerfung der Null-Hypothese mit einem Signifikanzniveau ? vorzunehmen, wenn dieses Signifikanzniveau nicht vor der Datenerhebung festgelegt wurde. Eine nach- trägliche Festlegung des Signifikanzniveaus ? auf Basis der Stichprobenergebnisse und des daraus berechneten p-Wertes ist methodisch nicht zu rechtfertigen. ? Schließlich bleibt noch anzumerken, dass der Begriff der Überschreitungswahrscheinlichkeit wenig glücklich ist: Da die Wahrscheinlich- keit eine Eigenschaft eines Ereignisses ist, stellt sich natürlich sofort die Frage, auf welches Ereignis sich diese Wahrscheinlichkeit denn bezieht. Die Antwort lautet, dass es überhaupt kein a priori, das heißt, ohne Bezug auf den konkret realisierten p-Wert formulierbares, Ereignis gibt, dessen Wahrscheinlichkeit dem p-Wert entspricht. Erst wenn man Bezug auf den konkret ermittelten p-Wert nimmt, lässt sich das Ereignis formulieren: Unter Annahme der Null-Hypothese ist dann nämlich der p-Wert gleich der Wahrscheinlichkeit desjenigen Ereignisses, dass höchstens der Prüfgrößenwert realisiert wird, auf Basis dessen der p-Wert ermittelt wurde. Speziell ein kleiner p-Wert spiegelt daher die geringe Wahrscheinlichkeit wider, dass eine erneute Realisierung nochmals höchstens so klein und damit ebenso extremal aus- fällt. Insofern ist die Interpretation des p-Wertes als Wahrscheinlichkeit wenig natürlich. Sinnvoller ist dagegen die Interpretation des p-Wertes als Realisierung einer Prüfgröße, die – unter Annahme der Null- Hypothese – im Hinblick auf die Verteilungsfunktion sowie den Ablehnungsbereich standardisiert ist: p-Werte sind, sofern sie stetig verteilt sind, im abgeschlossenen Intervall [0, 1] gleichverteilt, und der Ablehnungsbereich zum Signifikanzniveau ? besitzt die Form [0, ?). Abseits der somit nicht wenig anspruchsvollen Herausforderung, p-Werte sachlich richtig zu interpretieren, gibt es aber auch zwei entscheidende Vorteile von p-Werten: ? Die Verwendung von p-Werten ermöglicht es, den wahrscheinlichkeitstheoretischen Teil eines Hypothesentests von der anwendungsbezogenen Schlussfolgerung zu trennen. Praktiziert wird dies insbesondere bei der Verwendung von Statistikprogrammen, weil dadurch die Eingabe eines Signifikanzniveaus entbehrlich wird. Eine solche Ein- gabe ins Programm einzig zum Zweck des Vergleichs, ob der vom Statistikprogramm berechnete p-Wert kleiner als das vorgegebene Signifikanzniveau ist, wäre nämlich wohl wenig sinnvoll. ? Vorteilhaft einsetzen lassen sich p-Werte auch dann, wenn mehrere, voneinander unabhängige Stichprobenerhebungen fiktiv zu einer einzigen Stichprobenuntersuchung zusammengefasst werden. Allerdings sind solche sogenannte Meta-Analysen methodisch oft nicht unproblematisch, wenn nämlich ein Teil der Testkonzeption, insbesondere die Weiterverarbeitung der Einzelergebnisse betreffend, erst nach der Erhebung einzelner Stichprobendaten festgelegt wird. Aufgaben 1. Eine Münze wird tausendmal geworfen. Dabei trifft 545-mal das Ereignis „Zahl" ein. Welchem p-Wert entspricht dieses Versuchsreihenergebnis im Hinblick auf die Null-Hypothese einer symmetrischen Münze? Ist ein ein- oder zweiseitiger Ablehnungsbereich zugrunde zu legen? 2. Ein Würfel wird auf Symmetrie getestet. Bei 600 Würfen erhält man für die sechs möglichen Ergebnisse die Häufigkeitsverteilung 108, 95, 92, 105, 112, 88. Welcher p-Wert ergibt sich daraus? Ist ein ein- oder zweiseitiger Ablehnungsbe- reich vorzusehen? 3. In Bezug auf die Prüfung einer bestimmten Null-Hypothese werden die Ergebnisse von zwei Tests in Form der p-Werte p1 und p2 geliefert werden. Wie lassen sich diese beiden Werte zu einem einzigen p-Wert zusammenführen? Ermitteln Sie empirisch mit einer Simulation die Wahrscheinlichkeitsverteilung von derjenigen Zufallsgröße, die gleich dem Produkt der beiden einzelnen p-Werte ist. 4. Für die Prüfung einer Null-Hypothese sollen m Einzeltests durchgeführt wer den, wobei jeweils ein p-Wert ermittelt wird. Anschließend soll aus diesen p-Werten, deren Zufallsgrößen wir mit P1, …, Pm bezeichnen, ein kumulierter p-Wert ermittelt werden. Geschehen kann das mit der Zufallsgröße .

Zeigen Sie, dass die Verteilung dieser Zufallsgröße gleich einer Chi-Quadrat-Verteilung mit 2m Freiheitsgraden ist. Der diesbezügliche Test wird auch als Fishers Kombinationstest bezeichnet. Hinweis: Zeigen Sie zunächst die Behauptung für den Fall m = 1 unter Verwendung von Aufgabe 5 aus Kapitel 2.10.

3.6 Konfidenzintervalle: zufallsbestimmte Intervalle

Jemand wirft einen zu testenden Würfel 6000-mal und erzielt dabei 1026 Sechsen. Daraufhin behauptet er, dass die Wahrscheinlichkeit für eine Sechs bei diesem Würfel mit 99-prozentiger Sicherheit zwischen den beiden Zahlen 0,1588 und 0,1839 liegen würde. Er begründet dies damit, dass es sich dabei um ein sogenanntes Vertrauensintervall handeln würde, wie es in Statistik-Büchern beschrieben werde. Ist eine solche Aussage gerechtfertigt? Im Zusammenhang mit Hypothesentests haben wir mehrmals darauf hingewiesen, dass die auf Basis eines einprozentigen Signifikanzniveaus vollzogene Ablehnung der Null-Hypothese nicht bedeutet, dass die Null-Hypothese mit 99-prozentiger Sicherheit falsch ist. Eine solche Aussage kann nämlich allein schon deshalb nicht getroffen werden, weil die Gültigkeit der Hypothese nicht zufallsabhängig ist und insofern keine Wahrscheinlichkeit besitzt – sieht man einmal von den trivialen Werten 0 oder 1 ab. Entsprechendes gilt natürlich auch für jeden anderen Parameter einer unbekannten Wahrscheinlichkeitsverteilung. Ob eine Aussage über einen solchen Parameter richtig oder falsch ist, hängt nicht vom Zufall ab. Nun kennt die Mathematische Statistik aber tatsächlich sogenannte Vertrauensintervalle, welche den gesuchten Parameter einer Wahrscheinlichkeitsverteilung mit einer vorgegebenen Wahrscheinlichkeit, also beispielsweise 0,99, enthält. Bei einem solchen, meist als Konfidenzintervall bezeichneten, Vertrauensintervall handelt es sich um ein zufällig bestimmtes Intervall, das heißt, seine Unter- und Obergrenze entsprechen zwei Zufallsgrößen. Erstmals eingeführt wurden Konfidenzintervalle 1935 durch Jerzy Neyman (1894-1981). Wir wollen uns zunächst anschauen, wie ein solches Konfidenzintervall für Situationen, die ähnlich wie die Eingangsfrage gelagert sind, konstruiert werden kann. Dazu gehen wir von einem Ereignis A aus, dessen wertmäßig unbekannte Wahrscheinlichkeit wir mit p bezeichnen. Im Rahmen einer Versuchsreihe wiederholen wir das zugrunde liegende Zufallsexperiment n-mal unabhängig voneinander und ermitteln dabei die relative Häufigkeit RA,n des Ereignisses A. Außerdem geben wir ein Konfidenzniveau genanntes Sicherheitsniveau 1 – ? vor, wie zum Beispiel 0,99 für ? = 0,01, und bezeichnen das dazugehörige zweiseitige Normalverteilungs-Quantil mit z = z1–? / 2 = ?–1(1 – ? / 2), also beispielsweise z = 2,576 für ? = 0,01. Für genügend große Versuchsanzahlen n lässt sich die Verteilung der Zufallsgröße RA,n mit dem Zentralen Grenzwertsatz approximieren. Es gilt daher . Für kleine Werte wie beispielsweise ? = 0,01 ist das Ereignis, das auf der linken Seite durch die Ungleichung beschrieben wird, fast sicher. Dieses Ereignis bezieht sich auf die relative Häufigkeit RA,n(? ), die abhängig vom Verlauf ? einer Versuchsreihe beobachtet wird. Das Ereignis tritt genau dann ein, wenn die relative Häufigkeit RA,n(? ) und die unbekannte Wahrscheinlichkeit p maximal die angegebene Abweichung voneinander aufweisen. In der Wahrscheinlichkeitsrechnung wird die Aussage als eine Prognose über die Resultate in einer noch durchzuführenden Versuchsreihe interpretiert. In der Statistik kehrt man die Sichtweise um. Dabei versucht man zu ergründen, welche Wahrscheinlichkeiten p den beobachteten Wert RA,n(? ) plausibel erklären können. In Frage kommen nämlich nur solche Wahrscheinlichkeiten p, bei denen das – bei einem kleinen Wert ? fast sichere – Ereignis eintritt, dass die relative Häufigkeit RA,n(? ) die angegebene Abweichung zur Wahrscheinlichkeit p nicht übertrifft. Um bei unseren weiteren Überlegungen die Schreibweise zu vereinfachen, werden wir das Quantil z1–?/2 nur noch mit z abkürzen. Durch Qua- drieren der Ungleichung, die das Ereignis beschreibt, erhalten wir zunächst: In Form einer quadratischen Ungleichung für die unbekannte Wahrscheinlichkeit p erhält man daraus: Fasst man die linke Seite der Ungleichung als eine von der Wahrscheinlichkeit p abhängende Funktion auf, so ist deren Graph eine sich nach oben öffnende, quadratische Parabel. Zwischen deren beiden Nullstellen – sofern existent – wird die linke Seite der Ungleichung negativ. Die Lösungsmenge der Ungleichung ist somit gleich dem abgeschlossenen Intervall [G– , G+] dessen Grenzen G– und G+ die Lösungen der entspre- chenden Gleichung sind. Diese beiden, auf jeden Fall reelle Werte sind . Wie die relative Häufigkeit RA,n lassen sich auch die beiden Intervallgrenzen G– und G+ als Zufallsgrößen auffassen, deren Werte G–(? ) und G+(? ) durch den Versuchsreihenverlauf ? bestimmt werden. Dabei tritt gemäß der soeben vorgenommenen Herleitung das Ereignis genau dann ein, wenn die Wahrscheinlichkeit p innerhalb des Intervalls [G–(? ), G+(? )] liegt. Und damit überträgt sich auch die Wahrscheinlichkeit 1 – ? auf das Ereignis, dass das zufällig bestimmte Intervall [G– , G+] die unbekannte Wahrscheinlichkeit p enthält: Für das in der Eingangsfrage beschriebene Beispiel erhält man wegen n = 6000, RA,6000(? ) = 1026/6000 und z = 2,576 die beiden Intervallgrenzen G–(? ) = 0,1588 und G+(? ) = 0,1839. Rein quantitativ kann also die in der Eingangsfrage formulierte Aussage bestätigt werden. Unpräzise war allerdings die dort gewählte Formulierung: Zufällig ist nicht der unbekannte Parameter, das heißt die Wahrscheinlichkeit, dass der zu prüfende Würfel eine Sechs zeigt. Zufällig sind aber die Grenzen des Intervalls, das zur Eingrenzung des Parameters konstruiert wird. Das hat zur Konsequenz, dass man von einer 99-prozentigen Wahrscheinlichkeit eigentlich nur vor Durchführung der Testreihe sprechen kann. Nachträglich lässt sich nur noch auf die Herkunft der Intervallgrenzen verweisen. Konkret kann man die Aussage treffen, dass die aktuell ermittelten Intervallgrenzen einem Zufallsprozess entstammen, der mit 99-prozentiger Sicherheit solche Zahlen generiert, welche die unbekannte Wahrscheinlichkeit einschließen. Sieht man von der gerade geschilderten Gefahr einer Missinterpretation ab, besitzen Konfidenzintervalle gegenüber Hypothesentests den methodischen Vorteil, dass es nicht notwendig ist, zu Beginn eine Hypothese aufzustellen. Dagegen ist die mathematische Analyse etwas aufwändiger, wobei in der Herleitung die gegenüber der Wahrscheinlichkeitsrechnung erfolgte Umkehrung der Schlussweise schön hervortritt, was wir im allgemeinen Kontext nochmals darlegen wollen: Dazu gehen wir allgemein von einer Zufallsgröße X aus, deren Verteilung von einem gegebenenfalls mehrdimensionalen, wertmäßig unbekannten Parameter ? ? ? bestimmt wird, wobei ? für die Menge der möglichen Parameter steht. Ziel ist es, Informationen über den Parameter ? aus den Beobachtungsergebnissen einer Stichprobe zu erhalten. Formal wird dazu mit Hilfe der unabhängigen, identisch verteilten Zufallsgrößen X = X1, ..., Xn , welche die Stichprobe mathematisch beschreiben, durch die zufällige Stichprobenauswahl ? ein Beobachtungsergebnis realisiert, und zwar in der Form x = (X1(? ), ..., Xn(? )) oder auf Basis einer Prüfgröße T in der etwas allgemeineren Form x = T(X1(? ), ..., Xn(? )). In jedem Fall erhalten wir auf diesem Weg einen Stichprobenraum X, der alle möglichen Beobachtungsergebnisse x umfasst, samt einer vom unbekannten Parameter ? abhängenden Wahrscheinlichkeitsverteilung für die Beobachtungsergebnisse. Zu jedem Parameter ? ? ? wird zunächst auf Basis der zugehörigen Wahrscheinlichkeitsverteilung ein Bereich C? ? X konstruiert, der einerseits möglichst klein ist und für den es andererseits sehr wahrscheinlich ist, dass ein realisierter Beobachtungswert x darin liegt, nämlich mindestens mit der Wahrscheinlichkeit 1 – ? : Bei einem endlichen Stichprobenraum kann man dazu einfach die möglichen Beobachtungsergebnisse x ? X in der Reihenfolge absteigender Wahrscheinlichkeiten sortieren, wobei die Menge C? aus den ersten Elementen der so gebildeten Liste besteht, also aus den Elementen mit den größten Wahrscheinlichkeiten. Dabei wird die Menge C? so lange um weitere Beobachtungsergebnisse ergänzt, bis die Wahrscheinlichkeit 1 – ? erreicht ist: Wie schon im Spezialfall der empirisch ermittelten Trefferquote wird nun die Gesamtheit der Mengen C? einer umgekehrten Interpretation zugeführt. Dabei sucht man ausgehend von einem konkret in einer Stichprobe ermittelten Beobachtungsergebnis x ? X nach den Parameterwerten ? ? ?, die in plausibler Weise als ursächliche Erklärung für den ermittelten Beobachtungswert x dienen können, das heißt, für die der Beobach- tungswert x auf Basis des Parameterwertes ? nicht a priori völlig unwahrscheinlich ist. Formal konstruiert man dazu zu jedem Beobachtungsergebnis x ? X die Parametermenge C(x), die alle Parameterwerte ? ? ? enthält, für die x ? C? erfüllt ist:

Die Menge C(x) ? ? wird Konfidenzbereich genannt. Dabei ist die Begriffsmodifikation erforderlich, weil es sich selbst bei eindimensionalen Parametern nicht zwangsläufig um ein Konfindenzintervall handeln muss. Die Zuordnung x ? C(x), mit der jedem zufälligen Stichprobenergebnis x ? X der zugehörige Konfidenzbereich C(x) zugeordnet wird, offenbart nun die gewünschte Information über den unbekannten Parameter ? ? ?. Unabhängig vom unbekannten Parameterwert ? beträgt nämlich die Wahrscheinlichkeit dafür, dass der „ausgewürfelte" Konfidenzbereich C(x) den Parameterwert ? enthält, mindestens 1 – ? : Konfidenzintervalle für normalverteilte Zufallsgrößen Auch für die in Kapitel 3.4 untersuchten Situationen, das heißt bei innerhalb der Grundgesamtheit normalverteilten Merkmalswerten, können analog zum Vorgehen beim t-Test Konfidenzintervalle hergeleitet werden: Wir gehen dazu wieder von einer Stichprobe in Form einer endlichen Folge von identisch normalverteilten, voneinander unabhängigen Zufallsgrößen X = X1, ..., Xn aus. Zu einem vorgegebenen Konfidenzniveau von 1 – ? gesucht ist ein Konfidenzintervall für den Erwartungswert E(X ), das heißt, gesucht sind zwei Zufallsgrößen G– und G+ mit Aus Kapitel 3.4 wissen wir, dass der aus dem Beobachtungsergebnis x = (X1(? ), ..., Xn(? )) berechnete Wert der Zufallsgröße einer t-Verteilung mit n – 1 Freiheitsgraden unterliegt. Da die t-Verteilung wie die Standardnormalverteilung symmetrisch zum Null- punkt ist, besitzt das Quantil t1–?/2 die Eigenschaft , wobei für große Stichprobengrößen n wieder das entsprechende Quantil z1–? / 2 der Normalverteilung verwendet werden kann, ohne dass es dadurch zu nennenswerten Abweichungen kommt. Die das Ereignis charakterisierende Ungleichung | T | ? t1–? / 2 lässt sich mit Hilfe der Definition der Stichprobenfunktion T umformen zu . Zum vorgegebenen Konfidenzniveau 1 – ? ist damit ein Konfidenzintervall: Wie gewünscht handelt es sich dabei um ein Intervall, dessen zufällige Grenzen auf Basis des empirischen Erwartungswertes und der empirischen Standardabweichung S so bestimmt werden, dass der wertmäßig unbekannte Erwartungswert E(X ) mit der Wahrscheinlichkeit 1 – ? in diesem Intervall liegt. Aufgaben 1. Beim ZDF-Politbarometer wird monatlich die politische Stimmung in Deutschland auf Basis der Befragung von 1200 Personen gemessen. Bestimmen Sie zum Sicherheitsniveau von 0,95 Konfidenzintervalle für zwei Parteien, für die innerhalb der Stichprobe Stimmenanteile von 35% beziehungsweise 7% ermittelt wurden. 2. Die Zahl der Fische in einem Teich soll geschätzt werden. Dazu werden zunächst 200 Fische gefangen, markiert und wieder ausgesetzt. Am nächsten Tag werden wieder 150 Fische gefangen, von denen 35 markiert sind. Geben Sie zum Sicherheitsniveau 0,95 ein Konfidenzintervall für die Gesamtzahl der Fische an. Hinweis: Ist n die unbekannte Anzahl von Fischen, dann beträgt am zweiten Tag die Wahrscheinlichkeit, dass ein gefangener Fisch markiert ist, p = 200/n. Wie lässt sich ein Konfidenzintervall für die Wahrscheinlichkeit p in ein Konfidenzintervall für die Anzahl n transformieren?

3.7 Schätztheorie: Eine Einführung

In Kapitel 3.4 wurde die empirische Standardabweichung zu einer Versuchsreihe von voneinander unabhängigen, identisch verteilten Zufallsgrößen X = X1, ..., Xn mit der Formel definiert. Abgesehen vom Nenner n – 1 scheint die Formel plausibel. Wie aber erklärt sich der Nenner? Die angesprochene Plausibilität meint das Folgende: Spielen wir mit einem Glücksrad mit gleicher Wahrscheinlichkeit von je 1/n eine der n nicht unbedingt voneinander verschiedenen Gewinnhöhen x1, ..., xn aus, so besitzt die zugehörige Zufallsgröße den Erwartungswert sowie die Standardabweichung . Spielt man die Gewinnhöhe nicht zwischen den festen Werten x1, ..., xn aus, sondern zwischen den zuvor mit den Zufallsgrößen X = X1, ..., Xn realisierten Zahlen X1(? ), ..., Xn(? ), dann liefern die beiden Formeln Werte, die vom Beobachtungsergebnis x = (X1(? ), ..., Xn(? )) abhängen, nämlich und . Natürlich bietet es sich an, die beiden gerade angeführten Formeln als Zufallsgrößen T und U aufzufassen, deren Werte auf Basis des Beobachtungsergebnisses x definiert sind. Dabei interessiert insbesondere das „mittlere", das heißt durchschnittliche, Verhalten der beiden Zufallsgrößen. Charakterisiert wird dieses mittlere Verhalten durch die beiden Erwartungswerte E(T ) und E(U ). Für die erste Zufallsgröße T, deren übliche Benennung als empirischen Erwartungswert und dessen Be- zeichnung wir bereits in Kapitel 3.4 kennengelernt haben, erhalten wir . Ergänzend, nämlich vorbereitend auf die Analyse der zweiten Zufallsgröße U, berechnen wir außerdem Dabei erklärt sich die vorletzte Identität aus der Unabhängigkeit der Zu- fallsgrößen X1, ..., Xn und die letzte Identität aus der Tatsache, dass die Zufallsgrößen X = X1, ..., Xn identisch verteilt sind. Die zweite, zu Beginn des Kapitels definierte, Zufallsgröße U stimmt bis auf einen Faktor mit der in Kapitel 3.4 definierten empirischen Standardabweichung S überein. Und genau dieser Faktor war ja auch Gegenstand der zu Beginn des Kapitels gestellten Frage. Für die Zufallsgröße U erhält man und folglich .

Aus dieser Identität ersieht man sofort, warum für die Definition der empirischen Standardabweichung S der Nenner n – 1 statt n verwendet wurde: Dadurch wird nämlich die Eigenschaft erreicht. In Bezug auf die Schätzung der unbekannten Varianz Var(X ) mit der Zufallsgröße S2 bedeutet dies, dass die mittlere Abweichung zum richtigen Wert gleich 0 ist. Zweifelsohne ist ein solches, im Mittel zielgerichtetes Verhalten ein wichtiges Qualitätsmerkmal einer Prüfgröße. Mit dem empirischen Er- wartungswert sowie der empirischen Standardabweichung kennen wir be- reits zwei Beispiele für solche Prüfgrößen, die man als erwartungstreue Schätzer bezeichnet. Um diesen Begriff zu erklären, muss zunächst erläutert werden, was man unter einem Schätzer versteht, der gelegentlich auch als Schätzfunktion oder – in Abgrenzung zum Konfidenzintervall – als Punktschätzer bezeichnet wird. Wir gehen dabei wieder von einer Situation aus, wie sie in Kapitel 3.3 bei der allgemeinen Beschreibung eines Hypothesentests zugrunde gelegt wurde. Gegeben ist also eine Zufallsgröße X, deren Verteilung von einem gegebenenfalls mehrdimensionalen, wertmäßig unbekannten Parameter ? ? ? bestimmt wird, wobei ? wieder für die Menge der möglichen Parameter steht. Ziel ist es, Informationen über den Parameter ? aus den innerhalb einer Stichprobe beobachteten Ergebnissen zu erhalten. Konkret soll der Wert g(? ) geschätzt werden, wobei g eine Funktion ist. Geschätzt wird mit einer auf Basis der Stichprobenergebnisse definierten Zufallsgröße T? = t (X1, ..., Xn), wobei die Stichprobe wieder in Form einer endlichen Folge von voneinander unabhängigen, identisch verteilten Zufallsgrößen X = X1, ..., Xn vorliegt. Jede solche Zufallsgröße T? wird als Schätzer bezeichnet, egal ob die Definition in der Regel eine gute Schätzung liefert oder nicht. Die Indizierung der Zufallsgröße T? mit dem Parameter ? trägt dem Umstand Rechnung, dass deren Verteilung von ? abhängt: Zwar hängt die eigentliche Schätzfunktion t nicht vom Parameter ? ab, wohl aber die Verteilung der mit t transformierten Beobachtungsergebnisse . Es bleibt noch eine Anmerkung zur Funktion g zu machen, mit welcher der Parameter ? transformiert wird. Diese Funktion erlaubt es, die Schätzung auf einen inhaltlichen Bestandteil des Parameters zu beschränken. Handelt es sich beispielsweise beim Parameter ? um das Wertepaar ? = (m, ? ) ? R ? R+, das aus Erwartungswert und Standardabweichung einer Normalverteilung gebildet ist, dann ermöglicht es die Funktion g(? ) = g(m, ? ) = m, eine Schätzung auf den Erwartungswert zu beschränken. Wie gut die Schätzung tatsächlich ist, die abhängig vom Beobachtungs- ergebnis x = (X1(? ), ..., Xn(? )) wertmäßig durch T? (x ) = t(x ) ? g(? ) konkretisiert wird, lässt sich an Hand bestimmter Qualitätsmerkmale sys- tematisch charakterisieren. Erstmals formuliert wurden diese Kriterien vom Begründer der Schätztheorie Ronald Aylmer Fisher 1922 in seiner bahnbrechenden Publikation On the mathematical foundations of theoretical statistics . An dieser Stelle soll nur ein kurzer Überblick über die entsprechenden Denkansätze und Begriffe gegeben werden: ? Die Zufallsgröße T? heißt genau dann erwartungstreuer, unverfälschter oder unverzerrter Schätzer für g(? ), wenn für alle möglichen Parameter ? ? ? die Bedingung erfüllt ist. Im Fall einer Zufallsgröße X mit endlichem Wertebereich entspricht diese Anforderung der Gleichung Summiert wird dabei über alle möglichen Beobachtungsergebnisse x ? X, deren Wahrscheinlichkeiten P( (X1, ..., Xn) = x ) natürlich vom Parameter ? abhängen und daher zur Verdeutlichung oft mit ? indiziert werden. ? Die vom Parameter ? abhängende Differenz B(? ) = E(T? ) – g(? ) heißt Bias der Schätzung. Gelegentlich wird die Differenz B(? ) auch systematischer Fehler oder Verzerrung genannt. Der Bias ist genau dann konstant gleich 0, wenn der betreffende Schätzer erwartungstreu ist. Im Englischen werden erwartungstreue Schätzer daher unbiased genannt. ? Die Effizienz oder Wirksamkeit XE „Wirksamkeit eines Schätzers" eines erwartungstreuen Schätzers T? wird dadurch charakterisiert, dass für die möglichen Parameter ? ? ? die Varianz Var(T? ) möglichst klein ist: Je kleiner diese Varianzen Var(T? ) sind, desto geringer beziehungsweise seltener sind nämlich die zufälligen Schwankungen der realisierten, das heißt zufällig „ausgewürfelten", Schätzwerte T? (x ) um den Erwartungswert E(T? ) = g(? ). Stellt sich im direkten Vergleich von zwei erwartungstreuen Schätzfunktionen für g(? ) heraus, dass einer der beiden Schätzer T? für alle möglichen Parameter ? ? ? eine geringere Varianz Var(T? ) aufweist, dann wird er gegenüber dem anderen als effizienter oder wirksamer bezeichnet. ? Ein Schätzer T? heißt suffizient oder er- schöpfend, wenn durch die Berechnung der realisierten Schätzwerte T? (x ) = t(X1(? ), ..., Xn(? )) aus den zufälligen Stichprobenwerten x = (X1(? ), ..., Xn(? )) keine Information verlorenen geht, aus der sich Hinweise auf den unbekannten Parameter ? ergeben hätten. Konkret dürfen dazu die bedingten Wahrscheinlichkeiten der Form wertmäßig nicht vom Parameter ? ? ? abhängen. Ist ein Schätzer so definiert, dass die Größe der Stichprobe variiert werden kann, erhält man eine Folge von Schätzern. Deren Langzeitverhalten beinhaltet ebenfalls Qualitätsmerkmale: ? Ein Schätzer heißt asymptotisch erwartungstreu , wenn für jeden möglichen Pa- rameter ? ? ? der Erwartungswert E(T? ) für große Stichprobengrößen n gegen den zu schätzenden Wert g(? ) konvergiert. ? Der Schätzer T? heißt konsistenter Schätzer für g(? ), wenn er für jeden möglichen Parameterwert ? ? ? für große Stichprobengrößen n stochastisch gegen den zu schätzenden Wert g(? ) konvergiert. Wir erinnern uns, was das bedeutet: Für jede, beliebig klein vorgegebene Obergrenze eines Fehlers ? > 0 muss die Wahrscheinlichkeit, dass diese Grenze bei der Schätzung aufgrund von | T? (x ) – g(? ) | > ? überschritten wird, bei wachsender Stichprobengröße n gegen 0 konvergieren. Zum Beispiel ist der empirische Erwartungswert ein erwartungstreuer Schätzer, der aufgrund des (schwachen) Gesetzes der großen Zahlen auch konsistent ist. Beide Eigenschaften übertragen sich selbstverständlich auf den Spezialfall, bei dem die Wahrscheinlichkeit eines Ereignisses mit den relativen Häufigkeiten, die für dieses Ereignis im Rahmen einer Versuchsreihe beobachtet werden, geschätzt wird. Dabei sind relative Häufigkeiten als Schätzer sogar auch suffizient, da die zusätzliche Berücksichtigung der Reihenfolge von Treffern und Nicht-Treffern keine weiteren Erkenntnisse bringt. Auch die empirische Standardabweichung ist entsprechend der bereits durchgeführten Berechnung ein erwartungstreuer Schätzer. Es wird nochmals daran erinnert, dass für diese Eigenschaft der Nenner n – 1 maßgeblich ist. Mit einem Nenner n würde sich „nur" ein asymptotisch erwartungstreuer Schätzer ergeben. Es gibt allerdings sogar Schätzaufgaben, für die kein erwartungstreuer Schätzer existiert. Ein Beispiel werden wir am Ende dieses Kapitels in Aufgabe 1 kennenlernen.

Die Erwartungstreue eines Schätzers ist unter anderem deshalb eine so wichtige Eigenschaft, da sie im Zusammenspiel mit dem Gesetz der großen Zahlen bei einer Durchschnittsbildung von mehreren, unabhängig voneinander ermittelten Werten dieses Schätzers eine beliebig genaue Approximation erlaubt – zumindest dann, wenn die Varianz des Schätzers endlich ist, was aber bei Stichproben aus einer endlichen Grundgesamtheit auf jeden Fall gesichert ist. Bei der Durchschnittsbildung spielt die Varianz des Schätzers aber nicht nur in qualitativer Hinsicht eine Rolle: Je kleiner die Varianz des Schätzers ist, desto schneller und sicherer wirkt das Gesetz der großen Zahlen! Schätzer für Kovarianz und Korrelationskoeffizient Soll die quantitative Beziehung von zwei Zufallsgrößen X und Y, die auf Basis desselben Zufallsexperimentes definiert sind, empirisch untersucht werden, dann entspricht diese Situation einer verbundenen Stichprobe. Das heißt, die formale Ausgangslage umfasst eine endliche Folge von zweidimensionalen, identisch verteilten, voneinander unabhängigen Zufallsvektoren (X, Y) = (X1, Y1), ..., (Xn , Yn), wobei die Beobachtungsergebnisse (X1(? ), Y1(? )), ..., (Xn(? ), Yn(? )) die empirisch ermittelte Datenbasis der durchzuführenden Untersuchung bilden. Daraus berechnet werden sollen geeignete Schätzwerte für die Kovarianz Cov(X, Y) und den Korrelationskoeffizienten r(X, Y). In Anlehnung an die schon untersuchten Schätzwerte für den Erwartungswert und die Standardabweichung einer Zufallsgröße liegt es nahe, für die Kovarianz den Schätzwert zu verwenden. Ganz analog zu den Berechnungen bei der Untersuchung der empirischen Standardabweichung erhält man einerseits und andererseits wobei die vorletzte Identität darauf beruht, dass für verschiedene Indizes i und j die beiden Zufallsgrößen Xi und Yj unabhängig sind und daher E(XiYj) = E(Xi)·E(Yj) gilt. Insgesamt ergibt sich Damit ist die Zufallsgröße C ein erwartungstreuer Schätzer für die Kovarianz Cov(X, Y). Einen guten Schätzer für den Korrelationskoeffizienten erhält man, wenn man in dessen Definition sowohl die Kovarianz im Zähler als auch die beiden Standardabweichungen im Nenner durch ihre empirischen Pendants ersetzt. Nachdem der Faktor (n – 1) weggekürzt ist, erhält man den als empirischen Korrelationskoeffizienten bezeichneten Schätzwert . Allerdings ist dieser Schätzer nicht erwartungstreu, aber immerhin konsistent, so dass er immerhin für genügend große Stichproben als qualitativ ausreichend angesehen werden kann. Für Schätzer, die nicht erwartungstreu sind, liegt es nahe, die entsprechende Abweichung E(T? ) – g(? ) als gesonderten Anteil des zufallsab- hängigen Fehlers T? – g(? ) auszuweisen: Der Schätzer ist daher qualitativ gut, wenn für jeden möglichen Parameter ? der Bias-Wert B(? ) sowie die Varianz Var(T? ) betragsmäßig klein sind: Dabei stellt ein betragsmäßig kleiner Bias sicher, dass die Schätzung im Vergleich zum zu schätzenden Wert g(? ) keinem generellen Trend – etwa im Sinne von durchschnittlich zu großen Schätzungen – unterliegt. Ist darüber hinaus die Varianz Var(T? ) klein, dann streuen die konkret „ausgewürfelten" Schätzwerte T? (x ) nicht zu stark und zu oft. Bildet man aus mehreren, unabhängig voneinander realisierten Werten eines bestimmten Schätzers den Durchschnitt, dann wird dessen Qualität durch die möglichst weitgehende Erwartungstreue sowie eine möglichst niedrige Varianz des Schätzers bestimmt. Um diese beiden Anforderungen in einer Kenngröße zu vereinigen, definiert man den sogenannten mittleren quadratischen Fehler. Diese vom Parameter ? ? ? abhängenden Maßzahlen sind definiert als , wobei MSE für die englische Benennung mean squared error steht. Ähnlich wie bei der Definition der Varianz wird mit dieser Konstruktion eine über alle möglichen Stichprobenauswahlen gemittelte Abweichung zwischen dem Schätzer T? und dem zu schätzenden Wert g(? ) gemessen. Unter Rückgriff auf die eben schon durchgeführte Aufspaltung dieser Abweichung ergibt sich Bild 37 Für einen festen Parameterwert ? dargestellt ist die Wahrscheinlichkeitsverteilung der möglichen Schätzwerte T? (x ), das heißt die Wahrscheinlichkeiten P(T? (x ) = t ). Unterliegt die Schätzung einem generellen Trend, spiegelt sich dies im Bias B(? ) = E(T? ) – g(? ) wider. Das Maß für die zufälligen Streuungen der Schätzwerte ist die Varianz Var(T? ). Damit ist gezeigt, dass der mittlere quadratische Fehler MSE(? ) für jeden Parameterwert ? ? ? gleich der Summe ist aus ? der Varianz der Schätzfunktion sowie ? dem Quadrat des Bias. Die vom Parameter ? ? ? abhängende Funktion MSE(? ) erlaubt es, ähnlich wie es mit der Operationscharakteristik bei Hypothesentests möglich ist, verschiedene Schätzer in qualitativer Hinsicht miteinander zu vergleichen. Dabei kann insbesondere der ursprünglich nur für erwartungstreue Schätzer definierte Begriff der Effizienz beziehungsweise Wirksamkeit verallgemeinert werden: Ein Schätzer heißt MSE-effizienter oder auch MSE-wirksamer als ein anderer Schätzer, wenn die MSE-Funktion des ersten Schätzers für alle möglichen Parameter ? ? ? kleiner oder gleich der MSE-Funktion des zweiten Schät- zers ist. Die mathematische Grundlagenforschung kann so zum Nutzen des An- wenders tätig werden. Wir wollen dies hier nur am sehr einfachen Bei- spiel des empirischen Erwartungswertes demonstrieren: So naheliegend es zweifellos ist, den Erwartungswert E(X ) mit dieser Formel, also durch den Mittelwert der Beobachtungswerte, zu schätzen, so sollten wir uns – sensibilisiert durch die gerade angestellten Überlegungen – doch fragen, ob nicht vielleicht ein anderer Schätzer wie etwa besser zur Schätzung des Erwartungswertes E(X ) geeignet ist. Dabei ist offenkundig auch dieser Schätzer T erwartungstreu und konsistent. Dass der alternative Schätzer T aber trotzdem keine Verbesserung darstellt, offenbart ein Vergleich der beiden mittleren quadratischen Fehler. Konkret erhält man, weil beide Bias-Werte verschwinden: Dabei erklärt sich das Größer-Gleich-Zeichen aus der für n ? 3 gültigen Größer-Gleich-Relation . Maximum-Likelihood-Schätzer Im aktuellen Kapitel wurden Kenndaten beschrieben, die es erlauben, verschiedene Schätzer eines gesuchten Parameters miteinander zu vergleichen? Wie aber findet man überhaupt solche Schätzer? Eine allgemein verwendbare Technik zur Konstruktion von Schätzern ist die 1922 von Ronald Aylmer Fisher erfundene Maximum-Likelihood-Methode, wörtlich zu übersetzen am ehesten als „Methode der höchsten Mutmaßlichkeit". Deren Idee besteht darin, unter allen prinzipiell möglichen Zuständen des Untersuchungsszenarios denjenigen Zustand zu suchen, für welchen das konkret beobachtete Stichprobenergebnis die maximale Wahrscheinlichkeit besitzt. Offensichtlich ist ein so gefundener Zustand die beste Erklärung für das beobachtete Stichprobenergebnis, da kein anderer Zustand dieses Ergebnis plausibler erklären könnte. Die formale Beschreibung der Stichprobe umfasst wieder eine endliche Folge von voneinander unabhängigen, identisch verteilten Zufallsgrößen X = X1, ..., Xn, deren gemeinsame Verteilung von einem gegebenenfalls mehrdimensionalen, wertmäßig unbekannten Parameter ? bestimmt wird. Ziel ist es, für den Parameter ? beziehungsweise einen daraus transformierten Wert g(? ) eine gute Schätzfunktion zu konstruieren. Dazu werden, unter der Annahme eines endlichen Stichprobenraumes, die Wahrscheinlichkeiten für Stichprobenergebnisse x auf ihre Abhängigkeit hin vom unbekannten Parameter ? untersucht. Auf diese Weise erhält man die sogenannte Likelihood-Funktion . Diese Likelihood-Funktion Lx(? ) wird dann dazu verwendet, jeweils einen Parameterwert ?max(x) zu suchen, für den diese Funktion maximal wird . Dabei ist es a priori nicht klar, ob ein solches, eindeutig bestimmtes Maximum ?max(x) überhaupt gefunden werden kann. Sollte dies aber für eine konkrete Klasse von Untersuchungsszenarios der Fall sein, so ist es naheliegend, dieses Maximum ?max(x) als Schätzung des gesuchten Parameters ? zu verwenden – bezeichnet als Maximum-Likelihood-Schätzer beziehungsweise ML-Schätzer. Die Idee dieses Vorgehens haben wir bereits angedeutet: Einerseits kann im Vergleich zu ?max(x) kein anderer Parameter ? das konkrete Beobachtungsergebnis x plausibler erklären. Andererseits liegt, selbst wenn ?max(x) nicht der richtige Parameter sein sollte, bei einer stetigen Likelihood-Funktion Lx das Maxi- mum ?max(x) der Likelihood-Funktion einigermaßen zentral innerhalb eines kleinen Bereichs von Schätzwerten, von denen jeder das beobachtete Stichprobenergebnis x einigermaßen plausibel erklären könnte. Damit ist ?max(x) eine gute Näherung für diese Schätzwerte. Die gerade skizzierten Plausibilitätsüberlegungen sind natürlich nicht dazu geeignet, die Qualität einer zum gesuchten Wert g(? ) konstruierten Schätzfunktion t(x) = g(?max(x)) nachzuweisen. Daher muss ein Qualitätsnachweis jeweils für den Fall einer konkret zu untersuchenden Problemklasse auf Basis der schon beschriebenen Qualitätsmerkmale geführt werden. Ein sehr einfaches Beispiel soll uns dazu dienen, den Maximum-Likelihood-Ansatz zu verdeutlichen: Es werden n voneinander unab- hängige Bernoulli-Experimente durchgeführt, deren gemeinsame Erfolgswahrscheinlichkeit p unbekannt ist. Aus der Anzahl der beo- bachteten Treffer X1 + ... + Xn soll nun der unbekannte Parameter ? = p geschätzt werden. Mit den Formeln der Binomialverteilung erhält man zunächst die Likelihood-Funktion Diese Funktion kann nun mit Mitteln der Analysis im Intervall [0, 1] einfach auf Maxima untersucht werden. Zunächst berechnet man dazu die Ableitung: Diese Ableitung besitzt genau eine Nullstelle für p = k/n, wobei der zugehörige Funktionswert Lk(k/n) nicht negativ ist. Da auf den Intervallrändern Lk(0) = Lk(1) = 0 gilt, handelt es sich bei pmax = k/n um das eindeutig bestimmte Maximum der Likelihood-Funktion Lk(p). Der Maximum-Likelihood-Ansatz liefert daher in diesem Fall die bereits intuitiv naheliegende Schätzung, bei welcher die relative Häufigkeit als Schätzwert für die unbekannte Wahrscheinlichkeit verwendet wird. Auch wenn somit für dieses beispielhafte Szenario keine neuen Erkenntnisse erzielt werden, so wird doch deutlich, dass der allgemeine Ansatz der Maximum-Likelihood-Methode imstande ist, qualitativ gute Schätzer zu generieren.

Methode der kleinsten Quadrate

Soll zu einer Messreihe mit den n Versuchsergebnissen (y1, x1), ..., (yn, xn) eine möglichst gut approximierende Gerade y(x) = ax + b gefunden werden, so handelt es sich dabei um ein Problem, das eher der beschreibenden Statistik zuzuordnen ist. Bezüge zur Wahrscheinlichkeitsrechnung oder Mathematischen Statistik liegen zunächst nicht vor. Das ändert sich aber schlagartig, wenn man Annahmen darüber macht, warum die Messergebnisse trotz einer prinzipiell geltenden Gesetzmäßigkeit der Form y(x) = ax + b nicht exakt auf einer Gerade liegen: ? Im ersten denkbaren Szenario werden beide in der Messreihe ge- messenen Merkmale durch weitere, wertmäßig nicht bekannte Merkmale beeinflusst. Durch die subjektive Unkenntnis dieser verborgenen Merkmale scheinen die gemessenen Merkmalswerte zufälligen Schwankungen unterworfen zu sein. Ein Beispiel für diese Situation ist die bereits in Kapitel 2.5 erörterte Abhängigkeit zwischen Körpergröße und -gewicht erwachsener Männer, wobei das Gewicht natürlich nicht nur durch die Körpergröße, sondern auch durch andere Faktoren wie Körperumfang und Gewebeauf- bau beeinflusst wird. ? Ebenso denkbar ist es, dass die zu den exakt bekannten Werten x1, ..., xn gemessenen Werte y1, ..., yn durch einen Fehler des ver- wendeten Messgerätes verfälscht wurden . Das erste Szenario wird durch eine endliche Folge von identisch ver- teilten, voneinander unabhängigen Zufallsvektoren (X, Y) = (X1, Y1), ..., (Xn , Yn) beschrieben. Die Beobachtungsergebnisse sind dann die Realisierungen, das heißt die in n Versuchen „ausgewürfelten" Vek- toren (xi, yi) = (Xi(? ), Yi(? )) für i = 1, ,..., n. Entscheidet man sich – aus welchen anwendungsbedingten Gründen auch immer – dafür, ei- ne Regressionsgerade von Y bezüglich X anzustreben, dann ist deren Bestimmung bei vollständiger Kenntnis der gemeinsamen Verteilung des Zufallsgrößenpaares (X, Y) mit Hilfe der in Kapitel 2.5 dargeleg- ten Methode möglich. Mangels einer genauen Kenntnis dieser ge- meinsamen Verteilung muss man allerdings auf Schätzwerte für die Regressionskoeffizienten zurückgreifen. Ein Teil der dafür notwendi- gen Überlegungen ist im Kasten Schätzer für Kovarianz und Korrela- tionskoeffizient (Seite 231 ff.) dargelegt. Wir wollen nicht näher auf eine Analyse des ersten Szenarios einge- hen, da es das zweite Szenario ermöglicht, die gleichen Resultate deutlich plausibler zu begründen. Dies schließt den im ersten Szena- rio notwendigen Symmetriebruch ein, bei dem man sich für eine der beiden möglichen Regressionsgeraden entscheiden muss. Zur Vorbereitung der Berechnung macht man zunächst noch zusätzli- che, allerdings sehr naheliegende Annahmen über die Fehler des Messgerätes. Konkret geht man davon aus, dass die durch das ver- wendete Messgerät verursachten Messfehler n voneinander unab- hängigen, identisch verteilten Zufallsgrößen mit dem Erwartungswert 0 entsprechen. Die n Messpunkte (x1, Y1(? )), ..., (xn, Yn(? )) erfüllen deshalb Gleichungen der Form , wobei die n Messfehler den voneinander unabhängigen und identisch verteilten Zufallsgrößen F = F1, ..., Fn mit E(F) = 0 und Var(F) = ? entsprechen. Um einen Schätzer für das gesuchte Parameterpaar ? = (a, b) zu fin- den, kann ein bereits von Carl Friedrich Gauß verwendeter Maxi- mum-Likelihood-Ansatz verwendet werden, sofern man zusätzlich noch annimmt, dass die Fehler F1, ..., Fn sogar normalverteilt sind. Eine solche Annahme erscheint insbesondere dann plausibel, wenn man sich von der Vorstellung leiten lässt, dass es sich bei den Fehlern um die Summe mehrerer Einzelfehler handelt. Mit der Annahme, dass die Fehler einer Normalverteilung unterliegen, sind auch die vonein- ander unabhängigen Zufallsgrößen Yi normalverteilt, und zwar mit dem Erwartungswert axi + b und der Standardabweichung ?. Da diese Zufallsgrößen einen kontinuierlichen Wertebereich besitzen, können wir bei einer Maximum-Likelihood-Optimierung aber nicht einfach nach dem Parameterpaar ? = (a, b) suchen, für die das konkret erziel- te Messergebnis (y1, ..., yn) die höchste Wahrscheinlichkeit besitzt. Stattdessen müssen wir die Wahrscheinlichkeit eines kleinen Berei- ches untersuchen, wobei ? > 0 ein genügend kleiner, fest gewählter Wert ist: Aufgrund des negativen Vorzeichens im Exponenten wird diese Wahrscheinlichkeit dann maximal, wenn die Quadratsumme im Ex- ponenten möglichst klein wird. Damit wird gemäß dem Maximum- Likelihood-Prinzip das Messergebnis (y1, ..., yn) = (Y1(? ), ..., Yn(? )) durch diejenigen Parameterwerte a und b am plausibelsten erklärt, für welche die Quadratsumme ihr Minimum annimmt. Die Berechnung dieses Parameterpaares ? = (a, b) kann analog zur Herleitung in Fußnote 21 erfolgen . So findet man schließlich die sogenannten Kleinste-Quadrate- Schätzer , wobei die Querstriche wie üblich für den Mittelwert des entsprechen- den Werte-Tupels stehen. Die beiden Formeln sind vollkommen ana- log zu den in Kapitel 2.5 hergeleiteten Formeln. Der einzige Unter- schied besteht darin, dass die Kenngrößen wie Erwartungswert, Varianz und Kovarianz durch ihre empirischen Pendants ersetzt sind. Wichtig ist es, nochmals an die zum Ende des Kapitels 2.5 gemachten Schlussbemerkungen zu erinnern: Eine gut approximierende Regres- sionsgerade ist noch kein Nachweis einer Kausalität und schon gar der Nachweis für die Richtung einer Kausa- lität. Insbesondere bezieht sich die wörtliche Bedeutung des Wortes Regression, nämlich „Rückgriff", ausschließlich auf quantitative Trends, nicht aber auf kausale Beziehungen. Die Suche nach einer Beziehung der Form y(x) = ax + b wird auch einfache lineare Regressionsanalyse genannt. Sie kann in zweierlei Hinsicht verallgemeinert werden: Die multiple lineare Regression erstreckt sich über alle Beziehungen der Form . Dabei werden solche Konstanten a1, …, an, b gesucht, die eine gute Prognose der – auch Zielgröße genannten – abhängigen Variable y auf Basis der – auch Ausgangsvariablen genannten – unabhängigen Variablen x1, ..., xn erlauben. Weitere Verallgemeinerungen beziehen auch nicht-lineare Funktio- nen ein. Man spricht dann von einer nicht-linearen Regressionsana- lyse. Aufgaben 1. Die Zufallsgröße X entspreche dem Ergebnis eines Bernoulli-Experimentes mit der Erfolgswahrscheinlichkeit ? = p. Die Verteilung der Zufallsgröße ist damit P(X = 1) = p und P(X = 0) = 1 – p. Zeigen Sie, dass es keinen erwartungs- treuen Schätzer für die Standardabweichung gibt. Hinweis: Charakterisieren Sie zunächst den Stichprobenraum, das heißt die mög- lichen Ergebnisse der Versuchsreihe mit ihren Wahrscheinlichkeiten. Zeigen Sie dann, dass der Erwartungswert eines beliebigen Schätzers ein Polynom in p ist. 2. In einer Stadt sind die Taxis durchgehend mit den Nummern 1, 2, …, k num- meriert, wobei wir die Gesamtzahl k nicht kennen. Um die unbekannte Anzahl schätzen zu können, werden unter Aussortierung von Wiederholungen die Num- mern von n Taxis beobachtet. Diese Aufgabe wird als Taxiproblem bezeichnet Bestimmen Sie zur entsprechenden Stichprobe X1, …, Xn zunächst den Maxi- mum-Likelihood-Schätzer. Begründen Sie, warum dieser Schätzer trotzdem wenig realisitisch ist. Zeigen Sie schließlich, dass der Schätzer erwartungstreu ist. Hinweis: Charakterisieren Sie wieder zunächst den Stichprobenraum. Definieren Sie für den zweiten Aufgabenteil eine Abbildung s : X ? X , die jedem mögli- chen Beobachtungsergebnis x = (x1, ..., xn) mit x1 < ... < xn die „Spiegelung" zuordnet. Unterscheiden Sie bei der Berechnung des Erwarungswertes des Schätzers zwei Fälle abhängig von der Gültigkeit der Identität x1 + xn = k + 1.

3.8 Vierfeldertest: Unabhängigkeitstest für verbundene Stichproben

Ein seltenes Krankheitsbild kann durch zwei verschiedene Erreger verur- sacht werden. Um unverzüglich mit der angemessenen Therapie beginnen zu können, wird ein Schnelltest entwickelt, dessen Zuverlässigkeit Fall für Fall in einer aufwändigen Nachuntersuchung verifiziert wird. Dabei er- gibt sich das folgende Stichprobenergebnis:

Ist bereits auf Basis dieser kleinen Stichprobe eine fundierte Aussage über die Zuverlässigkeit des untersuchten Schnelltests möglich? Im einführenden Überblick zur Mathematischen Statistik in Kapitel 3.1 wurde bereits darauf hingewiesen, dass die Ergründung von kausalen Zu- sammenhängen zwischen verschiedenen Merkmalen eine wesentliche Anwendung statistischer Untersuchungsmethoden ist. Im einfachsten Fall besteht die Datenbasis aus einer verbundenen Stichprobe, das heißt kon- kret aus Paaren von Stichprobenwerten (y1, x1), ..., (yn, xn), die sich als Realisierungen einer endlichen Folge von zweidimensionalen, identisch verteilten und voneinander unabhängigen Zufallsvektoren (X, Y) = (X1, Y1), ..., (Xn , Yn) auffassen lassen: (xi, yi) = (Xi(? ), Yi(? )) für i = 1, ..., n. Solche Szenarien waren bereits Gegenstand der Erörterungen in den Kästen Schätzer für Kovarianz und Korrelationskoeffizient (siehe Seite 231 ff.) und Methode der kleinsten Quadrate (siehe Seite 238 ff.). Im Vergleich zu diesen beiden gerade nochmals in Erinnerung gerufenen Situationen besitzen die Merkmale beim Szenario der Eingangsfrage kei- nen quantitativen Charakter . Einfacher gegenüber der allgemeinen Situ- ation ist das aktuelle Szenario dadurch, dass jedes der beiden Merkmale „Schnelltest-Ergebnis" und „tatsächlicher Erreger" nur zwei Ausprä- gungen besitzt. Folglich ist die Zahl der Kombinationen von möglichen Merkmalswerten auf vier reduziert. Deren Häufigkeiten können daher in einer als Vierfeldertabelle bezeichneten 2?2- Tabelle eingetragen werden, die man meist um eine weitere Spalte sowie um eine weitere Zeile ergänzt, in welche die entsprechenden Zeilen- beziehungsweise Spaltensummen eingetragen werden. Auch wenn die vergleichsweise wenigen Stichprobenergebnisse weitge- hend die Richtigkeit des Schnelltest-Ergebnisses zu stützen scheinen, ist deren statistische Relevanz natürlich ad hoc überhaupt nicht einschätzbar. Wir wollen dies in Form eines Hypothesentests nachholen, und zwar in Form des sogenannten Vierfeldertests. Selbstverständlich hätte die Testplanung bei einem methodisch einwand- freien Vorgehen eigentlich vor der Stichprobenerhebung erfolgen müssen. Als Null-Hypothese formulieren wir, dass die Ereignisse, die durch den tatsächlichen Erreger einerseits sowie das Ergebnis des Schnelltests andererseits definiert sind, unabhängig voneinander sind. Um die erhoffte Aussagekraft des Schnelltests wie gewünscht untermauern zu können, sind wir an einer Verwerfung der Null-Hypothese interessiert, die auf einem einseitigen Ablehnungsbereich beruht. Dazu muss das Beobachtungsergebnis für die Merkmalspaare bedingt zum Beobachtungsergebnis für beide Einzel- merkmale so außergewöhnlich sein – und zwar aufgrund eines gleichge- richteten Trends zwischen Schnelltestergebnis und Realität –, dass die Null-Hypothese einer bestehenden Unabhängigkeit nicht aufrecht erhal- ten werden kann. Was heißt das aber konkret? Wir überlegen uns zunächst, welche Häu- figkeiten in Bezug auf die beobachteten Merkmalspaare im Prinzip mög- lich gewesen wären, wenn man das Szenario bedingt zum bereits einge- tretenen Beobachtungsereignis der Einzelmerkmale betrachtet. In der Vierfeldertabelle entspricht das der Suche nach Häufigkeiten im inneren Bereich, wenn die Werte am rechten und unteren Rand vorgegeben sind. Offenkundig gibt es dafür insgesamt fünf mögliche Stichprobener- gebnisse, die wir mit k = 0, …, 4 parametrisieren: Explizit handelt es sich bei diesen fünf Stichprobenergebnissen um die in Tabelle 6 in Kurzform dargestellten Möglichkeiten, wobei das tatsächlich beobachtete Stichprobenergebnis ganz links steht. Damit kann nun auch der gesuchte p-Wert des Hypothesentests charakterisiert werden. Er entspricht der bedingten Wahrscheinlichkeit, mit der das links dargestellte Beobachtungsergebnis auf Basis des schon erfolgten Eintritts irgendeines der fünf Ereignisse erzielt wird. Um diese bedingte Wahr- scheinlichkeit zu berechnen, werden wir die absoluten Wahrscheinlichkeiten beider Ereignisse berechnen und dann den Quo- tienten bilden. Tabelle 6 Mögliche Häufigkeitsverteilungen der Merkmalspaare inner- halb der Stichprobe einschließlich einer Charakterisierung des beobachteten Trends

Wir kommen nun zu den Berechnungen. Bevor wir die Häufigkeitsvertei- lungen bei Stichproben mit dem Umfang n = 10 untersuchen, schauen wir uns Stichproben an, die nur aus einer einzigen Person bestehen. Wir ge- hen also von einer Person aus, die zufällig aus der Gesamtheit von denje- nigen, die das betreffende Krankheitsbild aufweisen, ausgewählt wird. Mit p bezeichnen wir die Wahrscheinlichkeit, dass der Schnelltest bei ei- ner solchen Person auf den Erreger A hinweist. Entsprechend bezeichnen wir mit q die Wahrscheinlichkeit, dass eine solche Person tatsächlich mit dem Erreger A infiziert ist. Aufgrund der Null-Hypothese einer stochas- tischen Unabhängigkeit ergeben sich dann die folgenden Wahrschein- lichkeiten für eine einzelne Person: Darauf aufbauend lassen sich nun die drei entsprechenden Häufigkeits- verteilungen für eine zufällig ausgewählte Stichprobe berechnen. Im Hin- blick auf die Eingangsfrage sind wir allerdings ausschließlich an einer Stichprobe mit dem Umfang n = 10 interessiert. Für die beiden Einzel- merkmale ist die Häufigkeitsverteilung offenkundig jeweils eine Bino- mialverteilung. Die Wahrscheinlichkeit müssen wir sogar nur für das konkrete Beobachtungsergebnis der Einzelmerkmale berechnen, das auf den Tabellenrändern notiert ist: Die Wahrscheinlichkeiten für diese beiden konkret beobachteten Häufig- keitsverteilungen der Einzelmerkmale betragen a priori ? für die reinen Schnelltest-Ergebnisse beziehungsweise ? für die ausschließlich auf die tatsächlichen Erreger be- zogenen Ergebnisse. Als Null-Hypothese hatten wir unterstellt, dass Ereignisse, die durch den tatsächlichen Erreger einerseits sowie das Ergebnis des Schnelltests ande- rerseits definiert sind, unabhängig voneinander sind. Für das „Randvertei- lungs-Ereignis", das die Beobachtungsergebnisse beider Einzelmerkmale umfasst, ergibt sich daher die Wahrscheinlichkeit . Schließlich haben wir noch die Wahrscheinlichkeiten für die möglichen Stichprobenergebnisse zu berechnen, die sich auf die Häufigkeiten bezie- hen, mit der die vier Paare von Merkmalsausprägungen auftreten. Wie schon festgestellt handelt es sich für k = 0, …, 4 um die folgenden Vier- feldertabellen: Um die absoluten Wahrscheinlichkeiten für die fünf Ereignisse zu be- rechnen, wicklen wir das entsprechende Zufallsexperiment gedanklich in zwei Stufen ab. Dabei wird zunächst nur nach dem eigentlichen Erreger unterschieden und dann – getrennt für die beiden Situationen des tatsäch- lichen Erregers A beziehungsweise B – nach dem Ergebnis des Schnell- tests. Abhängig vom Parameterwert k erhält man auf diesem Weg für das Ereignis, das den gerade angeführten Tabellenwerten entspricht, die Wahrscheinlichkeit

Für die zu den Parameterwerten k = 0, ..., 4 gehörenden Ereignisse erhält man somit die folgenden bedingten Wahrscheinlichkeiten, wobei das oben angeführte „Randverteilungs-Ereignis" als bereits eingetreten vor- ausgesetzt wird. Es stellt sich heraus, dass diese bedingten Wahrschein- lichkeiten nicht von den Einzelwahrscheinlichkeiten p und q abhängen. Die Ursache dafür ist, dass es sich eigentlich um eine rein kombinatori- sche Angelegenheit handelt, bei der Versuchspersonen in einem zweistu- figen Auswahlprozess ausgelost werden : Bild 38 Wahrscheinlichkeitsverteilung der möglichen Vierfeldertabel- len bedingt zum Beobachtungsergebnis für beide Einzelmerkmale, wobei die Richtigkeit der Null-Hypothese unterstellt wird. Außen dargestellt sind die extremalen Stichprobenergebnisse: links folgen Schnelltestergebnis und Realität einem über- einstimmenden, rechts einem gegenläufigen Trend. Der auf Basis der Null-Hypothese berechnete einseitige p-Wert des konkret beobachteten Stichprobenergebnisses, das dem Para- meterwert k = 0 entspricht, ist damit gleich 0,0238. Nur mit dieser kleinen Wahrscheinlichkeit ist also das „ausreißende" Beobachtungsergebnis rein zufällig zu erwarten, sofern die beiden Merkmale „Schnelltest-Ergebnis" und „tatsächlicher Erreger" stochastisch unabhängig voneinander sein sollten (siehe Bild 38). Man kann daher die Unabhängigkeit mit einem p- Wert von 0,0238 verwerfen. Das heißt aber keinesfalls, dass damit die Fehlerfreiheit des Schnelltests nachgewiesen wäre – ein einzelnes fehler- haftes Resultat ist ja bereits in der kleinen Stichprobe aufgetreten. Das Stichprobenergebnis ist also mehr als Indiz dafür zu werten, dass es sich lohnt, die stochastischen und kausalen Beziehungen zwischen Schnell- testergebnis und tatsächlichem Befund tiefer gehender zu untersuchen, um dabei etwa die für das Ergebnis des Schnelltests maßgeblichen Kriterien zu optimieren. Beispielsweise ist es denkbar, dass die beiden Erregertypen noch weiter differenziert werden können, wobei der Schnelltest in seiner ursprünglichen Form nur für die jeweils häufigste Unterart das richtige Resultat liefert. Der Chi-Quadrat-Unabhängigkeitstest Die beschriebene Variante des Vierfeldertests wird auch Fishers exakter Test genannt. Diese Benennung resultiert daraus, dass für solche Aufgabenstellungen meist der ? 2- Unabhängigkeitstest verwendet wird, der leichter anzuwenden ist, dafür aber nur bei genügend hohen Häufigkeiten gute Approxi- mationen liefert. Insofern ist der ? 2-Unabhängigkeitstest auf kleine Stichproben keinesfalls anwendbar. Dafür ist er aber auch anwendbar, wenn die beiden verbundenen Merkmale mehr als nur jeweils zwei Merkmalswerte annehmen können. Ebenso anwendbar, allerdings mit deutlich mehr Aufwand, ist eine entsprechende Verallgemeinerung von Fishers exaktem Test. Wir gehen von einer verbundenen Stichprobe aus. Dabei bezeichnen wir die Anzahl der möglichen Werte bei den beiden Merkmalen mit r beziehungsweise s. Wie beim Vierfeldertest, der dem Fall r = s = 2 entspricht, notiert man die Häufigkeiten Nij für die Merkmalspaare in einer sogenannten r?s-Kontingenztabelle. Am rechten und unteren Rand ergänzt werden die Häufigkeiten für die beiden Einzelmerkmale. In der Tabelle entsprechen diese Häufig- keiten den Zeilen- und Spaltensummen:

Würde man die Wahrscheinlichkeiten p1, ..., pr und q1, ..., qs der Ein- zelmerkmale kennen, die den Zeilen beziehungsweise Spalten ent- sprechen, könnte man die stochastische Unabhängigkeit der beiden Merkmale mit Hilfe der Testgröße des ? 2-Anpassungstests prüfen:

Da aber die Wahrscheinlichkeiten p1, ..., pr und q1, ..., qs der Einzel- merkmale unbekannt sind, liegt es nahe, die Testgröße dahingehend zu modifizieren, dass man diese Wahrscheinlichkeiten durch die Schätzwerte Z1/n, ..., Zr/n und S1/n, ..., Ss/n ersetzt:

Anders als die originale ? 2-Testgröße des Anpassungstests, deren Verteilung gegen eine ? 2-Verteilung mit rs – 1 Freiheitsgraden kon- vergiert, konvergiert die Verteilung der zweiten Zufallsgröße gegen eine ? 2-Verteilung mit (r – 1)(s – 1) Freiheitsgraden. Die unter Verwendung der relativen Zeilen- und Spaltenhäufigkeiten Z1/n, ..., Zr/n und S1/n, ..., Ss/n definierte ? 2-Testgröße geht auf eine Idee von Karl Pearson aus dem Jahr 1904 zurück. Aber erst Anfang der 1920er-Jahre konnte Fisher die richtige Verwendung dieser ? 2-Testgröße klären, indem er den Wert ihrer wesentlichen Kenngröße bestimmte – zwischenzeitlich als Zahl der Freiheitsgrade bezeichnet. Dass diese Zahl gleich (r – 1)(s – 1) ist, und nicht etwa gleich rs – 1 ist wie beim ? 2- Anpassungstest, rührt daher, dass die absoluten Häufigkeiten nicht nur eine einzige Nebenbedingung wie beim Anpassungstest erfüllen. Vielmehr kann Pearsons ? 2-Testgröße als Maß der Abweichung der rs Kombinationshäufigkeiten von einem idealen Unabhängigkeits- Szenario verstanden werden, bei dem die Zeilen- und Spaltenhäufigkeiten vorgegeben sind. Von den so r + s erkennbaren Nebenbedingungen ergibt sich allerdings die „letzte" als Linearkom- bination der anderen, so dass die insgesamt rs Kombinations- häufigkeiten nur durch r + s – 1 Nebenbedingungen eingeschränkt werden. Damit sinkt die Zahl der Freiheitsgrade auf rs – (r + s – 1) = (r – 1)(s – 1). Will man sich mit dieser sehr vagen Plausibilität nicht zufrieden ge- ben, so kann man wie schon beim ? 2-Anpassungstest eine rekursive Approximation der Testverteilung herleiten. Rekursionsgrundlage sind die beiden Fälle s = 1 und r = 1, in denen die ? 2-Testgröße beide Male konstant gleich 0 ist. Grundlage des Rekursionsschrittes ist wie beim ? 2-Anpassungstest wieder die Formel Diese Formel erlaubt es, die Differenz zu berechnen, die bei einer ? 2- Testgröße beim Zusammenfassen der Häufigkeiten von zwei Zeilen (beziehungsweise zwei Spalten) entsteht. So erhält man bei der Spalte für Spalte vorgenommenen Zusammenlegung der Ereignisse der ers- ten beiden Zeilen die Differenz Fast die gleiche Differenz erhält man, wenn man entsprechend mit der aus den beiden ersten Zeilen gebildeten 2?s-Kontingenztabelle verfährt. Gegenüber der letzten Formel anzupassen sind nämlich le- diglich die relativen Spaltenhäufigkeiten: Da die den Unterschied ausmachenden Brüche (N1j + N2j)/(Z1 + Z2) und Sj/n nach dem Gesetz der großen Zahlen jeweils stochastisch ge- gen qj konvergieren, erhält man eine Zerlegung mit zwei voneinander unabhängigen ? 2-Testgrößen und einer sto- chastisch gegen 0 konvergierenden „Störung" Dn. Zerlegt man beide ? 2-Summanden entsprechend weiter, erhält man schließlich (r – 1)(s – 1) voneinander unabhängige ? 2-Testgrößen zu 2×2-Kontingenztabellen, deren Summe asymptotisch dieselbe Vertei- lung besitzt wie die ? 2-Testgröße der ursprünglichen r?s-Kontingen- ztabelle. Es bleibt daher nur noch die Verteilung der ? 2-Testgröße einer 2×2- Kontingenztabelle zu untersuchen. Der „Fahrplan" dazu ist den Auf- gaben 2 und 3 zu entnehmen. Aufgaben 1. Berechnen Sie für die allgemeine Vierfeldertabelle auf Basis der Unabhängigkeits-Hypothese die zu den Häufigkeiten der Einzel- merkmale bedingte Wahrscheinlichkeit 2. Beweisen Sie, dass die ? 2-Testgröße zu einer Vierfeldertabelle durch berechnet werden kann. 3. Beweisen Sie, dass die Verteilung der in Aufgabe 2 berechneten ? 2-Testgröße auf Basis der Unabhängigkeits-Hypothese für große Gesamthäufigkeiten n gegen die Standardnormalverteilung konvergiert. Hinweis: Stellen Sie zunächst in der in Aufgabe 2 hergeleiteten Formel die vier Zufallsgrößen A, B, C und D unter Verwendung der Einzelwahrscheinlichkeiten in der Form dar. Zeigen Sie dann, dass Produkte wie gegenüber anderen Summanden von AD – BC größenmäßig vernachlässigt wer- den können, während die vier Faktoren im Nenner sogar durch ihre Erwartungs- werte approximiert werden können. Auf diese Weise ergibt sich dann die Zu- fallsgröße AD – BC als Summe von n identisch verteilten und voneinander unab- hängigen Zufallsgrößen mit Erwartungswert 0 und Varianz n2pq(1 – p)(1 – q).

3.9 Universelle Tests ohne Parameter

Bei den Mitgliedern zweier Stichproben, die fünf Männer beziehungswei- se sechs Frauen umfassen, werden die Körpergrößen ermittelt. Unter welchen Umständen wird es möglich sein, und wenn ja mit welcher Ar- gumentation, ausgehend von diesen wenigen Daten auf eine signifikant höhere Körpergröße von Männern zu schließen? Die zu den Stichproben ermittelten Messergebnisse wurden bewusst noch nicht angeführt, da eine seriöse Versuchsplanung ja eigentlich vor der Stichprobenuntersuchung stattfinden sollte – aufgrund der Bedeutung dieser Tatsache wird auch vor einer nochmaligen Wiederholung nicht zu- rückgeschreckt. Bei der gestellten Aufgabe handelt es sich im Sinne der in Kapitel 3.1 eingeführten Terminologie um ein Zweistichprobenproblem. Gesucht ist ein statistischer Nachweis dafür, dass die Wahrscheinlichkeitsverteilungen von zwei Zufallsgrößen verschieden sind. Dabei soll sich die Verschiedenheit gemäß der Fragestellung dadurch auszeichnen, dass eine bestimmte der beiden Zufallsgrößen signifikant größere Werte aufweist als die andere. Anders als vielleicht das banale Beispiel vermuten lässt, besitzen solche Tests eine große Be- deutung, etwa wenn es darum geht, die Erfolgswirksamkeit eines Verfahrens, einer Therapie oder eines Medikaments zu untersuchen. In Bezug auf das anzuwendende Modell spricht zwar einiges dafür, dass Körpergrößen von Männern einerseits und von Frauen andererseits nor- malverteilt sind. Wir wollen aber bewusst davon absehen, diese Annahme bei der Konstruktion des Tests zu verwenden . Ziel unserer Überle- gungen soll nämlich ein sogenannter nicht-parametrischer Test sein, der ohne jede A-Priori- Annahme darüber auskommt, welchem Typ von Verteilung die Merk- malswerte unterliegen. Solche, auch verteilungsfrei oder parameterfrei genannten nicht-parametrischen Tests sind offensichtlich viel universeller verwendbar als die an stärkere Vor- aussetzungen gebundenen parametrischen Tests. Außerdem werden wir sehen, dass ein solcher nicht-parametrischer Test ohne großes mathe- matisches Vorwissen nachvollziehbar ist. Wie schon Arbuthnots Test, bei dem es sich aufgrund der nicht notwendigen Verteilungsannahme eben- falls um einen nicht-parametrischen Test handelte, kann nämlich die Null-Hypothese rein auf Basis kombinatorischer Überlegungen geprüft werden.

Um die Testidee möglichst einfach erläutern zu können, starten wir mit der Null-Hypothese, dass beide Geschlechter übereinstimmende Körper- größen-Verteilungen aufweisen. Allerdings ist die dazugehörige Alterna- tiv-Hypothese nicht die eigentlich angestrebte Aussage, da auch zwei Stichproben mit signifikant größeren Frauen zu einer Ablehnung der Null-Hypothese führen würden. Die Testidee ist wie bei Arbuthnot simpel und durchsichtig zugleich: Sollten beide Größenverteilungen identisch sein, dann besitzen unter den 30 = 6·5 paarweise gebildeten Größendifferenzen die beiden Vorzeichen Plus und Minus die gleichen Wahrscheinlichkeiten. Für den Fall einer Größengleichheit zwischen einem Mann und einer Frau wollen wir an- nehmen, dass wir notfalls die Längenmessung so lange präzisieren, bis keine Gleichheit mehr vorkommt. Natürlich können wir bei einer Gleich- heit auch zwischen den beiden Vorzeichen Plus und Minus losen. Auf je- den Fall beträgt nach einem solchen „Tie-Break" die Wahrscheinlichkeit ½, dass eine der gebildeten Größendifferenzen ein bestimmtes Vorzei- chen aufweist. Anders als bei Arbuthnot, der die Häufigkeitsverteilung der Vorzeichen bei einer verbundenen Stichprobe untersuchte, unterliegen die hier zu un- tersuchenden 30 = 6·5 Vorzeichen aber nicht der Binomialverteilung. Grund ist, dass die 30 Ereignisse nicht stochastisch unabhängig vonein- ander sind . Trotzdem ist es nicht besonders schwer, die Wahrschein- lichkeitsverteilung der Vorzeichen auf Basis der Null-Hypothese zu be- rechnen. Man sortiert dazu die elf Stichprobenmitglieder der Größe nach und notiert dann die möglichen Reihenfolgen der zugehörigen Geschlech- ter. Der Übersichtlichkeit halber wählen wir die Notation „M" für männ- lich und „w" für weiblich: 30? Plus: MMMMMwwwwww; 29? Plus: MMMMwMwwwww; 28? Plus: MMMMwwMwwww, MMMwMMwwwww; 27? Plus: MMwMMMwwwww, MMMwMwMwwww, MMMMwwwMwww; ... 2? Plus: wwwwwMwwMMMM, wwwwwwMMwMMM; 1? Plus: wwwwwMwMMMM; 0? Plus: wwwwwwMMMMM; Da wir die weiteren kombinatorischen Resultate nicht benötigen, verzichten wir auf eine entsprechende Auflistung. Trotzdem bleibt anzumerken, dass es eine einfachere Alternative gibt zur expliziten Auflistung von M- w-Sequenzen. Dazu überlegt man sich zum Beispiel für den mit „27? Plus" gekennzeichneten Fall, wie sich die 27 Paare untergliedern, in denen der Mann größer ist als die Frau: Wie viele Männer überragen alle sechs Frauen? Wie viele Männer überragen genau fünf Frauen? Und so weiter. So erkennt man, dass die Sequenz MMMwMwMwwww der auch Partition genannten Summerzerlegung 6 + 6 + 6 + 5 + 4 = 27 entspricht, weil jeder der drei größten Männer alle 6 Frauen, ein Mann 5 Frauen und der kleinste Mann immerhin noch 4 Frauen überragt. Analog wird die Sequenz MMMMwwwMwww durch die Partition 6 + 6 + 6 + 6 + 3 = 27 reprä- sentiert. Allgemein zu berücksichtigen sind alle Partitionen aus fünf – entsprechend der Anzahl von Männern – Summanden mit absteigenden Werten zwischen 0 und 6 – Letzteres entsprechend der Anzahl der Frauen. Übrigens verhalten sich die Kombinationsanzahlen symmetrisch, was sich erklärt, wenn man die Sequenzen in der Mitte spiegelt. So entsteht beispielsweise aus der zu „9? Plus" führenden Sequenz wMwwwMMwwMM durch Spiegelung die zu „21? Plus" führende Sequenz MMwwMMwwwMw. Jede einzelne M-w-Sequenz beziehungsweise Partition entspricht 6!·5! Kombinationen, wobei der erste Faktor die Permutationen der sechs Frauen widerspiegelt und der zweite Faktor die Permutationen der fünf Männer. Mit diesen Permutationen wird also geregelt, welches „M" für welchen Mann und welches „w" für welche Frau steht. Insgesamt lassen die elf Stichprobenmitglieder 11! Permutationen zu. Davon führen zum Beispiel 2·6!·5! Permutationen zu 28 positiven Differenzen. Auf Basis der Null-Hypothese ist damit die Wahrscheinlichkeit für das Ereignis, dass genau 28 Differenzen positiv sind, gleich .

Unter Annahme der Null-Hypothese einer identischen Größenverteilung von Männern einerseits und Frauen andererseits erhält man entsprechend durch eine Abgrenzung extremaler „Ausreißer"-Ergebnisse von Stichproben. Das heißt, bei einer Stichprobe mit einem solch extremalen Ergebnis wird die ursprünglich zugrunde gelegte Null-Hypothese identischer Größenverteilungen verworfen, sofern als Signifikanzniveau ein Wert von 2% oder mehr festgelegt worden war. Allerdings ist eine solche Testplanung mit einem zweiseitigen Ablehnungsbereich nicht das, was wir eigentlich angestrebt haben. Wie schon erwähnt würde nämlich auch eine Stichprobe mit lauter großen Frauen dazu führen, dass die Null-Hypothese verworfen würde. Hinsichtlich der Schlussfolgerung auf unterschiedliche Körpergrößen wäre dies ja sogar noch korrekt, nicht aber im Hinblick auf den statistischen Beleg dafür, dass Männer signifikant größer sind als Frauen. Insofern sollte man den Ablehnungsbereich nur einseitig anlegen: Betragen die Messergebnisse der Männer in Zentimetern konkret 172, 178, 180, 183 und 185 sowie 166, 169, 170, 171, 173 und 174 für die Frauen, dann führt dies unter den 30 möglichen Differenzen, bei denen von der Körpergröße eines Mannes die einer Frau subtrahiert wird, zu 28 positiven Werten. Mit der so möglichen Ablehnung der Null-Hypothese wird die Alternativhypothese, dass Männer durchschnittlich größer sind, mit einem Signifikanzniveau von 1% bestätigt. In allgemeiner Form lässt sich das gerade am Beispiel demonstrierte Vorgehen folgendermaßen beschreiben: Gegeben sind zwei Stichproben in Form von zwei Folgen von voneinander unabhängigen Zufallsgrößen X = X1, ..., Xm und Y = Y1, ..., Yn, für die in einer Versuchsreihe abhängig von deren Verlauf ? die Ergebnisse X1(? ), ..., Xm(? ), Y1(? ), ..., Yn(? ) realisiert, also „ausgewürfelt", werden. Außerdem wird angenommen, dass die Folgenglieder X1, ..., Xm einerseits und Y1, ..., Yn andererseits untereinander identisch verteilt sind. Geprüft werden soll die Null-Hypothese, dass die beiden Verteilungen der Zufallsgrößen X und Y gleich sind. Dabei sind wir an einer Verwerfung der Null-Hypothese interessiert, die darauf beruht, dass die Zufallsgröße X „im Durchschnitt" größer ist als die Zufallsgröße Y. Als Testgröße verwendet wird die allgemein mit U bezeichnete Zufallsgröße , welche, völlig analog zum Beispiel, die Zahl der Indexpaare (i, j) mit positiven Differenzen Xi – Yj zählt. Ein besonderes Augenmerk muss auf Werte gelegt werden, die übereinstimmend in beiden Stichproben vorkommen. Solche Werte werden Bindungen genannt. Um zu erreichen, dass die zugehörigen Indexpaare (i, j) mit Xi = Yj für die Verteilung der Testgröße U keine Rolle spielen, nehmen wir an, dass die Wahrscheinlichkeit für ein solches Zusammenfallen gleich 0 ist . Auf Basis dieser Annahme kann die Verteilung der Testgröße U für beliebige Stichprobengrößen m und n rein kombinatorisch berechnet werden – so wir es für den Fall m = 5 und n = 6 im Wesentlichen getan haben. Möglich ist natürlich auch eine näherungsweise Bestimmung mittels einer Monte-Carlo-Simulation. Ihrer prinzipiellen Natur entsprechend sollten nicht-parametrische Tests eigentlich ganz ohne oder zumindest mit möglichst wenig A-Priori-Annahmen auskommen. Im Hinblick darauf kann auf die Annahme über die Wahrscheinlichkeit vorkommender Bindungen sogar verzichtet werden, wenn bei der praktischen Durchführung eines Tests bei einer vorkom- menden Bindung einfach eine „Tie-Break"-Auslosung durchgeführt wird . Unter diesen Umständen ist die beidseitige Testversion, die nach signifikanten Unterschieden zwischen beiden Verteilungen fahndet, ohne jegliche A-Priori-Annahme über die Verteilung möglich. Der beschriebene Hypothesen-Test wurde erstmals 1947 durch die beiden Mathematiker Henry Berthold Mann (1905-2000) und Donald Ransom Whitney (1915–2001) vorgeschlagen. Er wird deshalb als Mann-Whitney- Test oder auch als Mann-Whitney-U- Test bezeichnet. Er ist äquivalent zu dem bereits 1945 durch Frank Wilcoxon (1892– 1965) vorgestellten Wilcoxon-Vorzeichen-Rang-Test, wobei Wilcoxon allerdings nur den Fall von zwei gleich großen Stichproben, das heißt n = m, betrachtete. Es bleibt allerdings anzumerken, dass der deutsche Pädagoge Gustav Deuchler XE „Deuchler, Gustav" (1883-1955) bereits 1914 im Rahmen einer Veröffentlichung zur empirischen Psychologie eine äquivalente Testgröße beschrieben hat . In Bezug auf ihre inhaltliche Ausrichtung zählen beide Tests zu den so- genannten Homogenitätstests, die allgemein die Gleichheit von zwei Verteilungen zum Gegenstand haben. Der einseitige Mann-Whitney-Test Etwas schwieriger gestaltet sich die Formulierung einer Grundannahme, wenn eine einseitige Ablehnung der Null-Hypothese ange- strebt wird. Ziel ist es dabei, einen statistischen Nachweis für die Alternativhypothese zu erhalten, gemäß der die Zufallsgröße X „im Durchschnitt größer" ist als die Zufallsgröße Y. Einseitig ist zunächst der Ablehnungsbereich, welcher die Form T1(c) = {t | t ? c} aufweist. Einseitig ist aber auch die beabsichtigte Schlussfolgerung. Stochastisch verworfen werden soll nämlich nicht nur der Fall, dass die beiden Zufallsgrößen X und Y identisch verteilt sind. Ausgeschlossen werden soll auch die Möglichkeit „X < Y", was immer das im konkreten Detail auch heißen mag. Allerdings ist eine entsprechende Definition dafür, dass eine Zufallsgröße "im Durchschnitt größer" ist als eine andere Zufallsgröße, keineswegs so einfach ist, wie es vielleicht intuitiv erscheinen mag. So haben wir zum Beispiel in Aufgabe 5 von Kapitel 2.4 gesehen, dass man drei symmetrische Würfel so beschriften kann, dass keiner von ihnen der beste ist. Konkret gibt es zu jedem der drei Würfel jeweils einen anderen, der aussichtsreichere Chancen bietet, weil er mit einer Wahrscheinlichkeit von 21/36 ein höheres Würfelergebnis liefert. Dies zeigt insbesondere, dass zwei Zufallsgrößen anders als zwei reelle Zahlen nicht unbedingt größenmäßig vergleichbar sein müssen. Die angestrebte einseitige Schlussfolgerung des Mann-Whitney-Tests ist allerdings dann möglich, wenn bereits a priori gesichert ist, dass solche Fälle einer Nicht-Vergleichbarkeit nicht vorliegen können. Bei Würfeln kann man sich zum Beispiel vorstellen, dass ausgehend von einer bestimmten Kennzeichnung neue Würfel kreiert werden, indem die Werte einzelner Seitenflächen erhöht werden. Aus einem Stan- dardwürfel entsteht dann beispielsweise der mit 1-2-4-4-5-8 gekenn- zeichnete Würfel. Zwar kann man auch mit diesem Würfel Pech ha- ben und mit einer Eins gegen eine mit einem Standardwürfel erzielte Fünf unterliegen. Trotzdem ist aber klar, dass der Standardwürfel schlechter ist. Und er wird noch schlechter, wenn beim Würfel 1-2-4- 4-5-8 nochmals einzelne Werte erhöht werden. Damit zwei Zufallsgrößen X und Y in einer analogen Relation zueinanderstehen, müssen sie die folgenden Eigenschaften erfüllen: Die Zufallsgröße X muss die Form X = X ' + D aufweisen, wobei die Zufallsgrößen X ' und Y die gleiche Verteilung besitzen und D eine Zu- fallsgröße ist, die keine negativen Werte annimmt. Man spricht in solchen Fällen von einer stochastischen Dominanz. Konkret nennt man die Zufallsgröße X stochastisch dominant gegenüber der Zufallsgröße Y, was sich auch anhand der Verteilungen der beiden Zufallsgrößen erkennen lässt. Dazu muss die Ungleichung P(X > t) ? P(Y > t) für alle reellen Zahlen t gültig sein .

Zwischen zwei Zufallsgrößen muss keineswegs immer eine stochastische Dominanz bestehen. Beispiele ergeben sich mit Hilfe der bereits erwähnten, mit den Zahlen 5-7-8-9-10-18, 2-3-4-15-16-17 beziehungsweise 1-6-11-12-13-14 markierten Würfeln. Allerdings kann in vielen Fällen der praktischen Anwendung von einer stochastischen Dominanz ausgegangen werden, beispielweise, wenn die betreffenden Zufallsgrößen normalverteilt sind und eine übereinstimmende Standardabweichung aufweisen. Allerdings dienen nicht-parametrische Tests ja eigentlich dem Zweck, solche weitgehenden An- nahmen zu vermeiden, und in der Tat kommt es ja für die stochastische Dominanz gar nicht darauf an, dass es sich um Normalverteilungen handelt. Auch beliebige andere Verteilungen, die durch eine Verschiebung um einen konstanten Wert auseinander hervorgehen, erfüllen die Voraussetzungen ebenfalls. Immer dann, wenn a priori eine stochastische Dominanz zwischen den beiden zu vergleichenden Zufallsgrößen X und Y gesichert ist, kann der Mann-Whitney-Test einseitig angewandt werden. Dazu haben wir uns davon zu überzeugen, dass die Testgröße in der gewünschten Weise auf stochastisch dominierte Zufallsgrößen reagiert: Wir gehen zunächst von einem Paar zu vergleichender Zufallsgrößen X und Y aus. Als Null-Hypothese nehmen wir vorübergehend die Gleichheit der beiden Verteilungen an. Auf deren Basis kreieren wir zum Signifikanzniveau ? einen einseitigen Ablehnungsbereich der Form T1(c) = {t | t ? c}. Dieser Ablehnungsbereich hat dann die gewünschte Eigenschaft, dass er auch bei der einseitigen Null-Hypothese, gemäß der die Zufallsgröße Y die Zufallsgröße X stochastisch dominiert, das Signifikanzniveau ? einhält. Ist nämlich D eine Zufallsgröße mit lauter nicht-negativen Werten, so erhöht sich kein realisierter Wert U(? ) beim Übergang von einem zu vergleichenden Paar von Zufallsgrößen (X, Y) zum Paar (X, Y + D). Da ein Wert U(? ) bereits bei identisch verteilten Zufallsgrößen X und Y höchstens mit der Wahrscheinlichkeit ? im einseitigen Ablehnungsbereich T1(c) = {t | t ? c} liegt, gilt das erst recht für das Paar (X, Y + D). Schließlich kann bei einer Verwerfung der einseitigen Null-Hypothese auf eine stochastische Dominanz von X gegenüber Y geschlossen werden, weil die Tatsache einer stochastischen Dominanz, in welcher Richtung auch immer, vorausgesetzt wurde. Wilcoxons Version des Tests basiert auf einer Prüfgröße, die mittels sogenannter Ränge definiert wird. Dabei werden Beobach- tungswerte zunächst nach ihrer Größe geordnet und dann von klein nach groß gemäß ihrer Position, eben dem Rang, durchnummeriert. So erhält man für jede der m + n Zufallsgrößen X = X1, ..., Xm, Y = Y1, ..., Yn eine Rangzahl, die zwischen 1 und m + n liegt: R(X1), ..., R(Xm), R(Y1), ..., R(Yn). Auf deren Basis definierte Wilcoxon seine Prüfgröße in Form einer Rangsumme durch . Da man für Wilcoxons Prüfgröße W die Gleichung nachweisen kann , sind die Tests von Wilcoxon und Mann-Whitney äquivalent. Allerdings ist Wilcoxons Ansatz insofern bemerkenswert, als dass er auf einer universell anwendbaren Verfahrensweise beruht, bei der die Berechnung einer Stichprobenfunktion ausschließlich auf Basis der Ränge erfolgt. Sinnvoll ist dies insbesondere dann, wenn der Verteilungstyp der Merkmalswerte nicht bekannt ist. Selbst dann lässt sich für eine geeignet auf Basis von Rängen definierte Stichprobenfunktion die Verteilung rein kombinatorisch berechnen, so dass realisierte Werte der Stichprobenfunktion stochastisch bewertbar werden. Formal entspricht die Rangbildung einer Serie von Stichprobenfunktionen: Dabei werden aus- gehend einer von die Stichprobe beschreibenden, endlichen Folge identisch verteilter und voneinander unabhängiger Zufallsgrößen X = X1, ..., Xn die aufsteigend nummerierten Ränge R(X1), ..., R(Xn) gebildet . Ohne Bindungen, das heißt ohne Übereinstimmungen bei den Beobachtungsergebnissen X1(? ), ..., Xn(? ) , besitzen diese n Zufallsgrößen die ganzzahligen Werte 1, 2, ..., n. Im Fall von Bindungen weist man übereinstimmenden Beobachtungsergebnissen den Mittelwert von denjenigen Rängen zu, die sich für die betreffenden Werte ergeben würden, wenn diese in unterschiedlicher Weise minimal vom eigentlichen Wert abweichen würden. Insbesondere ist damit die Summe aller n Ränge auf jeden Fall gleich 1 + 2 + ... + n = n(n + 1)/2. Beispielsweise führen die sieben Beobachtungsergebnisse 2, ½4, ½7, ½4, ½8, ½4, ½8. zu den Rängen 1, ½3, ½5, ½3, 6½, ½3, 6½. Ein Beispiel für eine auf Basis von Rängen definierte Stichproben- funktion ist der Spearman'sche Rangkorrelationskoeffizient. Der ein- fachste nicht-parametrische Test ist der Vorzeichentest. Beide Ansätze werden in den nachfolgenden Kästen beschrieben. Der Spearman'sche Rangkorrelationskoeffizient Bei dem nach dem britischen Psychologen Charles Spearman (1863- 1945) benannten Spearman'schen Rangkorrelationskoeffizienten handelt es sich um eine Modifikation des empirischen Korrelationskoeffizienten (siehe Kasten Schätzer für Kovarianz und Korrelationskoeffizient, Seite 231 ff.). Wie der empirische Korrelationskoeffizient dient auch der Spearman'schen Rangkorrelationskoeffizient dazu, die quantitati- ve Beziehung von zwei Zufallsgrößen X und Y, die auf Basis desselben Zufallsexperimentes definiert sind, empirisch zu messen. Unterschiede gibt es allerdings bei den Arten der Beziehung, die ge- messen werden: Der normale Korrelationskoeffizient ist ein Maß da- für, wie genau diese quantitative Beziehung durch eine Geradenglei- chung beschrieben werden kann. Dagegen misst der Spearman'sche Rangkorrelationskoeffizient jede Form einer monotonen Größenbe- ziehung. Dabei wird das Maximum +1 erreicht, wenn eine Erhöhung des ersten Wertes immer mit einer Erhöhung des zweiten Wertes ver- bunden ist. Das Minimum –1 wird erreicht, wenn eine Erhöhung des ersten Wertes stets mit einer Verringerung des zweiten Wertes ver- bunden ist. Insbesondere haben damit monotone Umskalierungen, auch nicht-lineare wie zum Beispiel logarithmische, keine Auswir- kungen auf das Messergebnis. Formal wird der Spearman'sche Rangkorrelationskoeffizient für eine verbundene Stichprobe definiert, das heißt für eine endliche Folge von zweidimensionalen, identisch verteilten und voneinander unab- hängigen Zufallsvektoren (X, Y) = (X1, Y1), ..., (Xn , Yn), wobei die zu- gehörigen Beobachtungsergebnisse (X1(? ), Y1(? )), ..., (Xn(? ), Yn(? )) die empirisch ermittelte Datenbasis der durchzuführenden Untersu- chung bilden. Davon werden einzeln für die beiden Koordinaten zu- nächst die Ränge gebildet, was den beiden Folgen von Stichproben- funktionen R(X1), ..., R(Xn) und R(Y1), ..., R(Yn) entspricht. Schließlich wird daraus der empirische Korrelationskoeffizient berechnet: Der so berechnete Wert ist der Spearman'sche Rangkorrelationskoef- fizient, der in Anlehnung an die übliche Bezeichnung mit dem grie- chischen Buchstaben Rho auch als Spearmans Rho bezeichnet wird. In Bezug auf die Berechnungsformel anzu- merken bleibt, dass es sich bei den Werten (n + 1)/2 um die empiri- schen Mittelwerte der beiden Rang-Zufallsgrößen handelt. Wie bei Arbuthnot: Der Vorzeichentest Es wurde schon darauf hingewiesen, dass Arbuthnots in Teil 1 beschriebener Test ein Beispiel für einen parameterfreien Test ist. Natürlich lässt sich die Grundidee seines Tests verallgemeinern. Wir gehen zunächst wieder von einer Stichprobe aus, das heißt von einer endlichen Folge identisch verteilter und voneinander unab- hängiger Zufallsgrößen X = X1, ..., Xn . Geprüft werden soll die Null- Hypothese, gemäß welcher der Median den Wert ? besitzt. Damit ist, sofern man die Richtigkeit der Null-Hypothese unterstellt, . Im Fall einer stetig verteilten Zufallsgröße X gilt wegen P(X = ?) = 0 sogar . Dadurch wird die Null-Hypothese über den Wert des Medians mittels eines Verwerfungsbereichs prüfbar, der auf Basis der Binomialverteilung zur Wahrscheinlichkeit p = ½ abgrenzt wird. Bei großem Stichprobenumfang n kann natürlich mit der Normalver- teilung approximiert werden. Der Test wird auch Vorzeichentest oder einfach Zeichentest genannt. Eine spezielle Anwendung besitzt der Vorzeichentest im Fall einer verbundenen Stichprobe. Dabei finden in der Praxis meist „Vorher- Nachher"- sowie „Mit-Ohne"-Vergleiche statt, mit denen beispiels- weise der Erfolg von Therapien bewertet wird. Formal wird eine sol- che Situation wieder durch eine endliche Folge von zweidimen- sionalen, identisch verteilten und voneinander unabhängigen Zufalls- vektoren (X, Y) = (X1, Y1), ..., (Xn , Yn) beschrieben. Für die Differenz X – Y wird nun die Null-Hypothese geprüft, dass der Median dieser Differenz kleiner oder gleich 0 ist. Kann die Hypo- these aufgrund eines aus der Binomialverteilung hergeleiteten Ver- werfungsbereiches abgelehnt werden, ist dies ein statistischer Beleg dafür, dass die Zufallsgröße X meist größer ist als die Zufallsgröße Y. Eine Aussage über die Verteilungen ist damit aber nicht verbun- den . Aufgaben 1. Welche Werte kann der Spearman'sche Rangkorrelationskoeffizient im Fall einer aus drei Wertepaaren (x1, y1), (x2, y2), (x3, y3) bestehenden Stichprobe ohne Bindung annehmen. 2. Gegeben sei eine Folge von voneinander unabhängigen Zufallsgrößen X1, ..., Xn, deren Verteilungsfunktion stetig ist. Beweisen Sie Hinweis: Zeigen Sie zunächst für zwei beliebige Ereignisse A und B. Begründen und verwenden Sie anschlie- ßend Identitäten wie beispielsweise 3. Beweisen Sie für die Testgröße U des Mann-Whitney-Tests, dass im Fall glei- cher Verteilungen bei den zwei Folgen von voneinander unabhängigen Zufalls- größen X1, ..., Xm sowie Y1, ..., Yn die folgenden Formeln für Erwartungswert und Varianz gelten: Hinweis: Gehen Sie bei der zweiten Identität von der Darstellung aus. Anmerkung: Tatsächlich kann die Verteilungsfunktion der Mann-Whitney- Testgröße für große Werte m und n durch die Normalverteilung zu dem Er- wartungswert und der Varianz, wie sie gerade berechnet wurden, approximiert werden. Der Beweis ist allerdings nicht einfach: Man geht, was ohne Einschränkung der Allgemeinheit möglich ist, von im Intervall gleichverteilten Zufallsgrößen aus und verwendet die Differenzen Xi – Yj als Basis einer Approxi- mation.

3.10 Resümee und Ausblick

Was bleibt zu tun? Welche Schritte sollten dem Einstieg in die Mathema- tische Statistik folgen? Mit dem Vorzeichentest hat sich der thematische Kreis geschlossen: ? Begonnen haben wir mit Arbuthnots Test und einer Analyse der sich daran anschließenden Argumentationskette. Dabei erkannten wir die Notwendigkeit, die Wirkung einer zufälligen Stichprobenauswahl auf das dadurch bedingte Ergebnis quantitativ bewerten zu können. ? Wie zufällige Experimente, bei denen es sich als Spezialfall um eine zufällige Auswahl einer Stichprobe handeln kann, mathematisch mo- delliert werden, wurde im zweiten Teil erörtert. Wir haben dabei – auf unterschiedlich hohen Abstraktionsstufen beschreibbare – mathema- tische Objekte kennengelernt, die solche Zufallsexperimente wider- spiegeln. Die wichtigste Klasse solcher Objekte bilden die Zufallsgrö- ßen, die im Wesentlichen durch Wahrscheinlichkeiten, die den mögli- chen Wertebereichen zugeordnet sind, charakterisiert werden. Zufallsgrößen eignen sich unter anderem auch dazu, komplizierte Si- tuationen wie Stichprobenergebnisse zu beschreiben und ihre Eigen- schaften rechentechnisch auf einfachere Fälle zurückzuführen. So können insbesondere Zufallsexperimente – beispielsweise auf Basis großer Stichproben im Rahmen von Gesetzen großer Zahlen – ge- funden werden, deren Ergebnisse a priori in relativ engen Grenzen mit hoher Sicherheit prognostizierbar sind. Solche Zufallsexperimente mit stark reduzierter Unsicherheit bilden das Fundament der Methoden der Mathematischen Statistik. ? Im dritten Teil haben wir schließlich Methoden entwickelt, mit denen aus der Untersuchung einer Stichprobe auf den Zustand einer deutlich größeren Grundgesamtheit geschlossen werden kann. Konkret werden, ausgehend von den Merkmalswerten, die für eine Stichprobe ermittelt werden, Aussagen hergeleitet über die Häufigkeitsverteilung des Merkmals in der gesamten Grundgesamtheit. Methodisches Mittel dazu sind Prüfgrößen, deren Werte man durch eine arithmetische Bearbeitung der Stichprobenergebnisse erhält. Dabei sind vor allem solche Prüfgrößen von Interesse, die möglichst aus- sagekräftige Ergebnisse liefern. Konkret muss sich der zu ergründende Zustand der Grundgesamtheit möglichst trennscharf in Prüfgrößenwerten widerspiegeln, so dass ein weitgehend sicherer Rückschluss von einem konkret „ausgewürfelten" Prüfgrößenwert auf den Zustand der Grundgesamtheit möglich ist . Arbuthnots Test stellte sich dabei als Spezialfall eines Hypothesentests heraus. Zusammen mit den Konfidenzintervallen und den Schätzformeln bilden die Hypothesentests eine der drei Hauptklassen von prinzipiellen Ansätzen in der Mathematischen Statistik. Bild 39 Die Entwicklung der Mathematischen Statistik erfolgte in der ersten Hälfte des zwanzigsten Jahrhunderts maßgeblich durch Karl Pearson, Ronald Aylmer Fisher XE „Fisher, Ronald Aylmer" , Jerzy Neyman und Egon Sharpe Pearson (Abbildungen von links nach rechts). Dass der Inhalt des dritten Teils, dessen Essenz wir gerade kurz zusammengefasst haben, als wissenschaftliche Theorie keineswegs so offensichtlich ist, wie es vielleicht heute erscheinen mag, wird daran ersichtlich, dass sich die Entwicklung dieser Erkenntnisse über mehrere Jahrzehnte hinzog – und das mit teilweise erbitterten Kontroversen zwischen den Beteiligten wie Karl Pearson , Ronald Aylmer Fisher , Jerzy Neyman und Egon Sharpe Pearson. Was aber blieb in den Darlegungen von Teil 3 offen? Offen bleiben mussten insbesondere einige formale Grundlagen über Zufallsgrößen, deren Wertebereiche nicht endlich oder abzählbar unendlich sind. Insofern fehlte dem Hinweis, dass es sich bei der zur Approximation von Binomialverteilungen verwendeten Normalverteilung tatsächlich um die Verteilung einer Zufallsgröße handelt, eigentlich das formale Fundament. Um diese Lücke zu schließen, bedarf es einiger Kenntnisse aus der Analysis, insbesondere über Grenzwertsätze der Integrationstheorie. Für Methoden, die sich auf mehrdimensionale Zufallsvariablen beziehen, sind sogar die entsprechenden Ergebnisse der Analysis in mehreren Veränderlichen notwendig. Hier kann daher nur auf die einschlägige Literatur verwiesen werden. Sicher auch für Anfänger bestens geeignet sind die beiden folgenden Bücher: ? Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik: Für Studium, Berufspraxis und Lehramt, 8. Auflage, Wiesbaden 2005. ? Norbert Henze: Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls, 8. Auflage, Wiesbaden 2009. Anspruchsvoller, dafür aber deutlich ausführlicher, werden die Grundlagen der Wahrscheinlichkeitstheorie in den folgenden Büchern be- handelt: ? Christian Hesse: Wahrscheinlichkeitstheorie: Eine Einführung mit Beispielen und Anwendungen, 2. Auflage, Wiesbaden 2009. ? Boris Wladimirowitsch Gnedenko: Lehrbuch der Wahrscheinlichkeitstheorie, 10. Auflage, Frankfurt / M. 1997. ? Marek Fisz: Wahrscheinlichkeitsrechnung und mathematische Statistik, 11. Auflage, Berlin 1989. ? Hans-Otto Georgii: Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik, 4. Auflage, Berlin 2009. Eine weitere Lücke war unvermeidlich. Aufgrund der großen Vielfalt statistischer Methoden muss praktisch jede Methodensammlung lückenhaft bleiben. Insofern wurde hier noch nicht einmal ansatzweise versucht, diesbezüglich eine auch nur annähernde Vollständigkeit zu erreichen. Ziel war es vielmehr, mathematische Ansätze, prinzipielle Argumentationsketten und Begriffsbildungen in einer Weise vorzustellen, dass eine anschließende Vertiefung gut vorbereitet ist. Zu einer solchen Vertiefung bieten sich einerseits anwendungsorientierte Werke an, zu denen die beiden erstgenannten Bücher der nachfolgenden Liste gehören. Wer sich andererseits näher mit den formalen Grundlagen der Mathematischen Statistik beschäftigen möchte, sei auf das zuletzt genannte Werk der nachfolgenden Liste sowie die schon angeführten Bücher von Krengel, Fisz und Georgii hingewiesen: ? Jürgen Bortz: Statistik: Für Human- und Sozialwissenschaftler, 6. Auflage, Berlin 2005. ? Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik, 3. Auflage, Berlin 2008. ? Bernd Rüger: Test- und Schätztheorie, 2 Bände: Grundlagen, München 1999; Statistische Tests, München 2002. Lückenhaft blieb auch die Erörterung von typischen Testverteilungen, die wie Normal-, Chi-Quadrat- und t-Verteilung bei diversen Tests eine Rolle spielen. Zur Vertiefung eignen sich wieder die schon angeführten Bücher von Krengel, Fisz und Georgii. Wer praktische Anwendungen mit umfangreicher Datenbasis durchzuführen hat, wird ein Statistikprogramm verwenden müssen. Für einige der wichtigsten Verfahren reichen Tabellenkalkulationsprogramme wie Excel oder OpenOffice. Ansonsten, insbesondere bei nicht-parametrischen Verfahren, wird man SPSS oder R (Statistikpro- gramm)" verwenden. Und auch dazu gibt es natürlich Literatur: ? Christine Duller: Einführung in die Statistik mit EXCEL und SPSS: Ein anwendungsorientiertes Lehr- und Arbeitsbuch, 2. Auflage, Heidelberg 2007. ? Christine Duller: Einführung in die nichtparametrische Statistik mit SAS und R: Ein anwendungsorientiertes Lehr- und Arbeitsbuch, Heidelberg 2008 ? Jürgen Janssen, Wilfried Laatz: Statistische Datenanalyse mit SPSS für Windows: Eine anwendungsorientierte Einführung in das Basissystem und das Modul Exakte Tests, 6. Auflage, Berlin 2009. Gänzlich unberücksichtigt blieben sogenannte Bayes'sche Ansätze der Statistik. Abweichend von der hier mehr- fach betonten, traditionellen Sichtweise, gemäß der nur zufälligen Ereignissen eine Wahrscheinlichkeit zugeordnet werden kann, wird bei Bayes'schen Ansätzen der Wahrscheinlichkeitsbegriff ausgedehnt. Dabei ordnet man auch Aussagen, die sich auf den Zustand der Grundgesamtheit beziehen, eine Wahrscheinlichkeit zu, und zwar im Sinne eines Maßes dafür, wie plausibel die betreffende Aussage subjektiv erscheint. Auch wenn solchen Ansätzen durchaus eine formale Berechtigung gegeben werden kann, scheint es wenig sinnvoll, Anfänger damit zu verwirren.

Mathematische Statistik für Dummies

A Abhängigkeit stochastische 172, 244 Ablehnungsbereich 10, 186, 215 einseitiger 17, 209 zweiseitiger 17 Additionsformel für die Varianz unabhängiger Zufallsgrößen 63 Additionsgesetz 33 allgemeines 102 Alternativhypothese 12, 185 Alterspyramide 4 Annahmebereich 186 AQL (acceptable quality level) 181 Arbuthnot, John 1, 3, 8, 11, 14, 131, 265, 267 Artefakt 268 Astronomie 268 Ausgangsvariable 241 Auszahlungsquote eines Glücksspiels 57 Axiome der Wahrscheinlichkeitsrechnung 36, 98 B BASIC 155 Bayes, Thomas 45 Bayes'sche Statistik 271 Bayes-Formel 45 Beobachtungsergebnis 170 Bernoulli Daniel 101 Jakob 22, 24, 25, 26, 92, 108 Nikolaus 2 Bernoulli-Experiment 114 Bestimmtheitsmaß 82 Bias einer Schätzung 229 Bindung 258 Binomialformel 117 Binomialkoeffizient 30, 115, 120 Binomialverteilung 115, 133 Black Jack 48 Bohlmann, Georg 37 Borel, Émile 109 Borel'sche ?-Algebra 102 C Cantelli, Francesco Paolo 109 Ceres 238 charakteristische Funktion 66, 67, 133 Chintischin, Aleksandr Jakowlewitsch 109 Chi-Quadrat-Testgröße 141, 147 Chi-Quadrat-Unabhängigkeitstest 249 Chi-Quadrat-Verteilung VI, 145, 212 Computersimulation 144 D Darwin, Charles 79 de Moivre, Abraham 122 Deuchler, Gustav 259 Dichte 101, 125 mehrdimensionale 160 Differenzen-t-Test 213 Dominanz, stochastische 261 Durchschnitt 6 E Effizienz eines Schätzers 229, 234 Einfluss kausaler 172 einseitige Alternative 190 Einstichprobenproblem 166 Elementarereignis 95 Ereignis 23, 33, 95 sicheres 33 unmögliches 33 Ereignisse unabhängige 34 Ergebnismenge 95 Erwartungswert 54, 55, 64, 65 empirischer 203, 226 nicht endlicher 101 erzeugende Funktion 70 Euler'sche Gleichung 66 EXCEL 271 Exponentialfunktion komplexwertige 66 F Fakultät 29 Faltungsformel 102, 126 Fehler 1. Art 12, 178, 188 2. Art 13, 178, 188 mittlerer quadratischer 233 systematischer 229 Fehlurteil 190 Fermat, Pierre de 22, 156 Fernrohr 268 Fisher, Ronald Aylmer 193, 228, 235, 249, 250, 269 Fishers Approximation 162 Fishers exakter Test 249 Fishers Kombinationstest 218 Formel der totalen Wahrscheinlichkeit 44 Freiheitsgrad 143, 250 G Galton, Francis 79 Gamma-Funktion 162 Gauß'sche Glockenkurve 123, 124, 160 Gesetz der großen Zahlen 25, 90, 92, 94, 114, 158 schwaches 105 starkes 103, 104, 107, 163 Gesetz des Ausgleichs 94 Gewinnhöhe 57 gleichmöglich 24, 25, 26 Gleichverteilung 103 Glivenko-Cantelli Theorem von 146 Glücksspiel 48, 57 Gosset, William Sealy 204 Gravesande, Willem Jacob 's 2 Grenzwert 123 Grundgesamtheit 3, 7, 166, 175 Gütefunktion 180 H Halbachse einer Ellipse 74 Häufigkeit absolute 4, 94 relative 4, 23, 35, 90, 92, 94 Häufigkeitsverteilung 4, 166 Hauptsatz der Mathematischen Statistik 146, 163 Hilbert, David 37 Hintergrund-Variable 83 Homogenitätstest 173, 213, 260 hypergeometrische Verteilung 30, 248 Hypothese 215 einfache 196 zusammengesetzte 196 Hypothesentest VII, 1, 171, 183, 191 nicht-parametrischer 254 parameterfreier 254 verteilungsfreier 254 I Indikatorfunktion 100 Inferenzstatistik VIII Infimum 188 Integralsatz von Fubini 160 Intelligenzquotient 133 Inversionsformel 67 Irrtumswahrscheinlichkeit 17 K Kepler'sches Gesetz, drittes 74 Kleinste-Quadrate-Schätzer 241 Kolmogorow, Andrej 37, 98 Kolmogorow'sche Axiome 98 Kombinatorik 27, 28, 115 Konfidenzbereich 223 Konfidenzintervall 172, 219, 221, 223, 227 Konfidenzniveau 219 Konsumentenrisiko 178, 181 Kontingenztabelle 249 Konvergenz fast sichere 111 im p-ten Mittel 113 in Wahrscheinlichkeit 110 mit Wahrscheinlichkeit Eins 111 nach Verteilung 112 punktweise 110 schwache 112 stochastische 109, 110 Konvergenz, stochastische 92 Korrelationskoeffizient 79 emipirischer 232 Korrelationssanalyse 83 Kovarianz 78, 80 Kovarianzmatrix 85 kritischer Bereich 10 kritischer Wert 186, 209 Kumulante 68, 105 kumulantenerzeugende Funktion 68 Kurskal, William 259 L Laplace, Pierre Simon 24, 122, 133 Laplace-Modell 38 Lemma von Borel-Cantelli 107 Likelihood-Funktion 236 Lindeberg, Jarl Waldemar 134 Logarithmus, natürlicher 118 log-Likelihood-Funktion 236 Lotto 48 LQ (limiting quality) 181 LTPD (lot tolerance percent defective) 181 M Macht 180 Mann, Henry Berthold 259 Mann-Whintney-Test 259 Mann-Whintney-U-Test 259 Marginalverteilung 244 Marskanäle 268 Maß 98 Mathematische Statistik V, 166 Maximum-Likelihood-Funktion 236 Maximum-Likelihood-Methode 235 Maximum-Likelihood-Schätzer 235, 236, 242 Median 6, 7, 265 Mendel'sche Regeln 183, 201 Merkmal 4 Merkmalsausprägung 4 Merkmalswert 4 messbare Menge 97 Meta-Analyse 217 Methode der kleinsten Quadrate 238 Mittelwert 7 ML-Schätzer 236, siehe Maximum-Likelihood-Schätzer Modell mathematisches 95 Modulo-Arithmetik 153, 155 Moment absolutes 65 absolutes zentrales 1. Ordnung 58, 61 absolutes zentrales 2. Ordnung 61 k-ter Ordnung 65 zentrales k-ter Ordnung 65 Monopoly 112 Monte-Carlo-Methode 140, 158 MSE siehe Fehler, mittlerer quadratischer MSE-Effizienz 234 MSE-Wirksamkeit 234 Multiplikationsgesetz 34, 35 Multiplikationsgesetz für unabhängige Zufallsgrößen 56, 74, 79 Multiplikationsregel der Kombinatorik 28 N Neumann, John von 158 Neyman, Jerzy 193, 219, 269 Neyman-Pearson-Lemma 199 Neyman-Pearson-Test 198 Normalverteilung VI, 123, 124, 125, 133, 164, 172, 201 gemeinsame 159 multivariate 159, 212 Null-Hypothese 12, 93, 142, 185, 188 Annahme 186 Beibehaltung 186 Nicht-Verwerfung 186 Nullmenge 98 O Oder-Operation für Ereignisse 31, 32 Operationen für Ereignisse 96 Operationen für Zufallsgrößen 51 Operationscharakteristik 180, 181, 187, 188 Optik 268 P Painlevé, Paul 109 Parameter 184, 185, 219, 221, 222, 227 Pascal, Blaise 22 Pearson, Egon Sharpe 193, 269 Pearson, Karl 79, 141, 142, 193, 269 Pearson'sche Stichprobenfunktion 142, 162, 210 Pearson'scher Anpassungstest 142, 205 Permutation 28 Pfadregel erste 43 zweite 43 Physik 37 Piazzi, Giuseppe 238 Placebo-Effekt V Poisson, Siméon Denis 109 Polarkoordinaten 161 Potenzreihe 68, 121, 123 Power 180 Prävalenz 40, 45 Produzentenrisiko 178, 181 Programmiersprache 155 Prüfgröße 10, 215 Pseudo-Zufallszahl 155 Pseudo-Zufallszahlen 206 Punktschätzer 227 p-Wert 214, 216, 245, 249 Q Qualitätskontrolle statistische 178 Quantil VI, 99, 207 Quételet, Adolphe 132 R R (Statistikprogramm) 271 Randverteilung 244 Rang 262 Rangbildung 263 Realisierung einer Zufallsgröße 49, 99, 166 Regression einfache lineare 241 Regressionsanalyse einfache lineare 241 multiple lineare 241 nicht-lineare 241 Regressionsgerade 79, 241 Regressionskoeffizient 78 Regressionskonstante 79 Rekursionsformel 118, 157 Restklasse 153 Roulette 48, 94, 154 S Schätzer 227 asymptotisch erwartungstreuer 229 erwartungstreuer 228 konsitenter 230 suffizienter 229 unverfälschter 228 unverzerrter 228 Schätzformel 171 Schätzfunktion 227 Schiaparelli, Giovanni 268 Semi-Invariante einer Zufallsgröße 68 Semi-Invarianz 105 Sicherheitswahrscheinlichkeit 12 Sigma-Algebra (?-Algebra) 96, 175 Signifikanzniveau 12, 188, 214 Simpson, Edward Hugh 47 Simpsons Paradoxon 47 Simulation 158 Skalarprodukt 84 Sophie-Germain-Primzahl 157 Spearman'sche Rangkorrelationskoeffizient 264 Spearmans Rho 265 SPSS 271 St. Petersbuger Paradoxon 101 Standardabweichung 61, 63, 64, 65 empirische 203 Standardnormalverteilung 125 multivariate 159 Statistik VIII, 7, 166 beschreibende VIII deskriptive VIII Mathematische VIII schließende VIII, 7 statistischer Raum 176, 228 Stetigkeit rechtsseitige 100 Stetigkeitskorrektur 128, 182 Stichprobe 7, 166, 169 unverbundene 173 verbundene 173 Stichprobenfunktion 10, 170, 263 Student'sche 209 Stichprobenplan 178, 181 Stichprobenraum 169, 175, 177 Stirling'sche Formel 119, 122 Student'sche Testgröße 204, 205 Student'scher t-Test siehe t-Test Symmetrie 24, 26 T Tabellen von Verteilungen Chi-Quadrat- 145 Normalverteilung 127 t- 208 Taxiproblem 242 Taylor, Satz von 135 Test siehe auch Hypothesentest gleichmäßig bester 194 gleichmäßig bester unverfälschter 195 konservativer 192 randomisierter 192 unverfälschter 193 verfälschter 193 Testcharakteristik 180 Testgröße 10, 142, 170, 258 Teststärke 180 Teststatistk siehe Stichprobenfunktion Tschebyschow, Pafnuti Lwowitsch 88 Tschebyschow'sche Ungleichung siehe Ungleichung von Tschebyschow t-Test 207 Doppelter 213 für unverbundene Stichproben 213 für verbundene Stichproben 213 t-Verteilung 207, 208, 212 U Überschreitungswahrscheinlichkeit 216 Ulam, Stanislaw 158 Umkehrformel 67 UMP-Test 195 UMPU-Test 195 Unabhängigkeit von Zufallsgrößen 56, 71 Und-Operation für Ereignisse 31, 32 Ungleichung von Tschebyschow 88, 91, 93, 94, 103, 114, 120, 123, 124 unkorreliert 79 Untersuchung 4 Untersuchungseinheit 4 V van der Waerden, Bartel Leendert 132 Variable abhängige 241 Varianz 61, 63 Vererbungslehre 79 Versuchsreihenverlauf 107 Verteilung siehe Wahrscheinlichkeitsverteilung Verteilungsannahme 176 Verteilungsfunktion 99, 126 der ? 2-Testgröße 147 empirische 144, 146 Verteilungskonvergenz 112 Vertrauensintervall siehe Konfidenzintervall Verwerfungsbereich 10 Verzerrung 229 Vierfeldertabelle 243, 248 Vierfeldertest 242, 244, 249 Volkszählung 7 Vollerhebung 7 Vorzeichentest 264, 265 W Wahrscheinlichkeit 22, 24, 27, 33, 35, 92, 97 bedingte 39, 41, 42 Wahrscheinlichkeitsmaß 98, 176 Wahrscheinlichkeitsraum 36, 98 Wahrscheinlichkeitsrechnung 163 axiomatische 36 Wahrscheinlichkeitsverteilung 50, 51, 58, 167 Whitney, Donald Ransom 259 Wilcoxon, Frank 259 Wilcoxon-Vorzeichen-Rang-Test 259 Winkelfunktionen 66 Wirksamkeit eines Schätzers 229, 234 Würfel 141, 152 Z Zach, Franz Xaver Freiherr von 238 Zeichentest siehe Vorzeichentest Zentraler Grenzwertsatz 114, 122, 123, 130, 131, 133, 164, 172 Zentraler Grenzwertsatz von Moivre-Laplace 122, 136 Ziegenproblem 48 Zielgröße 241 zufällige Größe 49 Zufallsexperiment 22, 24 Zufallsgröße 49, 64, 98 kontinuierliche 125 normalverteilte 125 standardnormalverteilte 126 stetige 102 Zufallsvariable 49, 84 Zufallsvektor 84 Zufallszahl 154 Zurücklegen 179 Zustand 175 zweiseitige Alternative 190 Zweistichprobenproblem 173, 254 Zwei-Stichproben-t-Test 254 Das Zitat wird diversen Politikern, insbesondere Winston Churchill, nachgesagt. Ein- deutige Belege für eine Urheberschaft konnten aber nicht ermittelt werden. Siehe auch: Werner Barke, „Ich glaube nur der Statistik, die ich selbst gefälscht habe …", Statistisches Monatsheft Baden-Württemberg, 11/2004, S. 50-53. In Anlehnung an das englische Wort für Schlussfolgerung, nämlich inference, spricht man zum Teil auch von Inferenzstatistik. Unter mail@bewersdorff-online.de sind Hinweise auf Fehler und Unzulänglichkeiten willkommen. Auch Fragen werden, soweit es mir möglich ist, gerne beantwortet. Er- gänzungen und Korrekturen werden auf meiner Homepage http://www.bewersdorff-online.de veröffentlicht. Wie unwahrscheinlich solche Ausreißer in dem Fall, dass die Hypothese stimmt, tat- sächlich sind, werden wir mit mathematischen Methoden, die wir im zweiten Teil be- schreiben werden, konkret berechnen können. Neben den Gemeinsamkeiten zwischen Modellen für naturwissenschaftliche Phäno- mene und Annahmen, wie sie Hypothesentest zugrunde liegen, sollten aber auch die Unterschiede nicht verkannt werden: Naturwissenschaftliche Modelle sind primär durch qualitative Eigenschaften – konkret zum Beispiel durch mathematische Formeln – bestimmt und werden zum Zwecke ihrer permanenten Bewährung und somit mit dem Horizont einer möglichst langen „Lebensdauer" kreiert. Dagegen sind Hypothe- sen innerhalb eines statistischen Tests meist allein durch quantitative Parameter de- terminiert. Außerdem werden sie oft zum Zwecke ihrer Widerlegung formuliert und sind, wenn dies wie gewünscht gelingt, naturgemäß sehr „kurzlebig". Beispiele dazu findet man in ersten Teil von Jörg Bewersdorff, Glück, Logik und Bluff: Mathematik im Spiel – Methoden, Ergebnisse und Grenzen, 5. Auflage, Wies- baden 2010. Die Bezeichnung P erinnert an die lateinische oder auch englische Übersetzung des Begriffes Wahrscheinlichkeit: probablitas beziehungsweise probability. Der Aus- druck P(A) wird gesprochen als „P von A". Um das Multiplikationsgesetz doch noch, wenn auch in modifizierter Weise, anwen- den zu können, stellt man sich vor, dass das zweite Zufallsexperiment aus der gleich- wahrscheinlichen Auswahl einer Zahl k aus den Zahlen 1, 2, ..., 51 besteht, wobei dar- an anknüpfend dann unter den verbliebenen 51 Karten die k-te Karte ausgewählt wird. Dabei sind die sich auf die Kartennummer k beziehenden Ereignisse unabhängig von dem Ergebnis der ersten Ziehung. Da innerhalb der zweiten Ziehung die Wahrschein- lichkeit, eine einem weiteren Ass entsprechende Nummer zu ziehen, gleich 3/51 ist, ergibt sich nun auf Basis des Multiplikationsgesetzes 1/13·1/17 = 1/221 für die ge- suchte Wahrscheinlichkeit, zwei Asse zu ziehen. Eine andere Interpretation dieser Berechnung wird im Kasten Bedingte Wahrschein- lichkeiten auf Seite 39 erörtert. Für drei oder mehr Ereignisse definiert man die Unabhängigkeit dadurch, dass die Gültigkeit des Multiplikations„gesetzes" für beliebige Auswahlen von Ereignissen ge- fordert wird. Drei Ereignisse A, B und C sind also genau dann unabhängig, wenn die vier Identitäten P(A und B und C) = P(A) P(B) P(C), P(A und B) = P(A) P(B), P(B und C) = P(B) P(C) und P(A und C) = P(A) P(C) erfüllt sind. Zuvor, nämlich zur Jahrhundertwende 1900, hatte der bekannte Mathematiker David Hilbert (1862-1943) in einem berühmt gewordenen Vortrag über wichtige mathematische Fragestellungen dazu aufgerufen, die „physikalischen Disziplinen" der Wahrscheinlichkeitsrechnung und Mechanik axiomatisch zu begründen. Diese Einstufung macht deutlich, dass zu diesem Zeitpunkt die Wahrscheinlichkeitsrechnung noch nicht als integraler Bestandteil der Mathematik angesehen wurde. Die Zahlen sind Hans-Peter Beck-Bornholdt, Hans-Hermann Dubben, Der Hund, der Eier legt, Hamburg 1997 entnommen. Dort sind auch einige hier ausgeblendete medi- zinische Details, insbesondere über die Altersabhängigkeit der Prävalenz, dargelegt. Obwohl heute der Begriff Zufallsvariable in der Fachliteratur dominiert, wird hier im Folgenden der Begriff Zufallsgröße präferiert – jedenfalls solange es sich um (eindi- mensionale) reell-wertige Zufallsvariablen handelt. Entsprechend werden mehrdimen- sionale Zufallsvariablen als Zufallsvektoren bezeichnet. Es ist Wir werden später noch eine entscheidende Motivation dafür kennenlernen, zu Trans- formationsfunktionen f Erwartungswerte der Form E(f (X)) zu untersuchen. Solche Werte sind nämlich so vielfältig, dass sie die Verteilung der Zufallsgröße X vollstän- dig bestimmen. Bereits die sogenannten Indikatorfunktionen zu halb-offenen Inter- vallen (a, b], die identisch gleich 1 auf dem betreffenden Intervall und identisch gleich 0 außerhalb des Intervalls sind, würden ausreichen. Da diese Funktionen aber mathe- matisch nur schwerfällig zu handhaben sind, bevorzugt man stattdessen Klassen von Funktionen, deren mathematische Handhabung einfacher ist und die außerdem so vielfältig sind, dass mit ihnen die genannten Indikatorfunktionen genügend gut appro- ximiert werden können. Es spielt für uns momentan keine Rolle, dass diese Potenzreihe oft nur in einem klei- nen Bereich um den Nullpunkt konvergiert. Wie man Kumulanten aus den Momenten berechnen kann, erkennt man, wenn man die Potenzreihe zu ln(?X (t )) aus der Potenzreihe zu ?X (t ) mit Hilfe der für komplexe Zahlen z mit |z| < 1 gültigen Potenzreihe transformiert: Bei drei oder mehr Zufallsgrößen X1, X2, ..., Xn ist zu beachten, dass eine fehlende kausale Verbindung mehr als nur eine paarweise Unabhängigkeit zur Folge hat. Kon- kret gilt in diesem Fall das Multiplikationsgesetz für eine beliebige Auswahl dieser Zufallsgrößen und für beliebige Werte: Daher werden die Zufallsgrößen X1, X2, ..., Xn nur dann, wenn diese Anforderung für jede beliebige Auswahl i1 < i2 <... < im und beliebige Werte s1, ..., sm erfüllt ist, als (stochastisch) unabhängig bezeichnet. Ein Beispiel für drei Zufallsgrößen, die nur paarweise aber nicht vollständig unab- hängig sind, erhält man wie folgt: Wir werfen drei Würfel, wobei X und Y die Ergeb- nisse der ersten beiden Würfel sind und das Ergebnis des letzten Würfels die dritte Zufallsgröße Z folgendermaßen bestimmt: Ist die Summe X + Y gerade, entspricht Z dem erzielten Ergebnis des dritten Würfels, andernfalls erfolgt eine Multiplikation mit –1. Man kann sich leicht überlegen, dass je zwei dieser drei Zufallsgrößen voneinan- der unabhängig sind. Trotzdem sind die Zufallsgrößen X, Y, Z insgesamt nicht vonein- ander unabhängig, da die Ergebnisse von X und Y zusammen die Wahrscheinlich- keitsverteilung der Zufallsgröße Z beeinflussen: Dabei wollen wir Fehlschlüsse, die bei der empirischen Beobachtung durch Stichpro- ben-Ausreißer verursacht werden, zunächst noch ausklammern. Solche statistischen Phänomene werden erst im dritten Teil des Buches untersucht. Zufallsgrößen, für die das Multiplikationsgesetz gilt, nennt man unkorreliert. Wir stel- len die diesbezügliche Definition aber noch etwas zurück. Halbachse wird der maximale Abstand zwischen einem Bahnpunkt und dem Ellipsen- Mittelpunkt genannt. Zunächst ist für eine Zufallsgröße Z und eine konstante Zahl b , so dass das Minimum für b = E(Z) angenommen wird. Der Ausdruck E((Y – aX – b)2) nimmt daher bei festem Wert a sein Minimum für b = E(Y – aX ) an. Dafür gilt wobei nun offensichtlich ist, dass das Minimum wie behauptet für angenommen wird. Für diesen Wert a nimmt der Ausdruck E((Y – aX – b)2) den Wert an, was zugleich Cov (X,Y )2 ? Var(X )?Var(Y ) zeigt. Der Begriff Korrelation geht auf den Naturforscher Francis Galton (1822-1911) zurück, einem Halb-Cousin von Charles Darwin . In Darlegungen über Vererbungslehre prägte er 1888 den Begriff co-relation zur Beschreibung einer größenmäßigen Beziehung zwischen den in zwei aufeinanderfolgenden Generationen gemessenen Werten eines Merkmals. Galton hatte bereits 1877 den Begriff reversion geprägt, den er später in Regression umtaufte (regressus ist das lateinische Wort für Rückkehr). Als Reg- ression zur Mitte bezeichnete er den Effekt, dass Werte, die bei einem Merkmal der Elterngeneration gemessen werden, in der Folgegeneration tendenziell einer Verände- rung hin zum Durchschnitt unterliegen. Der Korrelationskoeffizient in allgemeiner Form als Maß für die Korrelation wurde erst 1899 von Karl Pearson eingeführt. Den Nachweis findet man am Ende von Fußnote 21. Zwar lässt sich eine Geradengleichung der Form Y = aX + b mit a ? 0 problemlos nach X auflösen, allerdings verändert sich bei der entsprechenden Umformung der Gleichung Y = aX + b + D zu X = Y/a – b/a – D/a das Optimalitätskriterium. Eine solche Wahrscheinlichkeitsverteilung lässt sich stets durch eine Lostrommel rea- lisieren, wobei jeder Punkt einem Los entspricht, auf dem die Werte der beiden Zu- fallsgrößen X und Y vermerkt sind. Bei einer statistischen Untersuchung entspricht je- der Punkt einem Mitglied der Grundgesamtheit, das zwei Merkmalswerte X und Y aufweist. Das heißt konkret, dass der Ausdruck E((Y – aX – b)2) nicht über das Maß hinaus mi- nimiert werden kann, wie es mit a = 0 und b = E(Y ) trivialerweise möglich ist. Die Verwendung eines Teilmengensystems messbarer Mengen ist deshalb unver- zichtbar, weil es Grundmengen gibt, bei der nicht alle Teilmengen in einer der Intuiti- on entsprechenden Weise messbar sein können. Beispielsweise kann eine Kugel in ei- ne endliche Zahl überschneidungsfreier Mengen zerlegt werden, die nach Drehung und Verschiebung zu einer Kugel mit doppeltem Durchmesser zusammengesetzt wer- den können. Auch wenn diese als Banach-Tarski-Paradoxon bekannte Zerlegung sehr exotisch ist – die populären Apfelmännchen-Figuren sind dazu vergleichsweise über- schaubar –, so wird doch klar, dass der übliche Rauminhalt nicht für alle dreidimen- sionalen Teilmengen definiert werden kann. Werden die Anforderungen dahingehend abgeschwächt, dass auf die Bedingung P(?) = 1 verzichtet wird, spricht man von einem Maß . In solchen Fällen kann es sogenannte Nullmengen geben, das sind nicht leere Mengen A ? ? mit P(A) = 0. Beispiele sind endliche Mengen, wenn für die Grundmenge ? = [0, 1] durch P([a, b]) = b – a ein Wahrscheinlichkeitsmaß festgelegt wird. Diese sehr technische Zusatzbedingung stellt sicher, dass man, wie wir es gleich tun wollen, Wahrscheinlichkeiten der Form P(X ? t) definieren kann. In naheliegender Verallgemeinerung lassen sich auch Zufallsvektoren, das heißt mehrdimensionale Zufallsvariablen, X = (X1 ..., Xn): ? ? Rn definieren. In allgemeinster Form nennt man Abbildungen f: ?1 ? ?2 zwischen den Grundmen- gen ?1 und ?2 von zwei Wahrscheinlichkeitsräumen messbar, wenn jedes Urbild ei- ner in ?2 messbaren Menge eine in ?1 messbare Menge ist. Beispiele für Zufallsgrößen ohne existierenden Erwartungswert lassen sich bereits bei der abzählbar unendlichen Grundmenge ? = N finden, wie Daniel Bernoulli (1700-1782) bereits 1783 erkannte. Das als St. Petersburger Paradoxon bekannte Beispiel fragt nach einem gerechten Einsatz für das Spiel, bei dem man mit der Wahrscheinlichkeit 1/2 einen Gewinn von 1, mit der Wahrscheinlichkeit von 1/4 einen Gewinn von 2, mit der Wahrscheinlichkeit von 1/8 den Gewinn von 4 und allgemein mit der Wahrscheinlichkeit von 1/2k einen Gewinn in Höhe von 2k–1 erhält. Die Antwort ist, dass kein endlicher Wert ausreicht, für den eine solch lukrative Gewinnchance zu einem fairen Preis angeboten werden könnte. Gegenbeispiele wie die sogenannte Cantor-Verteilung sind allerdings relativ exotisch. Soll das betreffende Ereignis formal charakterisiert werden, muss zunächst eine Er- gebnismenge ? konstruiert werden, die den möglichen Verläufen der (unendlichen) Versuchsreihe entspricht. Dann ist das Ereignis, dass zumindest einer der nach Versuchsreihen der Länge n, n + 1, ... ge- messenen Durchschnitte um mindestens ? vom Erwartungswert E(X) abweicht. We- gen P(An ? An+1 ? ...) ? P(An) + P(An+1) + ... für beliebige Ereignisse An, An+1, ... folgt die angegebene Obergrenze für die Wahrscheinlichkeit. Wer es explizit mag, kann die folgende Abschätzung verwenden: Damit ist ein auf die unendliche Versuchsreihe bezogenes Ergebnis gemeint, das für jedes einzelne Teilexperiment der Versuchsreihe ein Ergebnis beinhaltet. Zur Abkürzung bezeichnet man mit N die Menge jener Versuchsreihenverläufe ? ? ?, für die keine Konvergenz vorliegt sowie mit Dm die Zufallsgröße, die dem Approximationsfehler entspricht, der sich bei einer Versuchsreihe mit m Experimen- ten ergibt: Ein Versuchsreihenverlauf ? ? ? gehört genau dann zur Menge N der Versuchsrei- henverläufe ohne Konvergenz, wenn es eine Distanz 1/k gibt, die mit fortschreitender Versuchslänge m immer wieder erreicht oder überschritten wird: Damit gibt es eine Distanz ? = 1/k0 mit denn im Fall von P(N) = 0 ist dies trivial, und ansonsten bilden die Wahrscheinlich- keiten für k = 1, 2, 3, ... eine monoton steigende Folge mit P(N) als Grenzwert. Unabhängig von einem beliebig groß gewählten Wert n gilt aber so dass wegen wie gewünscht P(N) = 0 folgt. Neben seinen bedeutenden Beiträgen zu verschiedenen mathematischen Disziplinen war Émile Borel langjähriges Mitglied der französischen Abgeordnetenkammer und 1925 sogar kurzzeitig Marineminister – im Kabinett des Premierministers und Ma- thematiker-Kollegen Paul Painlevé (1863-1933). Ein anschauliches Beispiel, das in Kapitel 1.16 meines Buches Glück, Logik und Bluff: Mathematik im Spiel – Methoden, Ergebnisse und Grenzen detailliert erörtert wird, ist das Spiel Monopoly . Konkret betrachten wir die Folge der Zufallsgrößen X1, X2, ..., welche die Positionen einer Spielfigur widerspiegeln, die ausgehend vom Feld „Los" Wurf für Wurf erreicht werden. Die Wahrscheinlichkeits- verteilung für die nach dem n-ten Wurf erreichte Feldnummer Xn konvergiert – so lässt sich zeigen – gegen eine ganz bestimmte Verteilung (diese hat übrigens unter anderem die Eigenschaft, dass die Wahrscheinlichkeit des „Opernplatzes" die der „Parkstraße" um 48% übersteigt). Die für eine konkrete Würfelsequenz ? entstehende Folge von Feldnummern X1(? ), X2(? ), ... selbst zeigt aber keinerlei Konvergenzverhalten, da die Spielfigur mit jedem Zug wieder erneut bewegt wird. Würfelspiele, bei denen auch die durch konkrete Würfelsequenzen ? entstehende Fol- ge von Feldnummern X1(? ), X2(? ), ... fast sicher konvergiert, sind klassische Start- Ziel-Würfelspiele wie das Leiterspiel. Eine solche, rekursiv genannte, Berechnungsweise kann mittels der Formel erfolgen. Der darin enthaltene Faktor zeigt auch, dass die Wahrscheinlichkeiten für Werte k mit k ? pn + p ansteigen und dann wieder fallen: Die maximale Wahrscheinlichkeit wird also für einen ganzzahligen Wert k erreicht, dessen Abstand zum Erwartungswert pn kleiner als 1 ist. Soll zu einer großen Versuchsanzahl n eine Binomialverteilung praktisch berechnet werden, empfiehlt es sich, die Rekursionsformel logarith- misch anzuwenden. Lesern, denen selbst diese „Light"-Version zu viele mathematische Details enthält, wird empfohlen, die Lektüre mit dem Zentralen Grenzwertsatz auf Seite 122 fortzu- setzen. Die bereits in Fußnote 16 verwendete Potenzreihe für den natürlichen Logarithmus konvergiert nur im Intervall (0,2]. Diese Einschränkung kann aber problemlos da- durch überwunden werden, dass n in Abhängigkeit von t groß genug gewählt wird. Abraham de Moivre (1667-1754) konzentrierte sich bei seinen Untersuchungen auf den Fall p = ½. Bei diesen Untersuchungen leitete de Moivre auch die Stirling'sche Formel her (siehe Seite 119), ohne allerdings für den Proportionalitätsfaktor die explizite Formel zu finden. Dies gelang erst Stirling, als ihn de Moivre mit seinem Problem konfrontierte. Relativ komfortabel kann das Integral mit Potenzreihe berechnet werden. Die Potenzreihe, die im interessanten Bereich sehr schnell konver- giert, lässt sich unschwer aus der Potenzreihe der Exponentialfunktion herleiten. Der Nachweis der Gleichung ?(?) = 1, das heißt der Identität ist keineswegs trivial. Der schönste Beweis verwendet den Trick, das Quadrat des In- tegrals, das sich geometrisch als Volumen des aus der Glockenkurve entstehenden Rotationskörpers auffassen lässt, mittels einer Transformation in Polarkoordinaten zu berechnen. Die Eigenschaft E(X ) = 0 einer standardnormalverteilten Zufallsgröße X beruht auf der Symmetrie der Glockenkurve: Zur Berechnung der Varianz verwendet man die Formel der partiellen Integration: Um die Verteilung der Summe von zwei voneinander unabhängigen normalverteilten Zufallsgrößen zu berechnen, kann man sich nach einer geeigneten Transformation auf den Fall einer standardnormalverteilten Zufallsgröße X und den einer normalverteilten Zufallsgröße Y mit dem Erwartungswert E (Y ) = 0 und der Standardabweichung ? = ?Y beschränken. Die Berechnung der Verteilung erfolgt mit einer Version der Fal- tungsformel (siehe Aufgabe 5 in Kapitel 2.7), die für durch Dichten charakterisierte Zufallsgrößen gültig ist. Auf diese Weise findet man für die Dichte der Zufallsgröße X + Y die Formel Dieser Ausdruck lässt sich aber noch umformen: wobei der vorletzten Identität die Transformation zugrunde liegt. Eine interessante Variante des hier gegebenen Beweises ergibt sich, wenn die Zufalls- größen Y1, Y2, ... auf Basis eines Bernoulli-Experimentes realisiert werden. Dann kann der Zentrale Grenzwertsatz auf seinen Spezialfall des Satzes von Moivre-Laplace zurückgeführt werden. Ausgangspunkt der Konstruktion einer solchen Funktion ist das mittels der zugehöri- gen Stammfunktion berechenbare Integral Wegen h0(1) = 1/140 kann man h(x) = 140h0(x) für x ? [0,1] definieren. Dafür findet man , wobei diese Funktion im Intervall [0,1] ihr betragsmäßiges Maximum im relativen Minimum x = ½ annimmt: ||h (3)||? = 105/2. Der Name Freiheitsgrad erklärt sich daraus, dass bei s möglichen Ergebnissen des Zu- fallsexperimentes s – 1 Wahrscheinlichkeiten im Wesentlichen frei vorgegeben wer- den können. Beispielsweise kann man die Null-Hypothese betreffend der Symmetrie eines zu prü- fenden Würfels verwerfen, wenn die ? 2-Testgröße mindestens den Wert 15,09 er- reicht. Aufgrund der fünf Freiheitsgrade – entsprechend den sechs möglichen Wurfer- gebnissen – ist die Wahrscheinlichkeit, bei einem solchen Vorgehen einen sym- metrischen Würfel als unsymmetrisch einzustufen, gleich 0,01. Bei 15,09 handelt es sich um den Wert, bei welchem die Verteilungsfunktion zur Zu- fallsgröße, die aus der Summe der Quadrate von fünf unabhängigen, standardnormal- verteilten Zufallsgrößen entsteht, den Wert 0,99 annimmt. Um diesen Idealwert, der sich auf die Grenzverteilung bezieht, wirklich experimentell zu bestimmen, muss nicht nur die Zahl der Testreihen, sondern auch deren Länge vergrößert werden. Das Gesetz der großen Zahlen stellt sicher, dass dieses Verfahren auch allgemein dazu verwendet werden kann, für die Verteilungsfunktion FX einer Zufallsgröße X einen beliebigen Funktionswert FX (t ) = P(X ? t ) empirisch zu bestimmen. Dabei wird die Wahrscheinlichkeit P(X ? t ) durch die relativen Häufigkeiten approximiert, die in ei- ner Versuchsreihe zum Ereignis X ? t ermittelt werden. Grundlage dafür ist eine un- abhängige Wiederholung desjenigen Zufallsexperimentes, das der Zufallsgröße X zu- grunde liegt. Werden in einer Versuchsreihe die relativen Häufigkeiten zum Ereignis X ? t simul- tan für alle reellen Werte t ermittelt, erhält man die Folge der empirischen Vertei- lungsfunktionen. Bei diesen empirischen Verteilungsfunktionen handelt es sich um vom Parameter t abhängende Zufallsgrößen. Formal liegt der empirischen Vertei- lungsfunktion eine Folge X1, ..., Xn von unabhängigen Zufallsgrößen zugrunde, die al- le die gleiche Verteilung wie die Zufallsgröße X besitzen. Für jede reelle Zahl t ist die empirische Verteilungsfunktion Fn(t) diejeni- ge Zufallsgröße, deren Wert Fn(t)(? ) für einen Versuchsreihenverlauf ? gleich dem relativen Anteil der „ausgewürfelten" Werte X1(? ), ..., Xn(? ) ist, die kleiner oder gleich t sind. Eine formelmäßige Darstellung erhält man auf Basis der Indikatorfunktion zum Intervall (–?,t]: Offensichtlich ist die Zufallsgröße Fn(t) für jeden festen Wert t binomialverteilt. Au- ßerdem konvergiert die Folge der Zufallsgrößen Fn(t) gemäß dem Gesetz der großen Zahlen für jeden festen Wert t stochastisch gegen FX (t ). Gemäß dem Theorem von Glivenko-Cantelli, das häufig auch als Hauptsatz der Mathematischen Statistik bezeichnet wird, konvergiert die Folge der empirischen Verteilungsfunktionen – aufgefasst als vom Parameter t abhängende Zufallsgrößen – sogar fast sicher gleichmäßig: Das heißt, dass die Konvergenz mit Wahrscheinlichkeit 1 stattfindet. Für die vom Parameter t abhängenden Zufalls- größen Fn(t ) bedeutet das: Die Wahrscheinlichkeit für einen Versuchsreihenverlauf ?, bei dem die empirische Verteilungsfunktion Fn(?)(? ) gleichmäßig gegen FX konver- giert, ist gleich 1. Von der Verteilungskonvergenz der Summanden kann aber nicht darauf geschlossen werden, dass auch die Summe verteilungskonvergent ist: Ist beispielsweise U1, U2, ... eine Folge von unabhängigen Zufallsgrößen mit den beiden gleichwahrscheinlichen Werten –1 und 1 und ist außerdem Vn = (–1)nUn, dann sind die Folgen (Un)n und (Vn)n offensichtlich verteilungskonvergent, während die Folge (Un + Vn)n nicht verteilungs- konvergent ist. Dazu konstruiert man zunächst Zufallsgrößen Um, deren Werte Um(? ) abhängig vom Wert Tm(? ) definiert werden. Im Detail wird auf Basis eines geeignet gewählten Wahrscheinlichkeitsraumes der Wert Um(? ) im Fall von Tm(? ) = k so definiert, dass sich im abgeschlossenen Intervall [P(Tm ? k–1), P(Tm ? k)], dessen Länge P(Tm = k) beträgt, eine Gleichverteilung ergibt, und das unabhängig von der Zufallsentscheidung der ersten Stufe. Insgesamt ist damit die Zufallsgröße gleichverteilt im abgeschlos- senen Intervall [0, 1]. Nun führt man noch eine Transformation mittels der Standard- normalverteilung durch und erhält dann mittels Zm = ?–1(Um) eine Folge von stan- dardnormalverteilten Zufallsgrößen, deren Werte sich asymptotisch genauso verhalten wie die auf Erwartungswert 0 und Standardabweichung 1 normierten Treffer-Anzah- len. Wird zu einer Zufallsgröße U eine durch zwei vorgegebene Schranken ? > 0 und ? > 0 begrenzte „Störung" in Form einer Zufallsgröße D mit P( |D | > ?) < ? addiert, so lässt sich die Verteilungsfunktion der „gestörten" Zufallsgröße U + D durch zwei zueinander symmetrische Ungleichungen abschätzen. Die obere Schranke ist: Qualitativ deutlich hochwertiger sind übrigens die in Spielkasinos verwendeten Wür- fel: Deren Ecken sind nicht abgerundet, so dass die Symmetrie der Geometrie einfa- cher sichergestellt werden kann. Außerdem sind die Würfelaugen nicht ausgehöhlt. Zur Verhinderung von Manipulationen sind die Würfel außerdem aus einem transpa- renten Material hergestellt und mit einer Kennzeichnung versehen. Diese Bedingung ist auch notwendig: So kann ein „Würfel", der die geraden Zahlen jeweils mit der Wahrscheinlichkeit von 1/3 als Ergebnis auswürfelt, nach dem vorge- stellten Verfahren nie eine ungerade Restklasse als Gesamtergebnis liefern. Der Grad dieser Asymmetrie lässt sich natürlich durch einen Hypothesentest mit sehr hohem Signifikanzniveau quantitativ begrenzen. Mehr noch als durch seine schon erwähnten Beiträge zur Begründung der Wahr- scheinlichkeitsrechnung ist Pierre de Fermat durch seine zahlentheoretischen Unter- suchungen bekannt. So wurde der große Satz von Fermat, der von Fermat selbst nur in Form einer Vermutung ausgesprochen wurde, erst 1993 nach über 300 Jahren vergeb- lichen Bemühungen bewiesen. Zwei der entscheidenden Kriterien für die Qualität der erhaltenen Zufallsfolge ist die Gleichverteilung im Intervall von 0 bis 1 sowie die weitgehende Unabhängigkeit auf- einanderfolgender Zahlen. In einem kontrollierten Rahmen lässt sich die Unabhängig- keit aufeinander folgender Zahlen erreichen, wenn mehrere Folgen von Pseudo-Zu- fallsfolgen in abwechselnder Reihenfolge zu einer Gesamtfolge kombiniert werden. Sind dabei die einzelnen Perioden zueinander teilerfremd, dann umfasst die Ge- samtfolge alle Kombinationen von aufeinanderfolgenden Einzelwerten. Einfach er- zeugen lassen sich solche Folgen mit zueinander teilerfremden Perioden mit soge- nannten Sophie-Germain-Primzahlen p1, p2, ... wie zum Beispiel 999521, 999611, 999623, 999653, 999671, 999749 und 1000151, wel- che die Eigenschaft besitzen, dass auch die Zahlen 2pi + 1 prim sind. Mit einem beliebigem Multiplikator a ? –1, 0, 1 mod (2pi + 1) erhält man zunächst Einzelfolgen der Periode pi oder 2pi. Mischt man diese in abwechselnder Folge durch, ergibt sich daraus eine Folge mit einer Periode von p1p2... oder 2p1p2... Transformiert man schließlich die in das Intervall (0, 1) normierten Pseudo-Zufallszahlen y durch y' = |2y – 1|, erhält man eine gleichverteilte Folge der Periode p1p2..., bei der immer so viele aufeinanderfolgende Zahlen sich wie stochastisch voneinander unabhängig ver- halten, wie unterschiedliche Primzahlen pi verwendet worden sind. Bei der Verteilung eines solchen Zufallvektors spricht man von einer multivariaten Standardnormalverteilung. Ein Zu- fallsvektor X heißt multivariat normalverteilt , wenn er durch eine affin lineare Transformation der Form X = AY + b aus einem multivariat standardnormalverteilten Zufallsvektor Y hervor- geht (A ist eine f?f-Matrix und b ein f-dimensionaler Vektor). In Bezug auf die Koordinaten Y1, …, Yf spricht man auch von einer gemeinsamen Normalverteilung XE „Normalverteilung: gemeinsame" . Gemäß den Definitionen und Überlegungen am Ende von Kapitel 2.5 ist . Eine geometrische Eigenschaft der multivariaten Standardnormalverteilung wird er- kennbar, wenn man zu zwei beliebig vorgegebenen Zeilenvektoren cT = (c1, …, cf) und dT = (d1, …, df) die Kovarianz der Linearkombinationen cT·Y und dT·Y berechnet. Die Kovarianz dieser beiden Zufallsgrößen ist gleich Insbesondere sind die beiden Zufallsgrößen cT·Y und dT·Y damit genau dann unkorre- liert zueinander, wenn die beiden Vektoren c und d senkrecht aufeinander stehen. Diese letzte Identität beruht auf dem Integralsatz von Fubini. Auf der Ebene der mittels Treppenfunktionen approximierten Integrale entspricht dieser Satz einer zeilen- beziehungsweise spaltenweise durchgeführten Bil- dung von Zwischensummen. Die Invarianz unter Rotationen ist auch die Ursache dafür, dass sich die Unabhängig- keit der den Koordinatenachsen entsprechenden Zufallsgrößen Y1, …, Yf auf Linear- kombinationen cT·Y und dT·Y überträgt, sofern die beiden Richtungsvektoren c und d senkrecht zueinander stehen. Aus den Überlegungen aus Fußnote 62 folgt damit, dass speziell für den Fall von Linearkombinationen zu multivariaten Standardnormalvertei- lungen Unkorreliertheit und Unabhängigkeit äquivalent sind. Für eine Ausdehnung dieser Äquivalenz auf Linearkombinationen, die zu Koordina- ten von multivariaten Normalverteilungen gebildet werden, müssen Zufallsgrößen cT·Y und dT·Y zu affin linear transformierten Vektoren X = AY + b untersucht wer- den. Dabei bleiben konstante Vektoren b sowieso ohne Einfluss auf Korrelation und Unabhängigkeit. Außerdem sind wegen cT·(AY) = (cTA)·Y für eine f?f-Matrix A kei- ne weiteren, nicht zuvor bereits abgedeckten Situationen hinzugekommen. Auch wenn die untersuchte Zufallsvariable zweidimensional ist, handelt es sich ei- gentlich um ein Einstichprobenproblem. Meist werden aber beide zuletzt genannten Problemklassen als Zweistichprobenprobleme bezeichnet, wobei begrifflich zwischen verbundenen und unverbundenen Stichproben differenziert wird. In der Regel ergeben sich die n-dimensionalen Vektoren als Realisierungen von Zu- fallsvektoren, das heißt in Form von „ausgewürfelten" Werten x = (X1(? ), ..., Xn(? )). Dabei sind X1, ..., Xn die Zufallsgrößen, welche die Stichprobe beschreiben. Der Stichprobenraum kann aber auch aus mit einer Zufallsgröße T transformierten Beo- bachtungsergebnissen T(X1(? ), ..., Xn(? )) bestehen. Die Wahrscheinlichkeit p ist gleich dem relativen Anteil der fehlerhaften Teile in der als Grundgesamtheit fungierenden Lieferung. Da sich die Grundgesamtheit und damit die relative Häufigkeit fehlerhafter Teile ändert, sobald ein Stück zur Prüfung ent- nommen wird, ist die Qualität von zwei zufällig ausgewählten Stücken nur dann sto- chastisch voneinander unabhängig, wenn das geprüfte Stück wieder in die Grundge- samtheit zurückgelegt wird. Andernfalls ergibt sich eine Situation wie bei einem Stapel von Spielkarten: Nach der Ziehung eines Asses verringert sich die Wahrschein- lichkeit, nochmals ein Ass zu ziehen. Gerade im Bereich der Qualitätsprüfung ist das Zurücklegen eines geprüften Stückes praktisch oft nicht realisierbar, etwa wenn es sich um eine zerstörende Prüfung handelt. Allerdings ist ein reales Zurücklegen nach einer Untersuchung auch überhaupt nicht notwendig. Vielmehr reicht es aus, die Stichprobenauswahl derart zu organisieren, dass dabei jedes Mitglied der Grundgesamtheit gegebenenfalls auch mehrfach gezogen werden kann, wobei dann eine einmalige Prüfung reicht. Alternativ lassen sich in Abhängigkeit der Ausschussrate p auch Formeln für diejeni- ge Wahrscheinlichkeitsverteilung berechnen, die sich ergibt, wenn ausgewählte Stü- cke nicht zurückgelegt werden. Je größer die Grundgesamtheit im Vergleich zur Stichprobe ist, desto weniger unterscheiden sich die Wahrscheinlichkeitsverteilungen mit und ohne Zurücklegen. Insofern wird das Problem des Zurücklegens in der Praxis oft einfach ignoriert. Die Macht wird oft auch Teststärke oder – in Anlehnung an die im Englischen übliche Bezeichnung – Power genannt. In der statistischen Qualitätskontrolle wird ein Ausschussanteil p+, der eine gerade noch ausreichenden Qualität widerspiegelt, mit AQL (acceptable quality level) bezeichnet. Der Ausschussanteil p– , ab dem die Qualität als unzureichend angesehen wird, wird mit LTPD (lot tolerance percent defective) oder LQ (limiting quality) bezeichnet. In der Literatur ist es zum Teil üblich, ohne Verwendung eines Parameters ? die Null- und Alternativhypothese direkt auf zwei Mengen von Wahrscheinlichkeitsvertei- lungen zu beziehen. Es ist zwar nicht unüblich, im Fall einer nicht verworfenen Null-Hypothese von einer Annahme der Null-Hypothese zu sprechen. Dieser Sprachgebrauch ist aber oft eher irreführend. Zu bevorzugen sind Begriffe wie Beibehaltung oder Nicht-Verwerfung der Null-Hypothese . Beim Infimum handelt es sich um eine Verallgemeinerung des Mi- nimum-Begriffes, der auch für eine unendliche Menge anwendbar ist. Beispielsweise ist das Infimum des offenen Intervalls (1, 2) gleich 1. Allgemein ist das Infimum einer Menge reeller Zahlen gleich der größten Zahl, die kleiner oder gleich ist zu jeder in der Menge enthaltenen Zahl. Entsprechend verallgemeinert der Begriff des Supremums das Maximum. Dieser Ansatz hat auch den Begriff der Null-Hypothese motiviert. Null steht dabei für eine nicht eingetretene Veränderung, etwa in Bezug auf den vor dem Test erreichten Stand an Erkenntnis. Die Tradition eines unsymmetrischen Blickwinkels, gemäß der es primär gilt, einen Fehler 1. Art zu vermeiden, bewirkt, dass ein Fehler 1. Art meist durch Aussagen wie „etwas sehen, was nicht vorhanden ist" oder „etwas Falsches behaupten" charak- terisiert wird. Hingegen stehen für einen Fehler 2. Art Aussagen wie „etwas nicht se- hen, was vorhanden ist" oder „etwas Richtiges nicht behaupten". Dabei entspricht das gesehene beziehungsweise übersehene „Etwas" inhaltlich der Alternativhypothese. Das bestmögliche, das heißt niedrigste Signifikanzniveau ist Der Supremum-Begriff wurde bereits in Fußnote 72 erläutert. Eine alternative Möglichkeit besteht in der Konstruktion eines sogenannten randomi- sierten Tests: Dazu wird für „Zwischenwerte", bei denen die Null-Hypothese beim konservativen Ansatz „sicherheitshalber" nicht abgelehnt wird, die Testentscheidung im Rahmen eines Bernoulli-Experimentes ausgelost. Dabei wird die Wahrscheinlichkeit des Bernoulli-Experimentes so gewählt, dass das Signifikanzniveau ? vollständig ausgeschöpft wird. Mit dieser Ausschöpfung der Vorgabe für das Signifikanzniveau wird zugleich die Wahrscheinlichkeit eines Fehlers 2. Art verringert. Formal handelt es sich bei einem randomisierten Test um eine Zufallsgröße der Form ? : X ? [0, 1], wobei ?(x) für jedes Beobachtungsergebnis x ? X gleich der Wahr- scheinlichkeit ist, mit der die Null-Hypothese bei diesem Beobachtungsergebnis ver- worfen wird. Trotzdem dauerte es mehrere Jahrzehnte, bis die hier vorgestellten Konzepte entwi- ckelt wurden. Dies zeigt, dass die Ansätze und die dabei zu überwindenden Schwie- rigkeiten eben nicht so selbstverständlich sind, wie sie aus heutiger Sicht erscheinen mögen. Nachdem Karl Pearson 1900 mit seiner ?2- Stichprobenfunktion den Weg für erste systematisch fundierte Hypothesentests geebnet hatte, konzentrierte sich das Interesse bei Hypothesentests zunächst – insbesondere auch bei den generellen Untersuchungen von Ronald Aylmer Fisher XE „Fisher, Ronald Aylmer" in den 1920er-Jahren – rein auf die Widerlegung der Null-Hypothese. Die Optimierung von Tests unter zusätzlicher Berücksichtigung von Fehlern 2. Art geht auf eine aus dem Jahr 1933 stammende Untersuchung von Jerzy Neyman (1894-1981) und Egon Sharpe Pearson (1895-1980), dem Sohn von Karl Pearson, zurück. Die Debatten zwischen Karl Pearson und Fisher einerseits sowie später zwischen Fisher und Neyman andererseits wurden zum Teil in sehr scharfer und sogar polemischer Form geführt. Dies folgt daraus, dass ein gleichmäßig bester Test insbesondere auch gleichmäßig besser sein muss als der wenig „intelligente" Test, der die Null-Hypothese stets mit einer Wahrscheinlichkeit von ? verwirft. Entsprechend der englischen Bezeichnung uniformly most powerful unbiased test spricht man auch von einem UMPU-Test. Entsprechend wird ein gleichmäßig bester Test auch als UMP-Test bezeichnet. Dieser Wurzelausdruck sowie der empirische Erwartungswert X¯ (x ) entsprechen der Standardabweichung beziehungsweise dem Erwartungswert von derjenigen Zufalls- größe, bei der jedes der n einzelnen Beobachtungsergebnisse x = (X1(? ), ..., Xn(? )) mit der Wahrscheinlichkeit 1/n ausgespielt wird. Wir werden dies zu Beginn von Ka- pitel 3.7 noch näher erläutern. Gosset veröffentlichte seine Untersuchungen während seiner langjährigen Tätigkeit als Chemiker für die Brauerei Guiness in Dublin. Da ihm sein Arbeitgeber keine Pub- likationen gestattete, veröffentlichte er unter Pseudonym. Die Stundent'sche Testgröße wird traditionell mit einem kleinen t abgekürzt, obwohl Zufallsgrößen heute in der Regel mit Großbuchstaben gekennzeichnet werden. In Tabellenkalkulationsprogrammen sind die Funktionen TVERT und TINV imple- mentiert. Für p = P(T ? t) gilt, wenn f der betreffende Freiheitsgrad ist: p = 1 – TVERT(t; f; 1) (für t ? 0) wie zum Beispiel TVERT(2,02; 5; 1) = 0,04969, p = TVERT(–t; f; 1) (für t ? 0) und t = TINV(2 – 2p; f) (für p ? 0,5) wie zum Beispiel TINV(0,1; 5)=2,01505. Siehe zum Beispiel: B. W. Gnedenko, Einführung in die Wahrscheinlichkeitsrech- nung, Berlin 1991, S. 134 Diese Voraussetzung ist erfüllt, wenn der Zufallsvektor (X, Y) einer bivariaten Nor- malverteilung unterliegt, das heißt einer multivariaten Normalverteilung der Dimen- sion 2. Dass die Differenz X – Y normalverteilt ist, erscheint in Fällen wie dem vorliegenden aufgrund des Zentralen Grenzwertsatzes plausibel: Es handelt sich um die Änderung des Blutdrucks, die durch die Medikation bewirkt wird. Wie den Blutdruck selbst kann man sich auch diese Differenz als Summe vorstellen, bei der sich viele zufalls- abhängige Einflüsse in Form einer Summe überlagern. Die allgemeine Basis des hier beschriebenen Szenarios bildet der Begriff des statisti- schen Raumes, der im Kasten Mathematische Statistik als formales Modell am Ende von Kapitel 3.1 erörtert wurde. Philosophical Transactions of the Royal Society of London, A 222 (1922), S. 309- 368. In einigen Fällen hat es sich bewährt, statt der Likelihood-Funktion die sogenannte log-Likelihood-Funktion lx(? ) = log(Lx(? )) zu un- tersuchen. Eine solche Situation untersuchte erstmals Carl Friedrich Gauß 1801. Der Astronom Giuseppe Piazzi (1746-1826) hatte am 1. Januar 1801 den Zwergplanet Ceres entdeckt, ihn aber nach ein paar Beobachtungen nicht mehr wieder auffinden können. Gauß berechnete nun ausgehend von Beobachtungsdaten eine Position, an der Ceres am 7. Dezember 1801 von Franz Xaver Freiherr von Zach (1754-1832) wieder aufgefunden werden konnte. Bei dieser Problemstellung sind die x-Werte, nämlich die Zeitpunkte, exakt bekannt, während die y-Werte, die den Koordinaten entsprechen, Messfehlern unterworfen sind. Auch wenn die Situation stark an das erste Szenario und damit an die in Kapitel 2.5 untersuchte Aufgabenstellung erinnert, so darf ein entscheidender Unterschied nicht übersehen werden: Dort wurden beide Koordinaten der Messpunkte (X, Y) als Zu- fallsgrößen aufgefasst, diesmal aber nur der Y-Wert. Alternativ kann man auch sofort die Dichte der Verteilungsfunktion untersuchen. Stattdessen kann man zur Quadratsumme auch eine gemeinsame Nullstelle ihrer bei- den partiellen Ableitungen suchen, die zu den Parametern a und b gebildet werden. Zwar lassen sich mittels einer Nummerierung der möglichen Merkmalsausprägungen stets zahlenmäßige Merkmalswerte erzwingen, jedoch sind die so entstehenden Werte in ihrer Größenordnung letztlich willkürlich. Im vorliegenden Fall wird eine Merk- malsquantifizierung, etwa im Hinblick auf eine nachgelagerte Berechnung einer Kor- relation, dann einigermaßen natürlich, wenn die Merkmalswerte beider Merkmale im Gleichklang bewertet werden, also beispielsweise 1 für „Erreger A" und 0 für „Erre- ger B" sowohl beim Schnelltest-Ergebnis wie auch beim tatsächlichen Erreger. Man spricht daher auch von einer Randverteilung oder Marginalverteilung . Eine solche Wahrscheinlichkeitsverteilung wird hypergeometrische Verteilung genannt. Man erhält sie, wenn aus N Dingen, von denen M die gewünschte Eigenschaft besitzen, gleichwahrscheinlich n Dinge gezogen werden. Die Wahrscheinlichkeit für k Treffer ist dann: Unter der Voraussetzung, dass die Merkmalswerte normalverteilt sind, müssen bei einem parametrischen Ansatz insgesamt vier unbekannte Parameter berücksichtigt werden – zwei Erwartungswerte und zwei Standardabweichungen. Die Zahl der Para- meter reduziert sich auf zwei, wenn man als Null-Hypothese annimmt, dass beide Verteilungen identisch sind. Darüber hinaus lässt sich sogar ohne jede Annahme über den Wert eines Parameters eine Testgröße konstruieren, mit der die Null-Hypothese geprüft werden kann. Dazu dividiert man die Differenz der beiden Stichproben- Mittelwerte durch die empirische Standardabweichung der Gesamtstichprobe. Auf diese Weise kann die Null-Hypothese auf Basis der t-Verteilung überprüft werden. Dieser Test wird als Zwei-Stichproben-t-Test bezeichnet. Wir verzichten hier auf eine genauere Begründung. Letztlich ist die Tatsache, dass die nachfolgend berechnete Verteilung keine Binomialverteilung ist, ein Nachweis dafür, dass keine Unabhängigkeit vorliegt. Hinreichend dafür ist, dass die Verteilungsfunktionen der beiden Zufallsgrößen X und Y stetig sind, womit jede Wahrscheinlichkeit der Form P(X = t) beziehungsweise P(Y = t) gleich 0 ist. Natürlich verzichtet man mit einer solchen Auslosung auf einen Teil der Information, die das Testergebnis eigentlich liefert. Insofern gibt es auch Test-Versionen, welche die Zahl der vorkommenden Bindungen berücksichtigen. Die Vorreiterrolle Deuchlers wurde erst 1957 durch William Kruskal bekannt gemacht. Die dabei gemachten biographischen Angaben über Deuchler orientierten sich an den Angaben von dessen Witwe. Sie enthalten keinen Hinweis auf die höchst unrühmliche Rolle, die Deuchler während der NS-Herrschaft an der Universität Hamburg spielte. Für dieses Verhalten wurde er 1945 aus dem Dienst entlassen. In Bezug auf die beiden Verteilungsfunktionen ist diese Bedingung für eine auch mit X ?SD Y abgekürzte stochastische Dominanz äquivalent zur Ungleichung P(X ? t) ? P(Y ? t), die für alle reellen Werte t gelten muss. Offensichtlich ist im Fall, dass kein Wert der ersten Stichprobe X1(? ), ..., Xm(? ) ir- gendeinen Wert der zweiten Stichprobe Y1(? ), ..., Yn(? ) übertrifft, U(? ) = 0 und W(? ) = 1 + 2 +... + m = m(m + 1)/2. Unter Verwendung der Notation, die wir im Bei- spiel der Körpergrößen von Männern und Frauen verwendet haben, entspricht diese als Induktionsannahme fungierende Situation der Sequenz w...wM...M. Außerdem er- höht sich ausgehend von einer beliebigen M-w-Sequenz der Wert von beiden Zufalls- größen U und W um je 1, wenn ein Symbol w mit einem rechts benachbarten Symbol M vertauscht wird. Die Bezeichnung der Ränge in der Form R(Xi) ist eigentlich unzureichend. Besser wä- re Ri(X1, ..., Xn). Auch wenn die Zufallsgröße X meist größer ist als die Zufallsgröße Y, können doch beide Zufallsgrößen gleichverteilt sein. Ein Beispiel ergibt sich, wenn gleichwahr- scheinlich eins der Wertepaare (2, 1), (3, 2), (4, 3), (5, 4), (6, 5), (1, 6) ausgewürfelt wird. Die Wahrscheinlichkeitsrechnung besitzt damit für die Statistik eine ähnliche Bedeu- tung wie die Optik für die Astronomie : Mit den Gesetzmäßigkei- ten der Optik werden Fernrohre konzipiert, mit deren Hilfe man Bilder erhält, die Rückschlüsse auf die Eigenschaften der beobachteten Objekte zulassen. Wie in der Mathematischen Statistik sind dabei Fehlschlüsse möglich. So stellten sich die 1877 vom Astronomen Giovanni Schiaparelli (1835-1910) „entdeckten" Marskanäle nachträglich als Artefakt heraus.