Dieses Video gehört zum openHPI-Kurs Introduction to Bayesian Data Analysis. Möchten Sie mehr sehen?
Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.
Scroll to current position
- 00:00Okay, schauen wir uns also wieder die Normalverteilung an.
- 00:06Aber dieses Mal werden wir uns einige der Funktionen in R ansehen, die es uns erlauben, interessante und nützliche Fragen zu stellen über
- 00:13dieses spezielle Beispiel einer kontinuierlichen Zufallsvariablen.
- 00:18Was wir also bisher gesehen haben, ich erinnere euch nur daran, was wir bisher gemacht haben.
- 00:22Wir können zumindest in der Theorie herausfinden.
- 00:24Wir können die Fläche unter der Kurve zwischen einem bestimmten Bereich von Werten in der Normalverteilung berechnen, und das ergibt
- 00:30die Wahrscheinlichkeit, diesen bestimmten Wertebereich zu beobachten.
- 00:35Dafür brauchen wir also die CDF.
- 00:37Und ich habe dir vorhin gesagt, dass die Wahrscheinlichkeitsdichtefunktion zwei Teile hat, die mit der Normalen zusammenhängen, die Normalisierung
- 00:46Konstante und der Kernel.
- 00:48Und wir können die Normalisierungskonstante berechnen, sobald wir einen Kernel haben, dessen Bedeutung natürlich später klar wird.
- 00:55Aber ich möchte nur, dass du verstehst, dass es immer zwei Teile gibt, und einer davon ist eine Konstante,
- 01:02die man zumindest in einfachen Fällen ausrechnen kann.
- 01:06Okay, schauen wir uns also einige der Funktionen an, die in R verfügbar sind und die es uns ermöglichen, die Normalverteilung zu verwenden
- 01:16auf verschiedene Weise zu nutzen.
- 01:17Das ist wirklich sehr hilfreich bei der statistischen Modellierung.
- 01:20Okay, wenn du dich zum Beispiel an den Bernoulli-Fall erinnerst, hatten wir diese Funktionen: dbern, pbern und qbern.
- 01:29Wenn ihr also vergessen habt, was diese Funktionen sind, geht zurück und lest euch das Material durch, damit ihr wisst, was diese Funktionen sind
- 01:35denn wir werden jetzt diese D P Q R-Funktionsfamilie in der
- 01:42kontinuierlichen Raum.
- 01:43Und natürlich gibt es jetzt wichtige Unterschiede zwischen dem diskreten und dem kontinuierlichen Fall, wie ich Ihnen zeigen werde, erstens
- 01:49Zunächst können Sie mit der Funktion rnorm Zufallsdaten aus einer Normalverteilung erzeugen.
- 01:55Hier gibt es also ein Beispiel.
- 01:57Ich generiere fünf Datenpunkte, zufällig generierte Datenpunkte aus der Standardnormale.
- 02:02Nur als Beispiel: Ich hätte jeden beliebigen Wert von Ihnen für den Mittelwert und die Standardabweichung wählen können und ich hätte entsprechende
- 02:09Sie wissen schon, Stichproben aus dieser bestimmten Verteilung.
- 02:12Wenn ich diesen Befehl mehrmals ausführe, erhalte ich natürlich jedes Mal andere Zahlen.
- 02:17Ich möchte auch darauf hinweisen, dass in R die Standardwerte für den Mittelwert und die Standardabweichung null bzw. eins betragen
- 02:24Ich hätte also, wenn ich Daten aus einer Standardnormale generieren möchte, den Mittelwert und die Standardabweichung einfach weglassen können
- 02:32Abweichung weglassen, weil das sowieso der Standardwert ist.
- 02:36Ich erhalte natürlich unterschiedliche Zahlen, aber das liegt daran, dass ich jedes Mal neue Zufallsdaten generiere.
- 02:43Okay, dieses Werkzeug ist extrem wichtig für uns in der statistischen Modellierung, wenn wir die Eigenschaften eines Experiments verstehen wollen
- 02:51Wenn wir die Eigenschaften eines Experiments verstehen wollen, müssen wir diese Eigenschaften durch die zufällige Erzeugung neuer Daten auf der Grundlage eines bestimmten statistischen Modells verstehen.
- 02:58Um die Eigenschaften dieses Modells zu verstehen, ist diese Funktion so wichtig für die Ausbildung der Statistiker.
- 03:08Das nächste Beispiel, das ich Ihnen zeigen möchte, ist die Verwendung der Funktion pnorm.
- 03:14Dies ist natürlich die kumulative Verteilungsfunktion der Normalverteilung.
- 03:18Und hier kann ich Fragen stellen wie: Wie groß ist die Wahrscheinlichkeit, einen Wert wie zwei oder etwas kleiner als diesen zu beobachten?
- 03:25das könnte ich so schreiben und dann würde ich das mit der pnorm zwei berechnen.
- 03:29So erhalte ich die Wahrscheinlichkeit, zwei oder etwas Kleineres als das zu beobachten.
- 03:33Übrigens hätte ich auch einfach schreiben können, wie hoch die Wahrscheinlichkeit ist, einen bestimmten Wert zu beobachten
- 03:37wie zwei,
- 03:38genau zwei oder etwas weniger als das.
- 03:40Hier habe ich genau weniger als zwei geschrieben, aber sie ergeben die gleichen Wahrscheinlichkeiten.
- 03:44Und warum?
- 03:45Weil die Wahrscheinlichkeit, genau zwei zu erhalten, gleich Null ist.
- 03:48In Lehrbüchern sieht man das manchmal mit einem Weniger-als-oder-Gleich-Zeichen geschrieben, aber das ist genau dasselbe
- 03:55Sache.
- 03:56Es wird sich nichts ändern.
- 03:57Das ist also meine kumulative Wahrscheinlichkeit von zwei oder weniger als zwei.
- 04:00Und ich könnte sogar eine Frage stellen, wie hoch die Wahrscheinlichkeit ist, einen Wert wie zwei oder etwas größer als zwei zu beobachten?
- 04:09Und um das zu tun, gibt es eine Spezifikation innerhalb dieser pnorm-Funktion, die besagt, dass der untere Punktschwanz gleich ist
- 04:17auf false.
- 04:18Das bedeutet, dass man nicht links von zwei in der Verteilung suchen sollte, sondern rechts von zwei.
- 04:26Der untere Schwanz ist gleich falsch, was bedeutet, dass man die Wahrscheinlichkeit rechts von der Zahl, über die man spricht, betrachtet
- 04:32Das ist es also, was diese nützliche Funktionalität in allen d p q r Funktionen ausmacht,
- 04:36sie sind, glaube ich, in jeder Funktion.
- 04:39Okay, das ist also eine nützliche Methode, um Wahrscheinlichkeiten für bestimmte Werte zu berechnen, und du kannst sehen, wie du
- 04:48die Wahrscheinlichkeit berechnen kann, einen Wert zwischen zwei und minus zwei zu beobachten.
- 04:52Du berechnest die kumulative Wahrscheinlichkeit von zwei oder weniger als zwei, die den gesamten Bereich links davon abdeckt, und subtrahierst
- 04:59davon ab.
- 05:00Die Wahrscheinlichkeit, -2 oder etwas kleiner als 2 zu beobachten.
- 05:03Es wird also eine Subtraktion sein.
- 05:05Dies sind Übungen, die du später machen wirst, um zu verstehen, wie diese pnorm-Funktion oder diese P-Funktionsfamilie
- 05:11funktioniert.
- 05:13In Ordnung.
- 05:13Und eine weitere wichtige Funktion ist die Q-Norm-Funktion, die die Umkehrung der CDU ist.
- 05:19Man kann also Fragen stellen wie: Was ist das Quantil Q,
- 05:24so dass die Fläche unter der Kurve links davon 0,977 beträgt.
- 05:30Und diese Funktion liefert das Quantil,
- 05:35in diesem Fall sind es sogar zwei.
- 05:36Das ist genau das, was ich hier gemacht habe.
- 05:38Ich habe zwei eingesteckt,
- 05:40und ich habe eine Wahrscheinlichkeit von 0,977.
- 05:44Jetzt setze ich diese Wahrscheinlichkeit in die qnorm-Funktion ein und erhalte zwei zurück,
- 05:49nun, es ist ungefähr zwei.
- 05:53Dies sind also sehr wichtige Funktionen, die es einem erlauben, nützliche Fragen über eine bestimmte Verteilung zu stellen, die man
- 06:00mit der man arbeitet, und deshalb spreche ich so ausführlich darüber, denn sie sind sehr, sehr nützlich für das Verständnis verschiedener
- 06:07Aspekte einer Verteilung.
- 06:09Dies sind die Fragen, die man bei einer Verteilung stellen kann.
- 06:11Und so komme ich schließlich zum wichtigsten Punkt, über den ich bei der Normalverteilung sprechen möchte, nämlich der d-Norm
- 06:17Funktion.
- 06:18Wenn du dich also an die D-Band-Funktion und die D-Binom-Funktion erinnerst, haben wir die Wahrscheinlichkeit eines bestimmten Ergebnisses
- 06:26in diesen Fällen diskreter Zufallsvariablen.
- 06:29Und wie ich Ihnen schon mehrmals gesagt habe, kann man im kontinuierlichen Fall nicht fragen, oder man kann es natürlich.
- 06:35Aber die Wahrscheinlichkeit, einen bestimmten Punktwert zu erhalten, ist immer Null.
- 06:40Die D-Norm-Funktion gibt also im Gegensatz zu den Funktionen D-Band und D-Binom nicht die Wahrscheinlichkeit eines bestimmten Ergebnisses an
- 06:49aber sie gibt eine Zahl ungleich Null an.
- 06:51Wie lautet diese Zahl?
- 06:53Diese Zahl ist die Dichte dieses bestimmten Wertes.
- 06:58Und das bedeutet, dass sie das Ergebnis der Berechnung dieser Funktion angibt.
- 07:04Man setzt in die Normaldichtefunktion eine bestimmte Zahl wie zwei ein.
- 07:09Das ist es, was ich hier mache.
- 07:10Das ist übrigens f(x) hier.
- 07:12Es gibt die Funktion dnorm
- 07:13ist die Wahrscheinlichkeitsdichtefunktion f(x) und sie liefert den Y-Wert,
- 07:18den Wert der Y-Achse
- 07:20für diese bestimmte Zahl.
- 07:21Und dieser Wert ist die Dichte der Normalverteilung.
- 07:24Es ist nicht die Wahrscheinlichkeit.
- 07:26Bitte merken Sie sich gut, dass wir, wenn wir über kontinuierliche Zufallsvariablen sprechen, über
- 07:33die Dichte eines bestimmten Punktes.
- 07:35Wir sprechen nicht über die Wahrscheinlichkeit, weil die Wahrscheinlichkeit immer Null ist.
- 07:43Dies ist also nur eine Zusammenfassung, um Sie an alle Funktionen zu erinnern, die für kontinuierliche Zufallsvariablen in diesem Programm verfügbar sind
- 07:49Fall die Normale.
- 07:51Man kann Zufallsdaten erzeugen.
- 07:53Dies sind nur zufällige Daten auf der X-Achse, die ich gerade erzeugt habe.
- 07:55Wenn ich diesen Befehl erneut ausführe, erhalte ich andere Daten,
- 08:00Ich würde jedes Mal andere Zahlen erhalten.
- 08:01Ich kann die Fläche unter der Kurve zwischen, sagen wir, plus eins und minus eins berechnen.
- 08:06Und das würde die Fläche unter der Kurve ergeben.
- 08:08Mit dieser pnorm-Funktion ziehe ich minus eins ab.
- 08:12Die kumulative Wahrscheinlichkeit von minus eins oder weniger als das von der kumulativen Wahrscheinlichkeit von eins oder etwas weniger als das
- 08:18und ich erhalte diese Fläche unter der Kurve. Das ist eine sehr nützliche Funktion, die für uns später von großer praktischer Bedeutung sein wird.
- 08:25Die Funktion dnorm vergibt einen Wert auf der X-Achse, der mir den Punkt auf der Kurve angibt.
- 08:31Der Y-Wert der Wahrscheinlichkeitsdichtefunktion und dieser Wert hier ist natürlich nicht Null, aber es ist eine Dichte.
- 08:40Es ist keine Wahrscheinlichkeit.
- 08:43Und die qnorm-Funktion gibt dir für jede gegebene Wahrscheinlichkeit an, wie hoch das Quantil ist.
- 08:48Die Wahrscheinlichkeit unter der Kurve links von diesem Quantil ist also diese Wahrscheinlichkeit hier.
- 08:54Es ist also der Kehrwert der Verteilungsfunktion der Gemeinschaft.
- 08:59Dies ist also das Beispiel mit einer normalen 01.
- 09:02Aber man kann das natürlich auch mit einer beliebigen Normalverteilung spielen,
- 09:06mit einem beliebigen Mittelwert oder einer beliebigen Standardabweichung.
- 09:09Es ist ein sehr nützliches Werkzeug, um die Wahrscheinlichkeit unter der Kurve zu verstehen.
- 09:13Hier ist ein Beispiel für eine Normalverteilung mit Mittelwert 500 und Standardabweichung 100.
- 09:17500 ist hier der Mittelwert.
- 09:19Hier liegt also das Maximum.
- 09:21Und die Streuung dieser Verteilung wird durch die Standardabweichung bestimmt.
- 09:25Wenn ich diese Zahl auf 1000 erhöhe, wird die Standardabweichung viel breiter und der Bereich der X-Achse geht viel weiter hinaus
- 09:32um die 95 % der Fläche unter der Kurve zwischen diesem Bereich und diesem Bereich abzudecken.
- 09:39Die Standardausweichung bestimmt also die Streuung und der Mittelwert bestimmt den Mittelpunkt dieser Verteilung, und es ist eine symmetrische
- 09:45Verteilung.
- 09:46Die Normalverteilung ist symmetrisch.
- 09:49So sieht eine cdf im kontinuierlichen Raum aus.
- 09:52Ich habe Ihnen die CDF im diskreten Fall gezeigt, ich glaube, im binomischen Fall haben wir kontinuierliche Werte
- 09:59auf der X-Achse und die Wahrscheinlichkeit steigt bis zu eins.
- 10:03Man sieht, dass der Maximalwert eins ist.
- 10:05Dies ist also die kumulative Wahrscheinlichkeit, eine Zahl wie diese oder eine kleinere als diese zu beobachten.
- 10:10Man könnte natürlich bis ins Unendliche gehen.
- 10:12Das Ding wird bei 1 asymptotisch.
- 10:14Es wird sich jetzt nie ändern.
- 10:16So sieht also die CDF für die Normalverteilung aus, die Umkehrung der CDF
- 10:24dreht einfach die Achse dieser Funktion um.
- 10:27Dies wird also die X-Achse und dies wird die Y-Achse.
- 10:31Das ist also die Umkehrung hier
- 10:33Ich setze eine Wahrscheinlichkeit ein und erhalte das Quantil aus der kumulativen Verteilungsfunktion für diese bestimmte
- 10:40Wahrscheinlichkeit.
- 10:40Das ist also im Grunde der Aufbau hier.
- 10:44Dies sind die wichtigen Funktionen der Normalverteilung.
- 10:47Und eine wichtige Sache, auf die ich hinweisen möchte, ist, dass jede andere Verteilung, die wir in diesem Kurs oder im Lehrbuch verwenden werden
- 10:55später in den weiteren Kapiteln, den späteren Kapiteln des Buches, werden wir immer mit diesen Arten von Funktionen arbeiten
- 11:03um diese Verteilung zu verstehen.
- 11:05Und wir werden immer versuchen, die Eigenschaften einer bestimmten Verteilung, mit der wir arbeiten, zu verstehen.
- 11:11Und diese Art von Funktionen der Familie D P Q R ist äußerst nützlich, um zu verstehen, was die Verteilung
- 11:19aussieht und wie die Wahrscheinlichkeiten für bestimmte Wertebereiche sind.
- 11:24Dies wird vor allem bei der bayesianischen Datenanalyse sehr wichtig, wenn wir versuchen, Prioritätsverteilungen abzuleiten
- 11:31indem wir darüber nachdenken, was die plausiblen Werte sein könnten.
- 11:34Darüber werde ich natürlich später sprechen, aber das ist die Vorbereitung, die wir für die Bayes'sche Modellierung brauchen.
- 11:43Was haben wir also bisher getan?
- 11:44Wir haben uns mit Zufallsvariablen befasst, insbesondere mit den diskreten und zufälligen Fällen mit jeweils einem Beispiel,
- 11:53mindestens zwei Beispiele für den diskreten Fall und eines für den kontinuierlichen Fall.
- 11:58Du wirst später natürlich noch mehr Beispiele für andere Verteilungen sehen.
- 12:01Aber dies sind die kanonischen Beispiele, die man verwenden kann, um zwei andere Verteilungen zu verallgemeinern. Denn die Geschichte
- 12:08wird sich jetzt nicht mehr ändern.
- 12:11Alles, was sich ändern wird, ist f(x),
- 12:14das ist es, was sich jetzt ändern wird.
- 12:16Und Sie sollten sich darüber im Klaren sein.
- 12:18Die Verwendung der DPQR-Familie von Funktionen, weil man sie immer braucht, wenn man über eine bestimmte
- 12:23Verteilung.
- 12:24Okay, das war's also mit der Normalverteilung.
- 12:28Als nächstes werde ich über die Maximum-Likelihood-Schätzung sprechen.
To enable the transcript, please select a language in the video player settings menu.