Dieses Video gehört zum openHPI-Kurs Introduction to Bayesian Data Analysis. Möchten Sie mehr sehen?
Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.
Scroll to current position
- 00:00Werfen wir nun einen Blick auf die posterioren prädiktiven Verteilungen.
- 00:07Diese Werte stehen im Gegensatz zu den vorhersagbaren Verteilungen, die ich bereits besprochen habe.
- 00:12Was wir jetzt tun werden, ist, dass wir, nachdem wir die Daten gesehen haben, neue Daten, Verteilungen von neuen Daten, erzeugen werden
- 00:22Das ist es also, was ich hier als Y-Vorhersage angesichts der beobachteten Daten bezeichne.
- 00:27Was wir also tun werden, ist, die Theta-Parameter wieder zu integrieren und herauszufinden, welche neuen Daten
- 00:36aussehen würde, nachdem wir die Posteriorverteilungen der Parameter berechnet haben.
- 00:42Erinnern Sie sich daran, dass wir bei der Erstellung der prädiktiven Verteilungen eine Stichprobe aus den vorherigen Verteilungen gezogen haben
- 00:49für jeden Parameter, fügte sie in die Wahrscheinlichkeitsrechnung ein und erzeugte mit Hilfe der R-Funktionen die simulierten
- 00:56Daten. Das waren die prädiktiven Daten. Posteriore prädiktive Daten sind im Grunde das Gleiche.
- 01:02Nur, dass wir statt der Prioren für die Parameter die Posterior-Stichproben verwenden, die wir aus den
- 01:11Modell.
- 01:12Wir werden diese Daten in die Wahrscheinlichkeitsrechnung einfügen und zukünftige Daten erzeugen.
- 01:16Das ist alles, was diese Gleichung macht.
- 01:18Und so ist der Code natürlich sehr einfach.
- 01:21Sie werden das im Lehrbuch sehen, ich werde es Ihnen nicht zeigen, weil es von der eigentlichen Diskussion ablenkt.
- 01:26Aber sobald Sie das brm-Modell angepasst haben, können Sie mit diesem einfachen Befehl, der sich wie folgt liest, einfach nachträgliche Vorhersagedaten erzeugen
- 01:34die mit dem brm-Paket geliefert wird.
- 01:36Das nennt sich posterior predictive check (pp_check).
- 01:39Sie geben das aktuelle angepasste Modell mit brm ein. Und Sie definieren die Anzahl der simulierten Datenpunkte, die Sie erzeugen
- 01:49Und Sie legen auch die Art der Darstellung fest, die Sie erzeugen möchten.
- 01:52Hier biete ich Ihnen also ein Dichte-Overlay-Diagramm an. Die schwarze Linie
- 01:59sind die beobachteten Daten.
- 02:00Das ist also das Y?
- 02:01Und die blauen Linien, die Sie hier sehen.
- 02:04Dies sind die vom Modell erzeugten Datensätze.
- 02:08Dies war also das ursprüngliche Modell, das wir mit dem einheitlichen 0, 20000 einheitlichen Prior auf den mu-Parameter angepasst haben.
- 02:18Okay.
- 02:19Wir betrachten also die posterioren Verteilungen der Daten unter Berücksichtigung dieser prioren Spezifikationen.
- 02:25Sie sehen, dass das Modell im Grunde genommen vernünftige Daten im Vergleich zu den beobachteten Daten liefert.
- 02:33Dies sind also zukünftige Datensätze, simulierte zukünftige Datensätze, die wir betrachten.
- 02:37Und wenn diese blauen Linien zum Beispiel hier draußen gewesen wären, Sie wissen schon, wenn man nur an einen pathologischen Fall denkt, würde das bedeuten
- 02:45Sie etwas Wichtiges über das Modell, dass die beobachteten Daten und die zukünftigen Daten scheinbar keine Verbindung zueinander haben
- 02:51Sonstiges.
- 02:52Okay, das sind also schlechte Nachrichten und das bedeutet, dass mit diesem Modell etwas nicht stimmt.
- 02:57Sie müssten also zurückgehen und darüber nachdenken, wie Sie dieses Modell korrigieren können.
- 03:00Okay.
- 03:01Aber in diesem Fall sind wir in der glücklichen Lage, dass unsere posterioren Vorhersagedaten wunderbar passen, ziemlich gut mit
- 03:09die beobachteten Daten.
- 03:10Es ist etwas mehr verteilt.
- 03:12Sie sehen dies hier.
- 03:14Die vorhergesagten Daten weisen eine größere Streuung auf.
- 03:17Deshalb ist es hier flacher, aber die allgemeine Form ist hier ähnlich.
- 03:22Was passiert also, wenn ich diese sehr weit gefassten, uninformativen Prioritäten verwende?
- 03:26Ich erhalte hier eine ziemlich ähnliche Anpassung mit den ähnlichen vorhergesagten Daten.
- 03:30Warum ist das so?
- 03:31Der Grund dafür ist, dass ich eine Menge Daten habe und die Prioritäten daher keinen großen Einfluss auf die Ergebnisse haben.
- 03:38vorhergesagte Daten, die ich erhalte.
- 03:40Hätte ich sehr spärliche Daten, sähe die Geschichte vielleicht anders aus.
- 03:43Okay, wenn ich informativere Prioren verwende, erinnern Sie sich an den informativen Prior aus der vorherigen Vorlesung, dann sehen Sie
- 03:51dass sich die Verteilung ein wenig nach rechts verschiebt.
- 03:54Ich habe Ihnen vorhin gezeigt, dass es auch im hinteren Bereich eine leichte Verschiebung nach rechts gibt.
- 03:59Aber die Daten sind auch leicht nach rechts verzerrt, was auf den Einfluss des Priors zurückzuführen ist.
- 04:04Jetzt das informative Prior hier.
- 04:06Und noch einmal: Wenn ich den Prioritätswert erhöhe, bedeutet das, dass ich die Standardabweichung ein wenig größer mache.
- 04:10Auch hier erhalte ich eine etwas größere Streuung und eine Überlappung mit den beobachteten Daten.
- 04:16Im Grunde genommen zeigt mir diese Art der nachträglichen Vorhersageprüfung, dass alle vier Prioritäten vernünftig sind
- 04:28in dem Sinne, dass sie keinen großen Einfluss auf das Posterior haben, also das Posterior der Parameter.
- 04:35Und ich sehe auch, dass in den posterioren prädiktiven Daten, die ich aus dem Modell unter verschiedenen Prior-Spezifikationen erzeuge
- 04:42Auf diese Weise können Sie also die Eigenschaften Ihres Modells für zukünftige Daten verstehen, insbesondere in Bereichen wie der Psychologie
- 04:50und Linguistik, wo wir sehr an der Replikation von
- 04:56unsere experimentellen Ergebnisse. Die Replikation ist ein sehr wichtiger Teil der Wissenschaft.
- 05:02Was wir also verstehen wollen, wenn wir einen bestimmten Datensatz haben, ist, ob das Modell, das wir gewählt haben
- 05:09für diesen Datensatz, ob dieses Modell in Zukunft Daten produzieren wird, die zumindest die Daten widerspiegeln, die wir haben.
- 05:19Das ist keine besonders große Leistung, denn offensichtlich konditionieren wir die Daten, die wir bereits haben.
- 05:25Es sollte Sie also nicht überraschen, dass wir in diesem speziellen Fall ziemlich nah an den beobachteten Daten liegen, aber es ist immer noch ein
- 05:32gute Überprüfung der Vernunft.
- 05:33Und das gibt Ihnen eine Vorstellung von der Angemessenheit der Beschreibung dieses Modells.
- 05:38Aus der Perspektive der statistischen Modellierung ist dies also eine sehr nützliche Sache, die Sie tun können. Übrigens können Sie das auch mit einem frequentistischen
- 05:45Modell auch, aber die Leute machen es einfach nicht.
- 05:47Aber im Rahmen der Bayes'schen Modellierung ist dies ein Standardbestandteil des Arbeitsablaufs bei der Datenanalyse.
- 05:54Okay, also
- 05:57Zusammenfassend haben wir uns die prädiktiven Verteilungen angesehen, die auch eine Diagnose sind, um zu verstehen
- 06:04wie sich das Modell verhält, bevor es irgendwelche Daten gesehen hat.
- 06:08Aber wir haben uns auch die posterioren prädiktiven Verteilungen angesehen, die uns sagen, was das Modell für die zukünftige Datenaufbereitung vorhersagt
- 06:15zu den Daten, die wir tatsächlich beobachtet haben.
- 06:17Dies sind alles Diagnoseinstrumente, um zu verstehen, wie das Modell funktioniert und was die Vorhersagen und Annahmen des Modells
- 06:24in Bezug auf die beobachteten Daten richtig sind.
- 06:28Ich würde also vorschlagen, dass Sie nicht während dieses Kurses, aber irgendwann in der Zukunft von der Lektüre
- 06:37Kapitel sechs und Kapitel sieben, in denen ich oder wir diese Ideen viel ausführlicher mit vielen weiteren Beispielen diskutieren.
- 06:45Die Beispiele helfen Ihnen, die Bedeutung dieser Schritte zu verstehen, nämlich die Berechnung der prioren und posterioren prädiktiven Verteilungen
- 06:53im Zuge der Datenanalyse.
- 06:55Okay.
- 06:58Jetzt zeige ich Ihnen ein anderes Modell für dieselben Daten, bei dem anstelle der normalen Wahrscheinlichkeit, die ich Ihnen gezeigt habe, Folgendes gilt
- 07:09etwas fragwürdig wegen der Schieflage der Daten.
- 07:12Ich werde eine alternative Wahrscheinlichkeit verwenden, nämlich die lognormale Wahrscheinlichkeit.
- 07:17Das ist die nächste Vorlesung
To enable the transcript, please select a language in the video player settings menu.