Dieses Video gehört zum openHPI-Kurs Introduction to Bayesian Data Analysis. Möchten Sie mehr sehen?
Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.
Scroll to current position
- 00:00Was ich Ihnen beim letzten Mal gezeigt habe, war ein sehr einfaches Modell, das wir zur Modellierung von Lesezeiten oder Reaktionszeiten verwenden werden, in diesem
- 00:08im Falle einer Aufgabe zum Drücken einer Taste.
- 00:10Das Modell sieht in etwa so aus: Wir haben für jeden der n Datenpunkte die Annahme, dass die Daten aus
- 00:17aus einer Normalverteilung mit einem Mittelwert mu und einer Standardabweichung sigma.
- 00:21Dies ist also ein sehr einfaches lineares Modell, das man auf diese Art von Daten anwenden könnte.
- 00:27Diese Art von Modell haben Sie sicher schon einmal gesehen.
- 00:29Wenn Sie sich schon einmal mit linearer Modellierung beschäftigt haben, haben Sie diese Aussage vielleicht schon einmal in dieser Form gesehen.
- 00:33Die Ablesezeiten sind also eine Funktion eines Abschnitts und es gibt ein gewisses Restrauschen.
- 00:38Aber das Restrauschen stammt aus einer Normalverteilung mit dem Mittelwert Null und der Standardabweichung sigma.
- 00:43Diese beiden Dinge sind dasselbe Modell.
- 00:45Das sind nur zwei Arten, das gleiche Modell zu schreiben, und es ist üblich, zu schreiben, dass die Restfehler unabhängig und identisch sind
- 00:51verteilt.
- 00:52Das ist eine Annahme des linearen Modells.
- 00:54Das einfache lineare Modell.
- 00:56Also, was nimmt dieses Modell eigentlich an?
- 01:00Nun, zunächst einmal wird davon ausgegangen, dass die Daten aus einer Normalverteilung stammen.
- 01:03Es wird auch angenommen, dass es einen unbekannten Parameter mu und einen unbekannten Parameter sigma gibt.
- 01:10Dieses Sigma wird das Rauschen in diesem Prozess darstellen.
- 01:14Das Ausmaß der Variabilität um diesen Mittelwert mu. Aber das sind die beiden unbekannten Parameter in diesem Modell.
- 01:21Und natürlich gehen wir davon aus, dass das Rauschen, das wir hier als Rückstand bezeichnen, normal verteilt ist und den Mittelwert Null hat.
- 01:29Das bedeutet, dass es einen Mittelwert von mu und ein Gaußsches Rauschen um diesen Wert herum gibt.
- 01:33Genau das ist dieses Modell.
- 01:34Okay.
- 01:35Wenn ich also ein standardmäßiges frequentistisches Modell in R verwenden würde, wie würde ich das tun?
- 01:41Ich würde die Funktion lm verwenden und rt als abhängige Variable verwenden.
- 01:45Und das hier ist der Intercept, der im Rahmen der linearen Modellierung.
- 01:50Das ist die Schätzung von mu, die ich erhalten werde, und dies ist der Datenrahmen, den ich verwende.
- 01:55Wenn ich also dieses Modell anpasse und mir die Ergebnisse dieses Modells ansehe, konzentriere ich mich nur auf die Koeffizienten, Sie wissen schon, den Intercept
- 02:01die ich von dem Modell erhalte, erhalte ich einen Mittelwert von ungefähr 168 Millisekunden.
- 02:07Und der Restfehler in diesem Modell beträgt etwa 24 Millisekunden.
- 02:11Und wie Sie hier sehen, sind diese beiden Zahlen nur die Maximum-Likelihood-Schätzungen aus den Daten.
- 02:18Ich hätte auch einfach den Mittelwert dieses Vektors der Lesezeiten berechnen können und hätte genau die gleiche Zahl wie den Intercept erhalten.
- 02:25Das ist die Bedeutung des Achsenabschnitts. Er gibt den Mittelwert der Daten und die Standardabweichung an
- 02:30Ich hätte hier auch von Hand rechnen können, indem ich einfach die SD berechnet hätte.
- 02:33Sie sehen also, dass diese beiden Zahlen genau gleich sind.
- 02:36Das lineare Modell liefert Ihnen also im Grunde zwei Maximum-Likelihood-Schätzungen, eine für den Achsenabschnitt von mu, das ist
- 02:44mu hat.
- 02:45Und es gibt Ihnen auch eine Schätzung von Sigma Hut.
- 02:50Das sind also die Schätzungen für die beiden Parameter in diesem Modell.
- 02:53Sehr einfach.
- 02:54In der Bayes'schen Welt haben wir nicht nur die Maximum-Likelihood-Schätzungen.
- 02:59Wir werden Prioritäten für die Parameter mu und sigma definieren.
- 03:07Denn für uns als Bayesianer sind dies keine unbekannten Punktwerte da draußen in der Natur.
- 03:12Diese sind mit Prioritätsverteilungen versehen.
- 03:15Sogar die Parameter in einem Bayes'schen Rahmenwerk haben eine Wahrscheinlichkeitsdichtefunktion, die mit ihnen verbunden ist.
- 03:21Das ist die vorherige Verteilung.
- 03:23Okay, das steht also im krassen Gegensatz zum frequentistischen Ansatz.
- 03:28Okay, ich möchte noch einmal betonen, dass mu und sigma bei der frequentistischen Modellierung unbekannte feste Werte wären.
- 03:35Werte da draußen in der Natur.
- 03:36Das ist eine sehr große Abweichung von dieser Annahme.
- 03:39Okay.
- 03:40Und das hat weitreichende Auswirkungen auf die Datenanalyse, wie ich Ihnen später zeigen werde.
- 03:46Wie sieht dieses Modell nun im Bayes'schen Rahmen aus? Im Bayes'schen Rahmen müssen Sie einen Prior definieren.
- 03:53für jeden Parameter.
- 03:54Okay, für mu habe ich beschlossen, einen sehr interessanten Prior zu nehmen.
- 04:01Okay, dieser Prior ist also ein einheitlicher Prior, d.h. er nimmt an, dass jeder Wert zwischen null Millisekunden und 60.000 Millisekunden
- 04:12Also 60 Sekunden.
- 04:13Okay, sie sind alle gleich wahrscheinlich, gleich wahrscheinlich.
- 04:18Okay, und bei Sigma gehe ich davon aus, dass alle Werte zwischen null und 2000 Millisekunden gleich wahrscheinlich sind.
- 04:28Ich habe also einfach diese beiden Prioritäten als Ausgangspunkt gewählt.
- 04:32Später werden wir dieses Modell weiter ausarbeiten und einige alternative Prioritäten wählen, die vielleicht mehr Sinn machen.
- 04:37Aber das ist ein guter Ausgangspunkt, um zu veranschaulichen, wie die Maschinerie funktioniert, wie die Berechnungsmaschinerie
- 04:43wird jetzt funktionieren.
- 04:44Außerdem möchte ich darauf hinweisen, dass ich mich nicht darum kümmern muss, ob ich einen konjugierten Prior für die
- 04:52Wahrscheinlichkeit, mit der ich arbeite.
- 04:53Ich kann die Prioritäten wählen, die für mich angemessen sind.
- 04:57Das leuchtet mir ein, und die Berechnungswerkzeuge werden es uns ermöglichen, Stichproben aus dem posterioren Bereich zu erhalten.
- 05:02Aus diesem Grund können wir weit über die konjugierten Fälle hinausgehen.
- 05:06Die einfachen konjugierten Fälle, die wir zuvor hatten.
- 05:09Okay, lassen Sie uns darüber nachdenken, was diese Prioritäten implizieren.
- 05:15Okay,
- 05:19das Modell, das wir mit dem Softwarepaket brms anpassen werden.
- 05:26Es gibt also ein Paket namens brms, das Sie geladen haben müssen, als Sie diesen Kurs begannen.
- 05:32In diesem Paket gibt es eine Funktion namens brm, die die gleiche Syntax hat wie die Funktion lm, die ich Ihnen vorhin gezeigt habe.
- 05:39Okay, der einzige Unterschied besteht darin, dass in dieser Funktionalität ein paar weitere Details hinzugefügt wurden.
- 05:46diese Funktion hier.
- 05:47Wir haben also rt als eine Funktion des Abschnitts.
- 05:49Das ist genau wie das lineare Modell hier ist die Datenspezifikation.
- 05:53Eine wichtige Sache, die in der brm-Funktion hinzugefügt wird, ist die Familie.
- 05:59Diese Aussage, dieser Familien-Gauß, besagt also, dass die Wahrscheinlichkeit, die wir für die Daten annehmen, die
- 06:06normale Wahrscheinlichkeit.
- 06:07Das Synonym für die normale Wahrscheinlichkeit ist die Gaußsche Wahrscheinlichkeit.
- 06:11Das ist der Grund, warum wir hier Gauß haben.
- 06:14Eine weitere Neuerung in dieser Funktion, die es in lm offensichtlich nicht gibt, ist die Angabe der Prioritäten.
- 06:20Sie sehen also, dass es einen Parameter namens prior gibt und ich werde diesem Parameter eine Liste geben und diese
- 06:27Liste haben Sie die Möglichkeit, einen Prior für den neuen Parameter, den Intercept, zu definieren.
- 06:34Und ein Prior für den Parameter sigma.
- 06:37Okay, das sind also die beiden Parameter in diesem Modell.
- 06:40Mir ist aufgefallen, dass ich die Form der Prioritätsverteilung von 0 bis 60.000 Millisekunden angebe.
- 06:46Und ich definiere auch explizit untere und obere Grenzen mit dieser lb und ub Funktion.
- 06:51Dies wird benötigt, um zu verhindern, dass der Probenehmer versehentlich Proben von außerhalb dieses Bereichs nimmt.
- 06:56Das ist nur ein technisches Detail, um das Sie sich im Moment nicht kümmern müssen, aber Sie müssen es bei der Definition von
- 07:02diese Art von Prioritäten, denen Grenzen gesetzt sind.
- 07:06Bei Sigma gehe ich also von einer 0, 2000 prior uniform aus.
- 07:11Und wieder definiere ich dieses Gleichgewicht hier.
- 07:14Das ist also der neue Teil hier.
- 07:17Dies ist ein neuer Teil.
- 07:18Ein weiterer neuer Teil ist dieser Teil hier, den ich kurz erläutern werde.
- 07:22Ich habe also all diese Dinge hier erklärt.
- 07:25Konzentrieren wir uns also auf dieses Thema
- 07:27Teil der Ausgabe, wo wir die Eingabe haben.
- 07:30Entschuldigung, wo Sie Ketten definieren müssen.
- 07:33Wie viele Ketten haben Sie?
- 07:34Der Standardwert in brms ist also vier und Sie müssen auch festlegen, wie viele Iterationen Sie haben wollen.
- 07:39Die Standardeinstellung ist 2000.
- 07:41Außerdem müssen Sie festlegen, wie lange die Aufwärmphase dauern soll. Der Standardwert ist 1000.
- 07:47Okay, Sie könnten also in diesem Befehl tatsächlich alle drei Begriffe weglassen, denn diese
- 07:54sind ohnehin die Standardwerte.
- 07:56Aber lassen Sie mich kurz erklären, was diese Dinge bewirken.
- 07:58Wenn ich also dieses Modell ausführe, erhalte ich ein Objekt, das die posterioren Verteilungen liefert
- 08:06für die beiden Parameter, die Stichproben der posterioren Verteilungen der beiden Parameter.
- 08:12Und die Ketten, die wir in der Ausgabe erhalten.
- 08:17Dies sind im Wesentlichen vier Gruppen von Proben.
- 08:20Vier Sätze unabhängiger Stichproben für jeden Parameter, wie z.B. für den Intercept für den mu-Parameter haben vier unabhängige
- 08:27Vektoren von Proben.
- 08:29Und der Grund, warum wir mehrere Ketten haben.
- 08:32Mehrere Proben, Gruppen von Proben
- 08:35ist, dass wir überprüfen wollen, ob wir durchweg Stichproben aus derselben Verteilung erhalten.
- 08:42Wir wollen also nach Konsistenz in diesen Ketten suchen.
- 08:45Aus diesem Grund gibt es in brms standardmäßig vier Ketten
- 08:50Und das sollten Sie so belassen, das sollten Sie für diese Art von einfachen Modellen nicht ändern.
- 08:55Iterationen bezieht sich auf die Anzahl der Proben, die Sie sammeln werden.
- 09:00Wir werden also 2000 Proben sammeln und das Aufwärmen bezieht sich auf die Tatsache, dass am Anfang, wenn der Probenehmer startet
- 09:07Wenn Sie zu Beginn Stichproben von einem bestimmten Parameter erhalten, ist dieser im realen Zahlenraum verloren.
- 09:15Es weiß nicht, woher die Probe kommen soll.
- 09:17Und diese anfängliche Periode wird als Aufwärmphase bezeichnet.
- 09:20Die Stichprobe nähert sich angesichts der Daten und des Priors schnell der wahren Posterior-Verteilung.
- 09:26Was wir also tun, ist, die Aufwärmphase zu vernachlässigen und sie nicht zu berücksichtigen, denn dann ist die Probe
- 09:34fängt gerade erst an, nach den Mustern für die posteriore Verteilung zu suchen.
- 09:38In anderen Softwarepaketen, wissen Sie, gab es früher diese anderen Pakete, die die Leute manchmal immer noch benutzen
- 09:45Sie haben das WinBUGS-Paket und das JAGS-Paket dort, das Aufwärmen wird Burn-in genannt.
- 09:52Okay, es ist genau das Gleiche.
- 09:53Was Sie also tun sollten, ist vielleicht ein wenig zu lesen, es gibt einen kleinen Abschnitt in Kapitel drei in unserem Lehrbuch über Stichproben
- 10:00und Konvergenz, wo wir ein wenig mehr über diese Dinge sprechen.
- 10:03Was Sie also als Ergebnis der Modellanpassung erhalten.
- 10:06Okay, das ist also eine grafische Zusammenfassung.
- 10:09Wir sehen die posteriore Verteilung des mu-Parameters.
- 10:13Und die posteriore Verteilung des Sigma-Parameters. Auf der rechten Seite,
- 10:17sehen Sie die Ketten, die die 1000 Proben repräsentieren, nachdem die anfängliche Aufwärmphase weggeworfen wurde.
- 10:24Wir haben noch 1000 Proben von jeder Kette.
- 10:28Wenn Sie also alle Daten, alle Proben dieser vier Ketten, zusammenzählen, erhalten wir bei insgesamt 4000 Proben ein visuelles
- 10:36Grafik der Suche des Samplers in der posterioren Verteilung.
- 10:39Dies zeigt also, dass die meisten Stichproben aus diesem Bereich stammen.
- 10:45Und gelegentlich gibt es ein paar seltene Proben von 172 und 166 und so weiter.
- 10:51Diese Art von Plot wird als Raupenplot bezeichnet.
- 10:55Und das zeigt Ihnen, dass die Ketten übereinander liegen.
- 11:02In der Bayes'schen Statistik sehen wir also, dass dieses Diagramm eine fette, haarige Raupe ist.
- 11:09Wenn Sie also eine fette, haarige Raupe erhalten, bedeutet das, dass alle Ketten konsequent aus derselben Verteilung auswählen
- 11:16Das ist also eine gute Ausgangssituation. Später im Lehrbuch,
- 11:20werden Sie feststellen, dass es einige pathologische Fälle gibt, in denen Sie diese Art von fetten haarigen Raupen nicht sehen können.
- 11:27Eine der Ketten geht in eine Richtung, die andere in eine andere Richtung.
- 11:31Es ist nicht möglich, eine konsistente Stichprobe aus der Nachkommenschaft zu ziehen.
- 11:34Das ist also eine schlechte Situation und wird als Konvergenzfehler bezeichnet.
- 11:37Und darüber können Sie später mehr lesen.
- 11:40Aber im Moment sehen wir uns ziemlich einfache Modelle an.
- 11:43Wir werden also ohnehin keine Konvergenzprobleme haben. Konzentrieren wir uns also einfach auf die Posterior-Verteilung,
- 11:50was wir daraus lernen können.
- 11:51Okay, eine Sache, die Sie jetzt zu Hause ausprobieren sollten, ist die Installation dieser shinystan-Bibliothek und dann geben Sie einfach launch_shinystan ein
- 12:00nach der Anpassung dieses Modells und sehen Sie sich dann an, was passiert.
- 12:03Sie werden viel Spaß haben, wenn Sie sich die posterioren Verteilungen und andere Statistiken des Modells ansehen.
- 12:09Es ist also eine sehr nützliche Übung.
- 12:11Probieren Sie es einfach aus.
- 12:11Okay.
- 12:13Na gut.
- 12:13Was ist also dieses Modell, das wir gerade angepasst haben?
- 12:16Wir können die posterioren Verteilungen auch als Vektoren extrahieren.
- 12:20Hier ist also der Vektor für den Achsenabschnitt und hier ist der für das Sigma.
- 12:24Diese beiden
- 12:25Ich werde das jetzt ignorieren.
- 12:26Darüber brauchen wir uns im Moment keine Gedanken zu machen.
- 12:27Okay.
- 12:28Ich kann also aus dem Posterior für den mu-Parameter den Intercept-Parameter extrahieren.
- 12:35Ich kann den Mittelwert berechnen und ich kann das 95% Glaubwürdigkeitsintervall berechnen.
- 12:39Das ist es, was ich hier gemacht habe.
- 12:41Dies würde ich also in einem Artikel berichten.
- 12:43Wenn ich dies als Analyse durchführen würde, um sie irgendwo zu veröffentlichen, würde ich den Mittelwert und das 95%ige Glaubwürdigkeitsintervall angeben.
- 12:49Das sagt mir so ziemlich alles, was ich über diesen Parameter wissen muss.
- 12:53Nachdem ich die Daten gesehen habe, könnte ich das Gleiche für sigma tun.
- 12:57Hier ist also Sigma.
- 12:58Ich habe also den Mittelwert und das 95%-Glaubwürdigkeitsintervall für all diese Daten berechnet.
- 13:01Das Endergebnis dieser Analyse ist also, dass ich weiß, dass ich die Daten gesehen habe und dass ich einige Vorannahmen getroffen habe.
- 13:08Ich weiß, wie groß die Unsicherheit bei den Parametern ist, die ich im Modell habe, und ich kann daraus meine Schlüsse ziehen.
- 13:16Okay, als Nächstes möchte ich zwei sehr wichtige Konzepte erörtern. Das erste ist die Betrachtung der prädiktiven Verteilungen
- 13:24und die zweite ist die posteriore prädiktive Verteilung.
- 13:27Diese werden also in den nächsten Vorlesungen auftauchen
To enable the transcript, please select a language in the video player settings menu.