Dieses Video gehört zum openHPI-Kurs Introduction to Bayesian Data Analysis. Möchten Sie mehr sehen?
Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.
Scroll to current position
- 00:01Wir haben die Grundlagenarbeit hinter uns.
- 00:03Jetzt werden wir uns die Bayes-Regel ansehen und einige einfache Analysen durchführen, um eine Vorstellung davon zu bekommen, wie
- 00:12Die Bayes'sche Regel funktioniert in der Praxis bei der Datenanalyse.
- 00:15Lassen Sie mich zunächst kurz die Bayes'sche Regel definieren. Die Bayes-Regel ergibt sich einfach aus der Definition der bedingten Wahrscheinlichkeit
- 00:22die ich Ihnen vorhin gezeigt habe.
- 00:23Nehmen wir also an, Sie haben zwei diskrete Ereignisse.
- 00:26Dies könnten also Ereignisse sein wie, A
- 00:29könnte so etwas sein wie "die Straßen sind nass", und B könnte so etwas sein wie "es regnet".
- 00:39Es könnte also einige diskrete Ereignisse geben, über die wir hier sprechen.
- 00:41Die bedingte Wahrscheinlichkeit für solche diskreten Ereignisse wird in der Wahrscheinlichkeitstheorie mit Hilfe dieser Gleichung definiert, die ich
- 00:49hat Ihnen vorhin auch gezeigt.
- 00:50Diese Gleichung besagt, dass die bedingte Wahrscheinlichkeit, dass A einen bestimmten Wert von B annimmt, gleich der
- 01:00gemeinsame Wahrscheinlichkeit von A und B.
- 01:02Erinnern Sie sich an die gemeinsame Wahrscheinlichkeit, die Massenfunktionen und die Wahrscheinlichkeitsdichtefunktionen, über die ich gesprochen habe?
- 01:07Das ist es, worüber wir hier diskutieren.
- 01:09Dividiert durch die marginale Wahrscheinlichkeit für diesen bestimmten Wert von B.
- 01:17Im diskreten Fall können wir dies also leicht berechnen.
- 01:19Und in der Tat können Sie dies auch für viele interessante Anwendungen nutzen.
- 01:25Aber was ich Ihnen hier zeigen möchte, ist, dass diese Regel der bedingten Wahrscheinlichkeit zur Bayes-Regel führt.
- 01:31Daraus können Sie einfach die Bayessche Regel ableiten.
- 01:34Wir müssen also zunächst feststellen, dass Sie diese Gleichung 1 in Form der gemeinsamen Wahrscheinlichkeit umschreiben können.
- 01:43Die gemeinsame Wahrscheinlichkeit von A und B ergibt sich also aus diesem Term multipliziert mit dem Nenner hier.
- 01:48Die Wahrscheinlichkeit für ein gegebenes B mal die Wahrscheinlichkeit für B.
- 01:52Das ist nur eine einfache Umformung dieser Gleichung in Bezug auf die Wahrscheinlichkeit von A
- 01:59und B auf der einen Seite und der Rest der Begriffe auf der anderen Seite.
- 02:02Aber hier ist eine weitere coole Sache.
- 02:05Die sehr interessante Beobachtung ist also, dass die Wahrscheinlichkeit von B und A die gleiche ist wie die von A und B.
- 02:13Die gemeinsamen Wahrscheinlichkeiten ändern sich nicht, je nachdem, ob Sie zuerst A oder zuerst B schreiben.
- 02:19Weil sie aus demselben Distrikt stammen, in dem sie gemeinsam verteilt werden.
- 02:23Das ist also sehr interessant, warum? Denn wenn ich die gemeinsame Wahrscheinlichkeit von B und A aufschreibe, dann würde ich das folgendermaßen erweitern
- 02:33Formel.
- 02:33Ich würde das erweitern, indem ich die A's und B's umkehre, denn statt A
- 02:37und B hier, ich habe A und B.
- 02:39Ich habe hier B und A.
- 02:41Ich schreibe also die gemeinsame Wahrscheinlichkeit von B
- 02:43und A.
- 02:44Ist die Wahrscheinlichkeit von B bei A mal die Wahrscheinlichkeit von A.
- 02:50Aber das Seltsame ist, dass dieser Term genau dasselbe ist wie die Wahrscheinlichkeit von A
- 02:55und B.
- 02:56Und wie lässt sich das erweitern? Das erweitert sich zu diesem Begriff hier.
- 02:59Die Wahrscheinlichkeit von A bei B mal die Wahrscheinlichkeit von B.
- 03:02Interessant ist also, dass Sie sich auf den mittleren Teil dieser Gleichung konzentrieren sollten.
- 03:07Diese beiden Begriffe sind gleichwertig.
- 03:09Und das bedeutet, dass ich berechnen kann, das ist der erstaunliche Moment in diesem Kurs.
- 03:14Eigentlich kann ich die Wahrscheinlichkeit von B bei A berechnen, wenn ich alle anderen Informationen habe, die ich habe.
- 03:21Indem Sie beide Seiten durch die Wahrscheinlichkeit von A teilen.
- 03:24Ich kann also diese Regel aufstellen: Die Wahrscheinlichkeit von B bei A ist gleich der Wahrscheinlichkeit von A bei B mal
- 03:32die Wahrscheinlichkeit von B geteilt durch die Wahrscheinlichkeit von A. Dies ist eine klare Folge dieser bedingten Wahrscheinlichkeitsregel.
- 03:38Es ist also nicht umstritten und es gibt hier nichts zu diskutieren.
- 03:42Das ergibt sich einfach aus der Regel der bedingten Wahrscheinlichkeit.
- 03:45Und dies wird Bayes' Regel genannt.
- 03:47Und das Erstaunliche an dieser Regel ist, dass sie es uns ermöglicht, sehr komplexe Datenanalysen durchzuführen, und zwar einfach
- 03:57mit dieser einfachen Gleichung 3 in kontinuierlicher Einstellung.
- 04:03Okay, das werde ich also in den folgenden Vorlesungen besprechen.
- 04:06Wir können die Bayes-Regel jetzt also in Form von Wahrscheinlichkeitsverteilungen umschreiben.
- 04:12Okay, im Moment habe ich also nur über diskrete Ereignisse gesprochen.
- 04:16Okay, das waren also tatsächlich diskrete Ergebnisse
- 04:18wo man Wahrscheinlichkeiten berechnen kann, und Sie haben wahrscheinlich schon viele, Sie wissen schon, ein kleines Spielzeugproblem gesehen, das man
- 04:25sieht in der Wahrscheinlichkeitstheorie, dass man die Wahrscheinlichkeit berechnen kann, eine Krankheit zu haben, wenn man positiv getestet wurde
- 04:32dafür oder so.
- 04:32Sie haben diese Art von Beispielen vielleicht schon in früheren Arbeiten gesehen.
- 04:37Dies ist die Gleichung, mit der sie das berechnet haben.
- 04:41Die Bayes'sche Regel für den diskreten Fall.
- 04:43Aber im wirklichen Leben, wenn Sie Datenanalysen durchführen, arbeiten wir im Allgemeinen mit mehreren Variablen
- 04:52Ausschüttungen.
- 04:53Wir haben jede Menge Parameter und arbeiten auch mit kontinuierlichen Daten.
- 04:59Dies ist eine sehr häufige Situation.
- 05:01Wir können also die Bayes-Regel in Form von Wahrscheinlichkeitsverteilungen umschreiben, anstatt diese diskreten Wahrscheinlichkeiten hier, diese
- 05:09ist eine diskrete Wahrscheinlichkeitsverteilung.
- 05:11Und auch dies
- 05:13Ich kann diese Gleichung nun umformen.
- 05:16Verwenden Sie dieselbe Gleichung.
- 05:18Ich habe gerade die Variablen geändert.
- 05:19Was ich hier also geändert habe, anstatt B gegeben A zu schreiben.
- 05:23Ich habe die Wahrscheinlichkeit von θ geschrieben.
- 05:25Das ist nicht die Wahrscheinlichkeit, sondern die Dichte von θ bei y.
- 05:29Und hier habe ich die gleichen Terme, die ich hatte, statt A und B habe ich y und θ.
- 05:35Okay, lassen Sie uns diese Gleichung auspacken und versuchen zu verstehen, was sie wirklich aussagt.
- 05:41Wann immer ich also f etwas sage, beziehe ich mich auf eine Wahrscheinlichkeitsdichtefunktion.
- 05:46Okay, ich spreche nicht von der Wahrscheinlichkeit eines einzelnen Ereignisses.
- 05:48Erinnern Sie sich an diese Diskussion.
- 05:50Mit kontinuierlichen Verteilungen.
- 05:52Der erstaunliche Schritt, der sehr radikal ist, besteht darin, dass wir eine Wahrscheinlichkeitsdichtefunktion für unsere
- 06:02Parameter.
- 06:04Okay, der Parameter hat eine Wahrscheinlichkeitsdichtefunktion, die mit ihm verbunden ist.
- 06:08Das bedeutet, dass es sich ebenfalls um eine Zufallsvariable handelt.
- 06:11Dies ist ein radikaler Schritt im Vergleich zu dem, was in der frequentistischen Welt, in der frequentistischen Methodik der Datenanalyse geschieht
- 06:20Der Parameter θ ist zum Beispiel bei Binomialverteilungen ein unbekannter Punktwert.
- 06:26Es ist keine Verteilung mit ihr verbunden.
- 06:29Das ist nur ein Punktwert da draußen.
- 06:31Und unsere Aufgabe als Analysten ist es, diesen Punktwert anhand der uns zur Verfügung stehenden Daten zu schätzen, nicht so die Bayes'schen Methoden. Bei den Bayes'schen
- 06:39Methodik ist der Parameter θ eine Zufallsvariable.
- 06:43Es ist eine PDF (Wahrscheinlichkeitsdichtefunktion) damit verbunden.
- 06:45Okay, das ist also eine Idee
- 06:46Ich werde jetzt in ein paar Minuten auspacken.
- 06:49Ein weiterer wichtiger Punkt in dieser Gleichung ist der Nenner hier.
- 06:53Dieser Nenner f(y).
- 06:56Was ist das?
- 06:57Was ist also y?
- 06:58y sind die Daten, die wir haben, z.B. die Lesezeiten, die Anzahl der erfolgreichen Münzwürfe bei 10 Münzwürfen
- 07:05und so weiter.
- 07:06Sie wissen schon, es könnte alles sein
- 07:07Das ist es also, was ich mit den Daten hier meine.
- 07:09Was bedeutet also f(y)
- 07:11Aber dieses f(y) in dieser Gleichung hier, schauen Sie sich zunächst einmal die linke Seite dieser Gleichung an.
- 07:18Diese linke Seite liefert Ihnen die Wahrscheinlichkeitsdichtefunktion von θ.
- 07:24Der Parameter θ angesichts Ihrer beobachteten Daten.
- 07:28Es handelt sich also tatsächlich um eine Wahrscheinlichkeitsdichtefunktion.
- 07:32Und damit dieser rechte Term eine richtige Wahrscheinlichkeitsdichtefunktion ist, brauchen Sie eine Normalisierungskonstante.
- 07:40Wo liegt also die Normalisierungskonstante?
- 07:42Das ist der Typ hier, f(y) ist die normalisierende Konstante, die ich bereits in früheren Vorlesungen besprochen habe?
- 07:50Dieser Teil macht also aus der linken Seite, der pdf für θ, bei gegebenem y, eine
- 07:59eine richtige Wahrscheinlichkeitsdichtefunktion.
- 08:01Das bedeutet, dass die Fläche unter der Kurve gleich eins ist.
- 08:03Das ist es, was dieser Nenner macht.
- 08:06Und die Art und Weise, wie wir diesen Nenner berechnen, ist, indem wir die gemeinsame Verteilung von y und θ wie diese ganz abstrakt nehmen.
- 08:13Aber ich werde das in einer Minute sehr konkret machen.
- 08:15Okay, versuchen Sie also, die Intuition dahinter zu verstehen, und dann werde ich es anhand eines sehr konkreten Beispiels erklären
- 08:22wie das funktioniert.
- 08:23Sie nehmen also die gemeinsame Verteilung von θ und y
- 08:26Und Sie integrieren die θ
- 08:29Was bedeutet das also?
- 08:31Wenn Sie sich an die Regel der bedingten Wahrscheinlichkeit erinnern, die ich Ihnen vorhin gezeigt habe, können Sie diese gemeinsame Verteilung in Form von
- 08:37dieser Begriffe hier.
- 08:40Das habe ich vorhin schon gezeigt.
- 08:41Ich lese das einfach so, dass die bedingte Verteilung von y bei θ mal f(θ)
- 08:48Damit habe ich also eine bestimmte Zahl.
- 08:51Das ist eine Konstante.
- 08:52Es handelt sich um eine normalisierende Konstante, die die Fläche unter der Kurve so verändert, dass sie in der Summe eins ergibt.
- 08:58Okay, also, aber dieses Integral ist sehr, erstens ist es sehr beängstigend anzusehen.
- 09:04Und zweitens, ich meine, wir haben vielleicht keine Ahnung, wie wir das Problem lösen können.
- 09:09Weil wir vergessen haben, wie man Integrale macht, oder weil Sie sie vielleicht nie gelernt haben.
- 09:14Das macht also nichts, denn ich würde Ihnen die Intuition anhand eines diskreten Beispiels zeigen.
- 09:19Okay.
- 09:19Stellen wir uns also einen diskreten Fall vor, in dem wir eine Zufallsvariable haben, die der Parameter θ ist.
- 09:29Und diese Zufallsvariable hat einige diskrete Werte, die mit ihr verbunden sind.
- 09:34Sie könnten also einen Wahrscheinlichkeitsparameter im Binomialsystem mit diskreten möglichen Werten wie 0.1, 0.5 und 0.9 haben
- 09:42Das ist also ein diskreter Fall.
- 09:44Sie können also den θ-Parameter berechnen, indem Sie die binomiale Wahrscheinlichkeitsmassenfunktion multiplizieren
- 09:54mit jeder dieser Wahrscheinlichkeiten von jedem dieser θ.
- 09:58Ich werde das jetzt anhand eines Beispiels erklären, aber dieser Prozess ist das, was wir in diesem Beispiel hier tun und das
- 10:07wird als Integration außerhalb der Parameter bezeichnet.
- 10:09Sie werden diesen Begriff sehr oft in der Bayes'schen Analyse hören und er ist ein sehr obskurer Begriff.
- 10:14Es ist nicht ganz klar, was das wirklich bedeutet, aber ich werde Ihnen jetzt zeigen, was genau die Integration außerhalb der Parameter bedeutet
- 10:20und der Grund, warum ich Ihnen das zeige, ist der, dass ich Ihnen zeigen möchte, dass diese Integration möglich ist.
- 10:26Zumindest in einfachen Fällen kann dieses Integral leicht berechnet werden.
- 10:31Lassen Sie uns dies anhand eines Beispiels verdeutlichen.
- 10:33Was bedeutet es, außerhalb des Parameters zu integrieren?
- 10:35Was bedeutet es, diese Berechnung in einem diskreten Fall durchzuführen?
- 10:38Okay.
- 10:39Denken Sie also an den Fall, dass Sie 10 Versuche oder den binomischen Fall (diskreter Fall) mit sieben Erfolgen haben.
- 10:46Und die Wahrscheinlichkeitsfunktion, die wir haben, ist diese Binomialfunktion.
- 10:50Es ist eine Funktion von θ.
- 10:52Deshalb nenne ich es eine Likelihood-Funktion.
- 10:54Alles andere ist jetzt behoben, 10 und 7 sind behoben.
- 10:56Diese Funktion ist jetzt also eine Funktion von θ.
- 11:00Und nehmen wir an, dass es nur drei mögliche Werte für θ gibt: 0,1, 0,5 und 0,9, und jeder dieser drei Werte
- 11:10möglichen Werte hat eine Wahrscheinlichkeit von 1/3.
- 11:13Die Gesamtwahrscheinlichkeit muss sich also auf eins summieren.
- 11:16Deshalb habe ich es hier mit 1/3 angegeben.
- 11:18Ich habe hier also etwas Radikales getan und den Parameter θ im Binomialsystem als Zufallsvariable betrachtet
- 11:25Sie hat eine Wahrscheinlichkeits-Massenfunktion.
- 11:28Dies ist eine diskrete Verteilung von θ.
- 11:30Okay, jetzt habe ich die Wahrscheinlichkeiten für jedes dieser drei möglichen Ergebnisse: 0,1, 0,5 und 0,9
- 11:38Ich werde diese Regel jetzt einfach implementieren.
- 11:41Ich multipliziere diese Wahrscheinlichkeit einfach mit der Wahrscheinlichkeit für jeden der möglichen Werte von θ.
- 11:46Und siehe da, was ich bekomme, ist eine Summierung.
- 11:50Okay, eine Summierung von θ1.
- 11:52θ2.
- 11:53θ3 mit den Wahrscheinlichkeiten für θ1 multipliziert.
- 11:56θ2.
- 11:57θ3.
- 11:57Lassen Sie mich also nachrechnen.
- 11:59Ich führe einfach die Berechnungen durch.
- 12:01Das ist alles ziemlich einfach.
- 12:03Und Sie erhalten diese Zahl: 0.0581973
- 12:06Dies ist die Normalisierungskonstante in diesem speziellen Fall.
- 12:10Das ist das f(y), das ich Ihnen im Nenner der Gleichung mit der Bayes'schen Regel gezeigt habe.
- 12:18Und übrigens, cool, dass Sie dies mit der Funktion "dbinom" in einer einzigen Zeile berechnen können.
- 12:24Das ist der große Vorteil, wenn man die dpqr-Funktionsfamilie kennt: Sie können die Verbindung zwischen diesen theoretischen
- 12:31Ideen und deren tatsächliche Umsetzung in der Praxis.
- 12:35Sie erhalten also die gleiche Zahl.
- 12:36Okay, dieser Prozess des Integrierens ohne Parameter liefert uns den Nenner der Bayes-Regel und der ist eine Konstante.
- 12:43Wir können es also eigentlich vergessen.
- 12:45Denn wir können die Konstante jederzeit ausrechnen, wie ich es Ihnen vorhin gezeigt habe.
- 12:48Und deshalb finden Sie in vielen Lehrbüchern diese Formel für die Bayes'sche Datenanalyse, in der Sie ein Proportionalitätszeichen sehen
- 12:58anstelle des Gleichheitszeichens.
- 13:00Wir haben hier also den Nenner weggelassen.
- 13:03Und warum?
- 13:04Weil es eine Konstante ist.
- 13:06Ich spreche also davon, dass die posteriore Verteilung von θ bei y eine Funktion der Wahrscheinlichkeit und des Priors ist.
- 13:16Das werde ich natürlich in ein paar Minuten auspacken.
- 13:18Aber das alles beruht auf der Bayes'schen Regel, die ich Ihnen bereits gezeigt habe.
- 13:21Es ist also proportional zu diesen Termen hier und ich muss nur zwei Wahrscheinlichkeitsdichtefunktionen der Wahrscheinlichkeitsmasse multiplizieren
- 13:29Funktionen, Das ist alles, was ich jetzt tun muss.
- 13:31Was bedeutet es also, zwei Verteilungen zu multiplizieren?
- 13:34Dies scheint eine wirklich obskure Sache zu sein, aber ich werde Ihnen zeigen, dass es tatsächlich überraschend einfach ist, zumindest in den einfachen Fällen
- 13:40die ich jetzt ausarbeiten werde.
- 13:42Aber was wir als Ergebnis dieser Berechnung erhalten, wird eine Posterior-Verteilung für θ sein, da sie möglicherweise nicht
- 13:50eine korrekte Verteilung, da die Fläche der Kurve möglicherweise nicht die Summe eins ergibt, aber das können wir ausrechnen.
- 13:55Wie ich Ihnen bereits gezeigt habe, können wir das ausrechnen.
- 13:57Wir werden uns jetzt ein sehr konkretes Beispiel ansehen, bei dem ich eine Wahrscheinlichkeit nehme, die
- 14:07eine Priorität für den Parameter, multiplizieren Sie sie.
- 14:10Durch eine einfache Multiplikation erhalte ich den Posteriorwert für den interessierenden Parameter und das ist die Bayes-Regel in
- 14:17Aktion.
To enable the transcript, please select a language in the video player settings menu.