Dieses Video gehört zum openHPI-Kurs Künstliche Intelligenz und maschinelles Lernen für Einsteiger. Möchten Sie mehr sehen?
Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.
Scroll to current position
- 00:00Ein weiteres Thema, welches uns auch sehr wichtig ist, erneut zu betonen, ist die Wichtigkeit der Daten und die Rolle von Daten in Machine Learning.
- 00:07Zwar haben wir Aspekte bereits an einigen Stellen erwähnt, dennoch wollen wir das hier noch einmal im Detail betrachten und weitere Punkte ergänzen.
- 00:16Ganz generell gibt es folgende Schwierigkeiten: Welche Daten haben wir zur Verfügung? Haben wir genug Daten?
- 00:24Haben wir die Daten richtig vorverarbeitet? Gibt es Veränderungen in den Daten, zum Beispiel in Form von Data Drifts? Sind die Daten, die wir haben, repräsentativ?
- 00:34Machine Learning bietet schließlich nicht immer einen Mehrwert, nur weil wir Machine Learning auf Daten anwenden, heißt das lange nicht, dass daraus auch etwas Intelligentes entsteht.
- 00:44Es kommt dabei sehr stark auf die richtige Vorverarbeitung, die richtige Menge und die Aussagekraft der Daten an.
- 00:51Gibt es eben diese Aussagekraft der Daten nicht, so kann auch der reine Einsatz von Machine Learning nichts daran ändern.
- 00:59Ein wichtiger Punkt am Anfang des Machine-Learning-Projektes ist die Datenerhebung.
- 01:06Haben wir repräsentative Daten, also Daten, die in ihren Eigenschaften mit der Gesamtheit übereinstimmen, die wir untersuchen wollen?
- 01:14Entsprechen die Daten der Realität oder haben wir gewisse Effekte oder Befangenheiten, im Englischen Bias?
- 01:21Befangenheit oder fehlende Objektivität bei der Datenerhebung ist ein kritischer Punkt.
- 01:28Fehlt uns diese Objektivität, so schließen wir möglicherweise falsche Schlüsse aus unseren Daten.
- 01:33Ein bekanntes Beispiel sind hier die Bestrebungen des US-Militärs während des Zweiten Weltkrieges, denn hier wurden viele Flugzeuge der US-Armee abgeschossen.
- 01:43Sie wollen nicht, dass ihre Flugzeuge von feindlichen Jägern abgeschossen werden, also panzern Sie sie.
- 01:48Aber Panzerung macht das Flugzeug schwerer, und schwere Flugzeuge sind weniger manövrierfähig, verbrauchen mehr Treibstoff.
- 01:56Die Flugzeuge zu stark zu panzern ist ein Problem, die Flugzeuge zu wenig zu panzern, ist auch ein Problem irgendwo dazwischen liegt ein Optimum.
- 02:06Jetzt analysieren Sie die Einschusslöcher von Flugzeugen, welche zur Basis zurückkommen, um die Schwachstellen zu panzern.
- 02:14Und jetzt kommt der Kniff. Wo panzern Sie die Flugzeuge?
- 02:17Eine Idee wäre, dort zu panzern, wo es viele Einschusslöcher ergibt, denn da werden Flugzeuge ja häufig getroffen.
- 02:25Leider ist das nicht die richtige Antwort.
- 02:29In diesem Falle hat man eine Befangenheit oder fehlende Objektivität bei der Datenerhebung.
- 02:35Man muss genau dort panzern, wo keine Einschusslöcher sind.
- 02:40Schließlich kommen nur diese Flugzeuge mit nicht kritischen Einschusslöchern wieder zurück zur Basis.
- 02:45Was wir anhand dieses Beispiels zeigen wollten, ist, dass man sehr genau darauf achten muss, was man genau an Daten wirklich zur Verfügung hat und welche Schlüsse man daraus zieht.
- 02:56Selbst wenn man in der Datenerhebung all das beachtet hat, so kann es trotzdem zu folgenden Problemen kommen.
- 03:05Man hat Outlier, also jene Werte, die kein normales Verhalten vermuten lassen.
- 03:11Wir betrachten noch einmal das Beispiel, das wir für die Regression verwendet haben.
- 03:16Wir wollen einen Zusammenhang zwischen Zimmeranzahl und Preis der Wohnung ermitteln.
- 03:22Die grün markierten Punkte zeigen normales Verhalten, jedoch stehen die roten Kreuze am oberen Bildrand sehr heraus.
- 03:30Gab es einen Fehler bei der Messung, wurden die Daten falsch konvertiert oder gibt es einfach sehr ungewöhnliche Datenpunkte?
- 03:38Möglicherweise sind das Wohnungen, für die die Inseratspreise versehentlich viel zu hoch gesetzt wurden, oder Wohnungen, die einfach aus dem Raster fallen.
- 03:48Wohnungen in Hollywood beispielsweise haben selbst bei geringer Zimmerzahl bereits Millionenpreise.
- 03:54Bevor man eine Analyse oder Machine Learning betreibt, ist es wichtig zu entscheiden, ob man diese Punkte betrachtet oder nicht.
- 04:02Diese Punkte werden, wie gerade schon erwähnt, Outlier genannt.
- 04:06Betrachtet man diese Outlier im Rahmen der Analyse, so kommt folgendes Verhalten:
- 04:13Die Regressionslinie wird deutlich durch diese Punkte beeinflusst, unser eigentliches Ziel ist es aber, eine generalisierbare Aussage zu treffen über das Verhältnis von Anzahl der Zimmer und Wohnungspreisen.
- 04:27Wollen wir daher diese Outlier wirklich mit beachten?
- 04:30Exkludieren wir also diese Punkte von unserer Vorhersage, so passen wir vielleicht besser auf die Trainingsdaten und können eine bessere Einschätzung geben.
- 04:39Ein weiteres interessantes Phänomen, welches man beim realen Einsatz von Machine-Learning-Modellen beachten muss, ist der Data- oder der Concept Drift.
- 04:51Concept Drift besagt, dass sich die Zieldaten verändern, also die, die vorhergesagt werden sollen.
- 04:59Stellen wir beispielsweise bei unserem Vorschlagssystem aus der ersten Woche von einer Bewertung von fünf Sternen auf eine Bewertung mit drei Sternen um, so müssen wir natürlich auch das Machine-Learning-Modell anpassen.
- 05:11Data Drift besagt prinzipiell, dass sich die Eingabedaten verändern in einer Art und Weise, dass wir das Modell verändern müssen.
- 05:21Hier ein Beispiel des Data Drifts: Stellen Sie sich vor, Sie klassifizieren Smartphone-Nutzer als Spammer und Nicht-Spammer anhand ihres Verhaltens in einer Messaging App.
- 05:32Betrachtet hier werden die Nachrichtenmengen pro Stunde.
- 05:36Bisher war es gang und gäbe, dass normale Nutzer circa fünf bis zehn Nachrichten verschicken, weil es relativ lange dauert, eine Nachricht zu schreiben.
- 05:47Spammer hingegen konnten durch automatisierte Nachrichten deutlich mehr pro Stunde verschicken.
- 05:52Sie können also eine Grenze bei circa acht bis zehn Nachrichten pro Stunde ziehen, um zwischen Spammern und Nicht-Spammern zu unterscheiden - das ist hier mal in Grün eingezeichnet, diese Unterscheidung oder dieser Schwellenwert.
- 06:07Allerdings führen Sie zu einem späteren Zeitpunkt ein Update in der App ein, was es auch normalen Nutzern ermöglicht, nun viel schneller Nachrichten zu verfassen.
- 06:17Plötzlich fallen auch normale Nutzer über diesen Schwellenwert, und plötzlich wird jeder Nutzer als Spammer klassifiziert.
- 06:23Sie müssen natürlich darauf reagieren um das Modell auf diese neuen Gegebenheiten anzupassen.
- 06:30Dieses Verhalten, dass sich die Eingabedaten und ihre Beschaffenheit ändern, nennt man Data Drift.
- 06:36Im nächsten Video folgt dann der zweite Teil dieses Videos über die Wichtigkeit der Daten.
To enable the transcript, please select a language in the video player settings menu.