Dieses Video gehört zum openHPI-Kurs Künstliche Intelligenz und Maschinelles Lernen in der Praxis. Möchten Sie mehr sehen?
Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.
Scroll to current position
- 00:00Nachdem wir nun gerade ein ganz gutes Bild über unsere Daten gewonnen haben, können wir
- 00:04jetzt in dieser Einheit endlich unser erstes KI-Modell bauen.
- 00:08Und was wir als allererstes dafür machen müssen, ist die Daten, wie wir sie gerade
- 00:14haben, in ein KI-Format zu bringen.
- 00:16Das heißt, schauen wir uns unsere Daten noch mal an, dann sehen wir unsere verschiedenen Attribute,
- 00:21also Längengrad, Breitengrad und eben auch beispielsweise die Ocean Proximity.
- 00:27Jetzt müssen wir einfach wissen, dass viele KI-Modelle nur auf numerischen Daten arbeiten können,
- 00:34also nur mit Zahlen beispielsweise rechnen. Was relativ geläufig ist, wenn man sich überlegt, dass
- 00:39viele dieser Modelle einfach aus Formeln besteht und man relativ schwierig
- 00:44Kategorien multiplizieren kann.
- 00:46Deswegen müssen wir uns jetzt überlegen, wie kriegen wir die Daten in ein geeignetes KI-Format.
- 00:52Das ist aber eigentlich relativ simpel. Was wir dafür nämlich machen können,
- 00:56ist one-hot encodings zu berechnen, also one-hot Transformationen.
- 01:01Und das ist relativ simpel, indem wir einfach sagen, dass wir
- 01:05Kategorien in binäre Vektoren transformieren.
- 01:09Das heißt wenn wir beispielsweise die Kategorie nah am Meer haben, dann wird aus dieser Kategorie
- 01:16in unseren Daten eine Spalte, wo wir sagen Kategorie nah am Meer trifft zu oder trifft nicht zu.
- 01:24Also daraus quasi ein binäres Attribut machen.
- 01:28Das geht auch hier einfach einfach,
- 01:29weil es eine so typische Transformation ist, müssen wir das nicht komplett neu erfinden,
- 01:35sondern können auch hier wieder Pandas für verwenden.
- 01:37Also wir merken Pandas bietet wirklich eine Vielzahl an Funktionen, die wir immer wieder
- 01:42brauchen und die schon für uns implementiert wurden.
- 01:45Weswegen es auch zum Teil einfach so beliebt ist, wie einfach es für uns ganz simpel
- 01:49wiederverwenden können.
- 01:50Und diese Funktion, die wir da von Pandas brauchen, heißt get dummies, also dummy values.
- 01:56Genau damit können wir unsere Daten genau in das one-hot encoding transformieren.
- 02:02Es geht auch eigentlich immer wahnsinnig schnell.
- 02:07Genau, schauen wir uns es einfach einmal an, wie es jetzt aussieht.
- 02:10Also wir hatten vorher das Attribut Ocean Proximity, und wir hatten dafür noch vier
- 02:17Ausprägungen, nämlich unter einer Stunde zum Ocean, Inland, near Bay und near Ocean.
- 02:23Und jetzt haben wir eben nicht mehr in diese Kategorie, sondern wir haben jetzt vier Attribute.
- 02:27Und die jeweils einfach binär dargestellt werden.
- 02:30Also 1 steht für ja, der Wert kommt vor und 0 steht für nein, der Wert kommt nicht vor.
- 02:37Genau, damit kann unser KI-Modell dann später gut arbeiten.
- 02:43Was wird jetzt noch machen müssen ist diesen Data Frame, also unsere Datenstruktur so aufbereiten,
- 02:49beziehungsweise uns davon so zu bedienen, dass wir eben Eingabedaten und Zieldaten
- 02:55extrahieren können, also wir wollen ja unser Modell auf etwas trainieren, damit es gut lernen kann.
- 03:00Das können wir ganz einfach machen, indem wir uns auch hier wieder eine sehr simple Hilfsfunktion
- 03:04schreiben, die letztendlich aus unserem Dataframe in die Eingabematrix das gibt, was wir kennen.
- 03:12Also das, worauf wir das Modell trainieren wollen.
- 03:14Und das ist letztendlich alles bis auf den median house value, weil
- 03:17das ist genau das, was wir prognostizieren wollen. Und als Zielvektor, also das, was wir dem Modell
- 03:25mitgeben, aber was es zu Laufzeit dann nicht mehr bekommen wird, sondern nur für die Trainingsdaten
- 03:29kennt, sind die tatsächlichen median house values, also das, worauf das Modell lernt, unsere Labels.
- 03:37Und diese Funktion definieren wir für uns.
- 03:39wenden sie dann anschließend auf unseren Daten an.
- 03:43Ja, haben jetzt also Eingabematrix und Ziel-Vektoren sowohl für Trainingsausfälle als auch für Testfälle.
- 03:51Und sind jetzt so weit, dass wir endlich unser erstes KI-Modell bauen können.
- 03:55Und das machen wir jetzt auch.
- 03:58Und mehr als das braucht es tatsächlich sogar gar nicht.
- 04:01Das heißt, wenn wir das Ausführen, haben wir gerade in diesem Moment unser erstes KI-Modell
- 04:09für diesen Kurs gebaut und auch schon trainiert.
- 04:11Also ging jetzt wirklich sehr einfach, und wir können dieses Modell jetzt verwenden
- 04:18für Prognosen. Natürlich kann man jetzt auch noch hier verschiedene andere Sachen machen.
- 04:22Also es gibt noch andere Modelle oder Hyper Parameter, aber an und für sich wäre das jetzt
- 04:28beispielsweise ein nutzbares Machine Learning Modell.
- 04:31Was wir einfach noch mal betonen möchten ist halt eben, dass es in so einem
- 04:36KI-Projekt halt oft einfach darauf ankommt, dass man die Daten gut versteht.
- 04:39Auch wenn es irgendwie ein hochmoderner KI-Algorithmus ist, also auch ein
- 04:43künstliches neuronales Netz, man sollte eigentlich nie einfach nur ohne sich die Daten
- 04:48angeschaut zu haben dieses Modell beliefern und darauf trainieren und das letztendlich dieses
- 04:55Training oftmals relativ schnell gemacht ist.
- 04:56Aber einfach wenn man weiß, was die Daten für Muster ungefähr haben man ein ungefähres
- 05:01Verständnis hat, meistens man viel besser tatsächlich mit den Modellen arbeiten kann.
- 05:05Und wir werden uns auch noch verschiedene andere Modelle im Kurs anschauen.
- 05:09Also da keine Sorge, wir werden dann noch die ganze Bandbreite uns einmal anschauen.
- 05:14Aber jetzt für dieses erste Projekt haben wir uns einfach dafür entschieden, jetzt einmal ein
- 05:18simples Modell zu verwenden und schauen uns dann einem späteren Verlauf weitere Modelle an.
- 05:23Genau, und jetzt wollen wir dann im nächsten Video einmal anschauen, wie gut dieses Modell dann
- 05:29letztendlich performt und ob wir es denn nun nutzen wollen oder theoretisch noch mal weiter
- 05:35auf unseren Daten arbeiten müssten.
- 05:36Das schauen wir uns im nächsten Video an.
To enable the transcript, please select a language in the video player settings menu.
Über dieses Video
- Auf GitHub haben wir alle Materialien für die praktischen Einheiten zusammengefasst und für Sie aufbereitet.