1.8.3 Hauspreise in Kalifornien

Dieses Video gehört zum openHPI-Kurs Künstliche Intelligenz und Maschinelles Lernen in der Praxis. Möchten Sie mehr sehen?

Schreiben Sie sich kostenlos ein

1.8.3 Hauspreise in Kalifornien

Zeitaufwand: etwa 6 Minuten

Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.

Scroll to current position

00:00Nachdem wir nun gerade ein ganz gutes Bild über unsere Daten gewonnen haben, können wir
00:04jetzt in dieser Einheit endlich unser erstes KI-Modell bauen.
00:08Und was wir als allererstes dafür machen müssen, ist die Daten, wie wir sie gerade
00:14haben, in ein KI-Format zu bringen.
00:16Das heißt, schauen wir uns unsere Daten noch mal an, dann sehen wir unsere verschiedenen Attribute,
00:21also Längengrad, Breitengrad und eben auch beispielsweise die Ocean Proximity.
00:27Jetzt müssen wir einfach wissen, dass viele KI-Modelle nur auf numerischen Daten arbeiten können,
00:34also nur mit Zahlen beispielsweise rechnen. Was relativ geläufig ist, wenn man sich überlegt, dass
00:39viele dieser Modelle einfach aus Formeln besteht und man relativ schwierig
00:44Kategorien multiplizieren kann.
00:46Deswegen müssen wir uns jetzt überlegen, wie kriegen wir die Daten in ein geeignetes KI-Format.
00:52Das ist aber eigentlich relativ simpel. Was wir dafür nämlich machen können,
00:56ist one-hot encodings zu berechnen, also one-hot Transformationen.
01:01Und das ist relativ simpel, indem wir einfach sagen, dass wir
01:05Kategorien in binäre Vektoren transformieren.
01:09Das heißt wenn wir beispielsweise die Kategorie nah am Meer haben, dann wird aus dieser Kategorie
01:16in unseren Daten eine Spalte, wo wir sagen Kategorie nah am Meer trifft zu oder trifft nicht zu.
01:24Also daraus quasi ein binäres Attribut machen.
01:28Das geht auch hier einfach einfach,
01:29weil es eine so typische Transformation ist, müssen wir das nicht komplett neu erfinden,
01:35sondern können auch hier wieder Pandas für verwenden.
01:37Also wir merken Pandas bietet wirklich eine Vielzahl an Funktionen, die wir immer wieder
01:42brauchen und die schon für uns implementiert wurden.
01:45Weswegen es auch zum Teil einfach so beliebt ist, wie einfach es für uns ganz simpel
01:49wiederverwenden können.
01:50Und diese Funktion, die wir da von Pandas brauchen, heißt get dummies, also dummy values.
01:56Genau damit können wir unsere Daten genau in das one-hot encoding transformieren.
02:02Es geht auch eigentlich immer wahnsinnig schnell.
02:07Genau, schauen wir uns es einfach einmal an, wie es jetzt aussieht.
02:10Also wir hatten vorher das Attribut Ocean Proximity, und wir hatten dafür noch vier
02:17Ausprägungen, nämlich unter einer Stunde zum Ocean, Inland, near Bay und near Ocean.
02:23Und jetzt haben wir eben nicht mehr in diese Kategorie, sondern wir haben jetzt vier Attribute.
02:27Und die jeweils einfach binär dargestellt werden.
02:30Also 1 steht für ja, der Wert kommt vor und 0 steht für nein, der Wert kommt nicht vor.
02:37Genau, damit kann unser KI-Modell dann später gut arbeiten.
02:43Was wird jetzt noch machen müssen ist diesen Data Frame, also unsere Datenstruktur so aufbereiten,
02:49beziehungsweise uns davon so zu bedienen, dass wir eben Eingabedaten und Zieldaten
02:55extrahieren können, also wir wollen ja unser Modell auf etwas trainieren, damit es gut lernen kann.
03:00Das können wir ganz einfach machen, indem wir uns auch hier wieder eine sehr simple Hilfsfunktion
03:04schreiben, die letztendlich aus unserem Dataframe in die Eingabematrix das gibt, was wir kennen.
03:12Also das, worauf wir das Modell trainieren wollen.
03:14Und das ist letztendlich alles bis auf den median house value, weil
03:17das ist genau das, was wir prognostizieren wollen. Und als Zielvektor, also das, was wir dem Modell
03:25mitgeben, aber was es zu Laufzeit dann nicht mehr bekommen wird, sondern nur für die Trainingsdaten
03:29kennt, sind die tatsächlichen median house values, also das, worauf das Modell lernt, unsere Labels.
03:37Und diese Funktion definieren wir für uns.
03:39wenden sie dann anschließend auf unseren Daten an.
03:43Ja, haben jetzt also Eingabematrix und Ziel-Vektoren sowohl für Trainingsausfälle als auch für Testfälle.
03:51Und sind jetzt so weit, dass wir endlich unser erstes KI-Modell bauen können.
03:55Und das machen wir jetzt auch.
03:58Und mehr als das braucht es tatsächlich sogar gar nicht.
04:01Das heißt, wenn wir das Ausführen, haben wir gerade in diesem Moment unser erstes KI-Modell
04:09für diesen Kurs gebaut und auch schon trainiert.
04:11Also ging jetzt wirklich sehr einfach, und wir können dieses Modell jetzt verwenden
04:18für Prognosen. Natürlich kann man jetzt auch noch hier verschiedene andere Sachen machen.
04:22Also es gibt noch andere Modelle oder Hyper Parameter, aber an und für sich wäre das jetzt
04:28beispielsweise ein nutzbares Machine Learning Modell.
04:31Was wir einfach noch mal betonen möchten ist halt eben, dass es in so einem
04:36KI-Projekt halt oft einfach darauf ankommt, dass man die Daten gut versteht.
04:39Auch wenn es irgendwie ein hochmoderner KI-Algorithmus ist, also auch ein
04:43künstliches neuronales Netz, man sollte eigentlich nie einfach nur ohne sich die Daten
04:48angeschaut zu haben dieses Modell beliefern und darauf trainieren und das letztendlich dieses
04:55Training oftmals relativ schnell gemacht ist.
04:56Aber einfach wenn man weiß, was die Daten für Muster ungefähr haben man ein ungefähres
05:01Verständnis hat, meistens man viel besser tatsächlich mit den Modellen arbeiten kann.
05:05Und wir werden uns auch noch verschiedene andere Modelle im Kurs anschauen.
05:09Also da keine Sorge, wir werden dann noch die ganze Bandbreite uns einmal anschauen.
05:14Aber jetzt für dieses erste Projekt haben wir uns einfach dafür entschieden, jetzt einmal ein
05:18simples Modell zu verwenden und schauen uns dann einem späteren Verlauf weitere Modelle an.
05:23Genau, und jetzt wollen wir dann im nächsten Video einmal anschauen, wie gut dieses Modell dann
05:29letztendlich performt und ob wir es denn nun nutzen wollen oder theoretisch noch mal weiter
05:35auf unseren Daten arbeiten müssten.
05:36Das schauen wir uns im nächsten Video an.

Über dieses Video

Auf GitHub haben wir alle Materialien für die praktischen Einheiten zusammengefasst und für Sie aufbereitet.