Dieses Video gehört zum openHPI-Kurs Applied Edge AI: Deep Learning Outside of the Cloud. Möchten Sie mehr sehen?
Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.
Scroll to current position
- 00:01Hallo und willkommen, dieses Video setzt das Thema Kompaktmodell fort und ist der letzte Teil dieses Themas.
- 00:11In dieser Arbeit untersuchen die Autoren von google systematisch die Modellskalierung und stellen fest, dass eine sorgfältige Abwägung
- 00:20der Netzwerktiefen mit und Auflösung zu einer besseren Leistung führen kann intuitiv macht die zusammengesetzte Skalierungsmethode Sinn
- 00:30Das macht Sinn, denn wenn das Eingangsbild größer ist, braucht das Netz mehr Schichten, um das rezeptive Feld zu vergrößern und mehr Kanäle
- 00:40um mehr feinkörnige Muster auf dem größeren Bild zu erfassen.
- 00:46In früheren Arbeiten wurde in der Regel nur eine dieser drei Dimensionen skaliert. Es ist jedoch möglich, zwei oder drei Dimensionen zu skalieren
- 00:56willkürlich zu skalieren, erfordert dies eine Ausschreibung, manuelle Abstimmung und oft jahrelange suboptimale Genauigkeit und Effizienz.
- 01:06Die Autoren in diesem Papier verwenden neuronale Architektur suchen, um eine neue Grundlinie Netzwerk und einheitlich qualifizierte Design.
- 01:14Es ist geeignet, eine Theorie von Modellen zu erhalten, die effiziente Netze genannt werden und eine viel bessere Genauigkeit und Effizienz erreichen als frühere
- 01:25Vertrauensmodelle.
- 01:28Das beste Modell eines effizienten Netzes ist also ein leichtgewichtiges mobiles Backbone- und Nas-Netz, das von nas hinsichtlich des Kompromisses
- 01:39zwischen Genauigkeit und Flops.
- 01:42Sie haben auch einige Beobachtungen bezüglich der Skalierung von Komponenten gemacht, wenn man mehr Rechenleistung verwenden möchte
- 01:53Ressourcen.
- 01:55Dann können wir die Netzwerktiefen durch unsere weit bis Ende mit durch Beta bis Ende erhöhen.
- 02:01Und die Bildgröße um gamma bis Ende, wobei alpha, beta und gamma konstante Koeffizienten sind, die durch eine kleine große Suche bestimmt werden
- 02:12auf dem ursprünglichen kleinen Modell Die Steigung der regelmäßigen Faltungsoperation ist proportional zur Tiefe d.
- 02:21mit W.
- 02:22zwei.
- 02:22Um W Quadrat und um Auflösung Quadrat sind quadratisch.
- 02:28Das bedeutet Verdoppelung.
- 02:29Die Netzwerktiefe wird die Schleifen verdoppeln, aber das Netz mit oder die Auflösung wird die Flüssigkeiten um das Vierfache erhöhen.
- 02:40Die Autoren behalten also die Konstanten Alpha und Beta Quadrat und Gamma Quadrat gleich zwei.
- 02:47Das heißt also, dass für jeden zusammengesetzten Kaffeekoeffizienten die Gesamtzahl der Flöhe ungefähr um das Zweifache von fünf ansteigt.
- 03:00Die effiziente B7 hat die höchste Genauigkeit im Bildnetz erreicht, sie hat eine Genauigkeit von 84,4 %, ist also achtmal kleiner
- 03:11und sechsmal schneller bei der Beeinflussung und als der Stand der Technik Modell G pipe.
- 03:19Einige Beobachtungen auch erwähnt es durch den Autor.
- 03:22Ich denke, es ist sehr wertvoll für praktische Anwendungen.
- 03:27Unter der Bedingung, dass die Auflösungsgröße und W mit der Zunahme der Tiefe D unverändert sind.
- 03:37Es gibt keinen großen Unterschied in der Genauigkeit, wenn D N.
- 03:42W bleibt unverändert mit der Erhöhung der Auflösung ist die Genauigkeit stark verbessert, wenn die Auflösung und Tiefen bleiben
- 03:53unverändert mit der Erhöhung der mit dem neugierigen E zunächst deutlich verbessert, dann tendenziell flach,
- 04:05schärferes Netz.
- 04:06Ich auch.
- 04:07Diese Arbeit schlägt mehrere praktische Richtlinien für ein effizientes kommunistisches Design vor und analysiert auch, wie das Netzwerk sein sollte
- 04:17unter dem Gesichtspunkt der Speicherzugriffskosten entworfen werden sollte.
- 04:21Kurz gesagt, MAC und Gpu-Parallelität reduzieren die Laufzeit weiter und verbessern direkt die Effizienz der Modelle, wenn die Anzahl der
- 04:32der Eingangskanäle gleich der Anzahl der Ausgangskanäle ist, ist der Mac am unbedeutendsten.
- 04:39Verwendet man die gleichen Eingangs- und Ausgangskanäle für eine Faltungsschicht, ist Mac proportional zur Anzahl der Gruppen einer Faltungsschicht
- 04:48Schicht.
- 04:49Wir sollten also vorsichtig eine Gruppenfaltung verwenden.
- 04:53Die Anzahl der Verzweigungen in den Netzen reduziert die Parallelität, wir sollten wahrscheinlich die Anzahl der Verzweigungen im Netz reduzieren
- 05:03Elementweise Operationen sind sehr zeitaufwendig, man sollte die elementweise Operation möglichst reduzieren.
- 05:10Andererseits hat diese Arbeit auch das Designprinzip eingeführt, billige Operationen für mehr Funktionen, was sehr effektiv ist
- 05:20für leichtgewichtige Modelle.
- 05:23Mhm God's Net trägt dazu bei, das Konzept des billigen Betriebs für weitere Funktionen zu vertiefen.
- 05:31Das Kostenmodul wurde entwickelt, das die Faltung in der Tiefe nutzt, um mehr intrinsische Merkmale zu erzeugen.
- 05:39Es wurden Designtricks eingeführt, wie z.B. die deutliche Verringerung der Breite der einzelnen Faltungen, die für einen großen Teil der Kosten verantwortlich sind.
- 05:49Teil der Berechnungen ausmachen.
- 05:51Zweitens ist die Erhöhung der Netztiefe für die Verbesserung der Genauigkeit von Vorteil.
- 05:58Ein möglicher Nachteil dieses Entwurfs ist, dass das God's Net nicht wirklich schnell ist, wenn das Modell speicherabhängig ist.
- 06:07Die Metrik für Schleifen allein kann die Beschleunigung des Modells nicht genau wiedergeben.
- 06:16Der Moment, in dem wir drei zwei sehr effektive Designentscheidungen eingeführt haben.
- 06:20Das ist der Grund, warum trennbare Faltung und invertierter Flaschenhals-Block.
- 06:26Die Tiefenfaltungsschicht wendet auf jeden Eingangskanal einen einzelnen 3 x 3 Filter an, um die räumliche Korrelation zu lernen
- 06:35Und dann wende ich eine 1 x 1-Faltung an, um die Kanalkorrelation zu lernen.
- 06:40Im umgekehrten Flaschenhals-Design erweitert die erste punktweise Faltung den Informationsfluss, wodurch sich die
- 06:49Kapazität und die Tiefe erhöht.
- 06:52Und die zweite punktweise Faltung ist für die Aussagekraft verantwortlich.
- 06:59Diese Spekulation basiert auf der Analyse des Mobile Net V two Papers.
- 07:07Eine andere Strategie, die in der neueren Arbeit häufig verwendet wird, ist der billige Betrieb für mehr Merkmale, zum Beispiel das U.
- 07:14Sie werden in dem Shuffle-Netz mit zwei und einem Geisternetz verwendet.
- 07:21Die Tabelle zeigt das Ergebnis der Komplexitätsbewertung für verschiedene Arten von Schlussfolgerungen bei mobilen Netzmodellen.
- 07:29Wir haben festgestellt, dass sich der Berechnungsaufwand hauptsächlich auf die punktweisen Faltungen konzentriert.
- 07:37Wenn wir den Rechenaufwand reduzieren wollen, ist die Optimierung dieses Teils die erste Wahl.
- 07:46Unser Vorschlag besteht also darin, die Strategie der zukünftigen Wiederverwendung auf die erste punktweise Faltung anzuwenden, um Rechenzeit zu sparen
- 07:55effektiv zu sparen, und wir erweitern entsprechend den zukünftigen Fluss der tiefenweisen Faltung.
- 08:01Und die zweite punktweise Faltungsschicht, wo wir denken, dass sie kritischer für die Ausdrucksfähigkeit ist
- 08:11außerdem, und der Autor von um s um net das Berechnungsbudget zu halten und zu verändern.
- 08:19S um net wurde an fünf verschiedenen Bildverarbeitungsaufgaben verifiziert, darunter Klassifikationserkennung, Nachschätzung, Gesichtserkennung
- 08:28und Handlungserkennung. Und erhalten die folgenden zwei Schlussfolgerungen.
- 08:34Erstens im Vergleich mit mobilen nativen Geschichte, eine Summe, die in der Regel eine bessere oder gleiche Niveau der Genauigkeit zu bekommen.
- 08:43Zweitens, vor allem in der Region, wo die Operationen sind weniger als 200 Millionen M.
- 08:51S.
- 08:52Die Leistung des Islam-Netzes ist ziemlich besser als die von Momenten mit drei
- 09:02rep V G net ist kein kompaktes Netz, aber es bietet ein aufregendes Designkonzept, das als Überparameter-Autorisierungstechnik bezeichnet wird
- 09:13Wenn wir uns die Tabelle ansehen, zeigt Flüchtling G eine bessere Genauigkeit, eine bessere Geschwindigkeitsbilanz als Harz und vor allem das Modell
- 09:23und je ausgeprägter der Beschleunigungseffekt ist, desto größer ist der Kernunterschied, dass verschiedene Modellformen im Training verwendet werden
- 09:37und der Inferenzphase verwendet werden.
- 09:39Aus der Abbildung können wir ersehen, dass Flüchtling G beim Training zwei zusätzliche Zweige für jede drei mal drei faltige
- 09:48Schicht.
- 09:49Also eine, eine x 1 Com-Verzweigung und eine weitere Shortcut-Verbindung.
- 09:56Aber in ihrem Einflussstadium sind beide zusätzlichen Zweige in die drei x 3 Faltungen integriert worden.
- 10:04Die Form im Einflussbereich ist also ein reines Netzwerk im Weegee-Stil.
- 10:11Lassen Sie uns kurz vorstellen, wie wie die drei x 3 Faltung und die eine x 1 Faltung und idealerweise die Verknüpfung in diesem
- 10:20arbeiten.
- 10:21Diese Abbildung zeigt die standardmäßige 3 x 3-Faltung.
- 10:25Die Eingabe-Merkmalskarte hat zwei Kanäle und die Ausgabe-Merkmalskarte hat die Form 3 x 3 x 2.
- 10:32Mhm.
- 10:33Diese Abbildung zeigt, wie eine standardmäßige eins-zu-eins-Faltung funktioniert.
- 10:37Sie hat eine Kernelgröße von eins und einen Streik von eins. Und die multiple Größe ist auch drei x 3 x zwei.
- 10:46Nein, hier fügen wir dem eins-mal-eins Colonel ein Null-Padding hinzu, um einen drei-mal-drei Kernel zu bilden, und wir erhalten immer noch die
- 10:54dasselbe Ergebnis.
- 10:59Die Identitätsverbindung ist äquivalent zu einer Faltungsschicht mit speziellen Wegen, speziellen Wegen in diesem Beispiel für
- 11:09der erste Colonel zweite Kanal ist gleich Null und für den zweiten Colonel ist der erste Kanal gleich Null.
- 11:18Also im Grunde beginnen beide Kerne ist eine Identitätsmatrix.
- 11:24Wir können sehen, dass die Identitätsverbindung nur ein spezieller Fall einer einfaktoriellen Faltung ist
- 11:34Wir können wie zuvor eine Null-Füllung hinzufügen, und es wird eine dreifache Faltung mit demselben Ergebnis
- 11:47In der Trainingsphase sehen also die Colonel-Formen von drei x 3, eins x 1 und auch die Identitätsverbindung so aus.
- 11:58Nachdem das Modell trainiert ist, können wir einfach die elementweise Addition berechnen, um den Kernel für den Einfluss zu fusionieren
- 12:09In der Einflussphase verwenden wir also nur den drei mal drei Faltungs-Kernel
- 12:18aus der Perspektive der Beschleunigung können sowohl die Resonanz als auch die Faltung in der Tiefe nicht zu einer regulären persistenten Sicherung gemacht werden
- 12:29Das Design der Flüchtlinge ist jedoch sehr beschleunigungsfreundlich.
- 12:34Die Faltungsform ist sehr ordentlich, ohne Verzweigungen ohne Aufmerksamkeit.
- 12:40Jede Stufe liest oder schreibt keinen globalen Speicher, da der Eingang und der Ausgang die gleiche Kanalnummer haben, es ist fast ein Beschleuniger
- 12:50Bevorzugte Form.
- 12:51Diese Geschwindigkeit kann fast als ein Tensorkern angesehen werden, der insgesamt mit voller Geschwindigkeit läuft, wenn es sich um Training und Einflussumwandlung handelt
- 13:03mehr bestehen kann, ähm, wird es dieses Modell populärer machen.
- 13:11Im nächsten Video werden wir eine weitere Komprimierungstechnik besprechen: Knowledge Desolation.
- 13:19Ich danke Ihnen.
To enable the transcript, please select a language in the video player settings menu.