Compact Network Design (3/3)

Dieses Video gehört zum openHPI-Kurs Applied Edge AI: Deep Learning Outside of the Cloud. Möchten Sie mehr sehen?

Compact Network Design (3/3)

Zeitaufwand: etwa 14 Minuten

Beim Laden des Videoplayers ist ein Fehler aufgetreten, oder es dauert lange, bis er initialisiert wird. Sie können versuchen, Ihren Browser-Cache zu leeren. Bitte versuchen Sie es später noch einmal und wenden Sie sich an den Helpdesk, wenn das Problem weiterhin besteht.

Scroll to current position

00:01Hallo und willkommen, dieses Video setzt das Thema Kompaktmodell fort und ist der letzte Teil dieses Themas.
00:11In dieser Arbeit untersuchen die Autoren von google systematisch die Modellskalierung und stellen fest, dass eine sorgfältige Abwägung
00:20der Netzwerktiefen mit und Auflösung zu einer besseren Leistung führen kann intuitiv macht die zusammengesetzte Skalierungsmethode Sinn
00:30Das macht Sinn, denn wenn das Eingangsbild größer ist, braucht das Netz mehr Schichten, um das rezeptive Feld zu vergrößern und mehr Kanäle
00:40um mehr feinkörnige Muster auf dem größeren Bild zu erfassen.
00:46In früheren Arbeiten wurde in der Regel nur eine dieser drei Dimensionen skaliert. Es ist jedoch möglich, zwei oder drei Dimensionen zu skalieren
00:56willkürlich zu skalieren, erfordert dies eine Ausschreibung, manuelle Abstimmung und oft jahrelange suboptimale Genauigkeit und Effizienz.
01:06Die Autoren in diesem Papier verwenden neuronale Architektur suchen, um eine neue Grundlinie Netzwerk und einheitlich qualifizierte Design.
01:14Es ist geeignet, eine Theorie von Modellen zu erhalten, die effiziente Netze genannt werden und eine viel bessere Genauigkeit und Effizienz erreichen als frühere
01:25Vertrauensmodelle.
01:28Das beste Modell eines effizienten Netzes ist also ein leichtgewichtiges mobiles Backbone- und Nas-Netz, das von nas hinsichtlich des Kompromisses
01:39zwischen Genauigkeit und Flops.
01:42Sie haben auch einige Beobachtungen bezüglich der Skalierung von Komponenten gemacht, wenn man mehr Rechenleistung verwenden möchte
01:53Ressourcen.
01:55Dann können wir die Netzwerktiefen durch unsere weit bis Ende mit durch Beta bis Ende erhöhen.
02:01Und die Bildgröße um gamma bis Ende, wobei alpha, beta und gamma konstante Koeffizienten sind, die durch eine kleine große Suche bestimmt werden
02:12auf dem ursprünglichen kleinen Modell Die Steigung der regelmäßigen Faltungsoperation ist proportional zur Tiefe d.
02:21mit W.
02:22zwei.
02:22Um W Quadrat und um Auflösung Quadrat sind quadratisch.
02:28Das bedeutet Verdoppelung.
02:29Die Netzwerktiefe wird die Schleifen verdoppeln, aber das Netz mit oder die Auflösung wird die Flüssigkeiten um das Vierfache erhöhen.
02:40Die Autoren behalten also die Konstanten Alpha und Beta Quadrat und Gamma Quadrat gleich zwei.
02:47Das heißt also, dass für jeden zusammengesetzten Kaffeekoeffizienten die Gesamtzahl der Flöhe ungefähr um das Zweifache von fünf ansteigt.
03:00Die effiziente B7 hat die höchste Genauigkeit im Bildnetz erreicht, sie hat eine Genauigkeit von 84,4 %, ist also achtmal kleiner
03:11und sechsmal schneller bei der Beeinflussung und als der Stand der Technik Modell G pipe.
03:19Einige Beobachtungen auch erwähnt es durch den Autor.
03:22Ich denke, es ist sehr wertvoll für praktische Anwendungen.
03:27Unter der Bedingung, dass die Auflösungsgröße und W mit der Zunahme der Tiefe D unverändert sind.
03:37Es gibt keinen großen Unterschied in der Genauigkeit, wenn D N.
03:42W bleibt unverändert mit der Erhöhung der Auflösung ist die Genauigkeit stark verbessert, wenn die Auflösung und Tiefen bleiben
03:53unverändert mit der Erhöhung der mit dem neugierigen E zunächst deutlich verbessert, dann tendenziell flach,
04:05schärferes Netz.
04:06Ich auch.
04:07Diese Arbeit schlägt mehrere praktische Richtlinien für ein effizientes kommunistisches Design vor und analysiert auch, wie das Netzwerk sein sollte
04:17unter dem Gesichtspunkt der Speicherzugriffskosten entworfen werden sollte.
04:21Kurz gesagt, MAC und Gpu-Parallelität reduzieren die Laufzeit weiter und verbessern direkt die Effizienz der Modelle, wenn die Anzahl der
04:32der Eingangskanäle gleich der Anzahl der Ausgangskanäle ist, ist der Mac am unbedeutendsten.
04:39Verwendet man die gleichen Eingangs- und Ausgangskanäle für eine Faltungsschicht, ist Mac proportional zur Anzahl der Gruppen einer Faltungsschicht
04:48Schicht.
04:49Wir sollten also vorsichtig eine Gruppenfaltung verwenden.
04:53Die Anzahl der Verzweigungen in den Netzen reduziert die Parallelität, wir sollten wahrscheinlich die Anzahl der Verzweigungen im Netz reduzieren
05:03Elementweise Operationen sind sehr zeitaufwendig, man sollte die elementweise Operation möglichst reduzieren.
05:10Andererseits hat diese Arbeit auch das Designprinzip eingeführt, billige Operationen für mehr Funktionen, was sehr effektiv ist
05:20für leichtgewichtige Modelle.
05:23Mhm God's Net trägt dazu bei, das Konzept des billigen Betriebs für weitere Funktionen zu vertiefen.
05:31Das Kostenmodul wurde entwickelt, das die Faltung in der Tiefe nutzt, um mehr intrinsische Merkmale zu erzeugen.
05:39Es wurden Designtricks eingeführt, wie z.B. die deutliche Verringerung der Breite der einzelnen Faltungen, die für einen großen Teil der Kosten verantwortlich sind.
05:49Teil der Berechnungen ausmachen.
05:51Zweitens ist die Erhöhung der Netztiefe für die Verbesserung der Genauigkeit von Vorteil.
05:58Ein möglicher Nachteil dieses Entwurfs ist, dass das God's Net nicht wirklich schnell ist, wenn das Modell speicherabhängig ist.
06:07Die Metrik für Schleifen allein kann die Beschleunigung des Modells nicht genau wiedergeben.
06:16Der Moment, in dem wir drei zwei sehr effektive Designentscheidungen eingeführt haben.
06:20Das ist der Grund, warum trennbare Faltung und invertierter Flaschenhals-Block.
06:26Die Tiefenfaltungsschicht wendet auf jeden Eingangskanal einen einzelnen 3 x 3 Filter an, um die räumliche Korrelation zu lernen
06:35Und dann wende ich eine 1 x 1-Faltung an, um die Kanalkorrelation zu lernen.
06:40Im umgekehrten Flaschenhals-Design erweitert die erste punktweise Faltung den Informationsfluss, wodurch sich die
06:49Kapazität und die Tiefe erhöht.
06:52Und die zweite punktweise Faltung ist für die Aussagekraft verantwortlich.
06:59Diese Spekulation basiert auf der Analyse des Mobile Net V two Papers.
07:07Eine andere Strategie, die in der neueren Arbeit häufig verwendet wird, ist der billige Betrieb für mehr Merkmale, zum Beispiel das U.
07:14Sie werden in dem Shuffle-Netz mit zwei und einem Geisternetz verwendet.
07:21Die Tabelle zeigt das Ergebnis der Komplexitätsbewertung für verschiedene Arten von Schlussfolgerungen bei mobilen Netzmodellen.
07:29Wir haben festgestellt, dass sich der Berechnungsaufwand hauptsächlich auf die punktweisen Faltungen konzentriert.
07:37Wenn wir den Rechenaufwand reduzieren wollen, ist die Optimierung dieses Teils die erste Wahl.
07:46Unser Vorschlag besteht also darin, die Strategie der zukünftigen Wiederverwendung auf die erste punktweise Faltung anzuwenden, um Rechenzeit zu sparen
07:55effektiv zu sparen, und wir erweitern entsprechend den zukünftigen Fluss der tiefenweisen Faltung.
08:01Und die zweite punktweise Faltungsschicht, wo wir denken, dass sie kritischer für die Ausdrucksfähigkeit ist
08:11außerdem, und der Autor von um s um net das Berechnungsbudget zu halten und zu verändern.
08:19S um net wurde an fünf verschiedenen Bildverarbeitungsaufgaben verifiziert, darunter Klassifikationserkennung, Nachschätzung, Gesichtserkennung
08:28und Handlungserkennung. Und erhalten die folgenden zwei Schlussfolgerungen.
08:34Erstens im Vergleich mit mobilen nativen Geschichte, eine Summe, die in der Regel eine bessere oder gleiche Niveau der Genauigkeit zu bekommen.
08:43Zweitens, vor allem in der Region, wo die Operationen sind weniger als 200 Millionen M.
08:51S.
08:52Die Leistung des Islam-Netzes ist ziemlich besser als die von Momenten mit drei
09:02rep V G net ist kein kompaktes Netz, aber es bietet ein aufregendes Designkonzept, das als Überparameter-Autorisierungstechnik bezeichnet wird
09:13Wenn wir uns die Tabelle ansehen, zeigt Flüchtling G eine bessere Genauigkeit, eine bessere Geschwindigkeitsbilanz als Harz und vor allem das Modell
09:23und je ausgeprägter der Beschleunigungseffekt ist, desto größer ist der Kernunterschied, dass verschiedene Modellformen im Training verwendet werden
09:37und der Inferenzphase verwendet werden.
09:39Aus der Abbildung können wir ersehen, dass Flüchtling G beim Training zwei zusätzliche Zweige für jede drei mal drei faltige
09:48Schicht.
09:49Also eine, eine x 1 Com-Verzweigung und eine weitere Shortcut-Verbindung.
09:56Aber in ihrem Einflussstadium sind beide zusätzlichen Zweige in die drei x 3 Faltungen integriert worden.
10:04Die Form im Einflussbereich ist also ein reines Netzwerk im Weegee-Stil.
10:11Lassen Sie uns kurz vorstellen, wie wie die drei x 3 Faltung und die eine x 1 Faltung und idealerweise die Verknüpfung in diesem
10:20arbeiten.
10:21Diese Abbildung zeigt die standardmäßige 3 x 3-Faltung.
10:25Die Eingabe-Merkmalskarte hat zwei Kanäle und die Ausgabe-Merkmalskarte hat die Form 3 x 3 x 2.
10:32Mhm.
10:33Diese Abbildung zeigt, wie eine standardmäßige eins-zu-eins-Faltung funktioniert.
10:37Sie hat eine Kernelgröße von eins und einen Streik von eins. Und die multiple Größe ist auch drei x 3 x zwei.
10:46Nein, hier fügen wir dem eins-mal-eins Colonel ein Null-Padding hinzu, um einen drei-mal-drei Kernel zu bilden, und wir erhalten immer noch die
10:54dasselbe Ergebnis.
10:59Die Identitätsverbindung ist äquivalent zu einer Faltungsschicht mit speziellen Wegen, speziellen Wegen in diesem Beispiel für
11:09der erste Colonel zweite Kanal ist gleich Null und für den zweiten Colonel ist der erste Kanal gleich Null.
11:18Also im Grunde beginnen beide Kerne ist eine Identitätsmatrix.
11:24Wir können sehen, dass die Identitätsverbindung nur ein spezieller Fall einer einfaktoriellen Faltung ist
11:34Wir können wie zuvor eine Null-Füllung hinzufügen, und es wird eine dreifache Faltung mit demselben Ergebnis
11:47In der Trainingsphase sehen also die Colonel-Formen von drei x 3, eins x 1 und auch die Identitätsverbindung so aus.
11:58Nachdem das Modell trainiert ist, können wir einfach die elementweise Addition berechnen, um den Kernel für den Einfluss zu fusionieren
12:09In der Einflussphase verwenden wir also nur den drei mal drei Faltungs-Kernel
12:18aus der Perspektive der Beschleunigung können sowohl die Resonanz als auch die Faltung in der Tiefe nicht zu einer regulären persistenten Sicherung gemacht werden
12:29Das Design der Flüchtlinge ist jedoch sehr beschleunigungsfreundlich.
12:34Die Faltungsform ist sehr ordentlich, ohne Verzweigungen ohne Aufmerksamkeit.
12:40Jede Stufe liest oder schreibt keinen globalen Speicher, da der Eingang und der Ausgang die gleiche Kanalnummer haben, es ist fast ein Beschleuniger
12:50Bevorzugte Form.
12:51Diese Geschwindigkeit kann fast als ein Tensorkern angesehen werden, der insgesamt mit voller Geschwindigkeit läuft, wenn es sich um Training und Einflussumwandlung handelt
13:03mehr bestehen kann, ähm, wird es dieses Modell populärer machen.
13:11Im nächsten Video werden wir eine weitere Komprimierungstechnik besprechen: Knowledge Desolation.
13:19Ich danke Ihnen.