Leichte Modellarchitekturen, große Wirkung
Depthwise-Separable-Convolutions, Squeeze-and-Excitation und geschickte Skalierung machen MobileNetV3 und EfficientNet-Lite zu Favoriten. Sie liefern solide Top-1-Genauigkeit bei moderatem FLOP-Budget. Wähle Varianten nach Latenzziel, nicht nur nach Accuracy; Nutzer spüren Millisekunden intensiver als Prozentpunkte.
Leichte Modellarchitekturen, große Wirkung
Wissen destillieren, Kanten schneiden, Gewichte schrumpfen: Distillation behält Logit-Feinheiten, strukturiertes Pruning reduziert Operatoren, Quantisierung drückt 32-Bit auf 8 oder 4 Bit. Kombiniert senken sie Speicher und Latenz dramatisch. Teile unten, welche Kombination in deinen Apps am meisten brachte.