Σπίτι Ήχος Πώς βοηθά το max pooling να κάνει την alexnet μια μεγάλη τεχνολογία επεξεργασίας εικόνας;

Πώς βοηθά το max pooling να κάνει την alexnet μια μεγάλη τεχνολογία επεξεργασίας εικόνας;

Anonim

Ερ:

Πώς βοηθά το max pooling να κάνει το AlexNet μια εξαιρετική τεχνολογία για την επεξεργασία εικόνας;

ΕΝΑ:

Στο AlexNet, ένα καινοτόμο συνελικτικό νευρωνικό δίκτυο, η έννοια της μέγιστης συγκέντρωσης εισάγεται σε ένα πολύπλοκο μοντέλο με πολλαπλά στρώματα περιελίξεων, εν μέρει για να βοηθήσει στην τοποθέτηση και να εξορθολογίσει το έργο που κάνει το νευρικό δίκτυο όταν εργάζεται με εικόνες με αυτό που καλούν οι ειδικοί μια "μη γραμμική στρατηγική δειγματοληψίας".

Το AlexNet θεωρείται ευρέως ως ένα πολύ μεγάλο CNN, έχοντας κερδίσει το 2012 ILSVRC (ImageNet μεγάλης κλίμακας Visual Recognition Challenge), το οποίο θεωρείται ως μια συνειδητή εκδήλωση για την εκμάθηση μηχανών και την πρόοδο των νευρωνικών δικτύων (μερικοί αποκαλούν τους "Ολυμπιακούς Αγώνες" ).

Στο πλαίσιο του δικτύου, όπου η εκπαίδευση χωρίζεται σε δύο μονάδες GPU, υπάρχουν πέντε συνθετικά στρώματα, τρία πλήρως συνδεδεμένα στρώματα και κάποια εφαρμογή συγκέντρωσης max.

Ουσιαστικά, η μέγιστη συγκέντρωση παίρνει την "ομάδα" εξόδων από μια συλλογή νευρώνων και τις εφαρμόζει στις τιμές ενός επόμενου στρώματος. Ένας άλλος τρόπος να κατανοήσουμε αυτό είναι ότι μια προσέγγιση μέγιστης συγκέντρωσης μπορεί να εδραιώσει και να απλοποιήσει τις αξίες για την καλύτερη προσαρμογή του μοντέλου.

Η μέγιστη συγκέντρωση μπορεί να βοηθήσει στον υπολογισμό των κλίσεων. Θα μπορούσε κανείς να πει ότι "μειώνει το φορτίο υπολογισμού" ή "συρρικνώνει την υπερφόρτωση" - μέσω της δειγματοληψίας, η μέγιστη συγκέντρωση ασκεί τη λεγόμενη "μείωση διαστάσεων".

Η μείωση της διατομής ασχολείται με το ζήτημα της ύπαρξης ενός υπερπληρωμένου μοντέλου που είναι δύσκολο να περάσει μέσα από ένα νευρωνικό δίκτυο. Φανταστείτε ένα σύνθετο σχήμα, με πολλά μικρά ακανόνιστα περιγράμματα, και κάθε κομμάτι αυτής της γραμμής αντιπροσωπεύεται από ένα σημείο δεδομένων. Με τη μείωση των διαστάσεων, οι μηχανικοί βοηθούν το πρόγραμμα εκμάθησης μηχανών να "σμικρύνει" ή να δοκιμάσει λιγότερα σημεία δεδομένων, ώστε να γίνει το μοντέλο συνολικά απλούστερο. Αυτός είναι ο λόγος για τον οποίο, αν κοιτάξετε ένα μέγιστο στρώμα συγκέντρωσης και την έξοδο του, μερικές φορές βλέπετε μια απλούστερη pixelation που αντιστοιχεί σε μια στρατηγική μείωσης των διαστάσεων.

Το AlexNet χρησιμοποιεί επίσης μια λειτουργία που ονομάζεται γραμμική επανακαθορισμένη μονάδα (ReLU) και η μέγιστη συγκέντρωση μπορεί να είναι συμπληρωματική αυτής της τεχνικής στην επεξεργασία εικόνων μέσω του CNN.

Οι εμπειρογνώμονες και όσοι εμπλέκονται στο έργο έχουν παραδώσει άφθονα οπτικά μοντέλα, εξισώσεις και άλλες λεπτομέρειες για να παρουσιάσουν την συγκεκριμένη κατασκευή του AlexNet, αλλά με μια γενική έννοια, μπορείτε να σκεφτείτε τη μέγιστη συγκέντρωση ως συγχώνευση ή εδραίωση της παραγωγής πολλών τεχνητών νευρώνων. Αυτή η στρατηγική είναι μέρος της συνολικής κατασκευής του CNN, το οποίο έχει γίνει συνώνυμο με την πρωτοποριακή μηχανική όραση και την ταξινόμηση των εικόνων.

Πώς βοηθά το max pooling να κάνει την alexnet μια μεγάλη τεχνολογία επεξεργασίας εικόνας;