Σπίτι Ήχος Γιατί μειώνει τη διακύμανση της σάρωσης στη μηχανική μάθηση;

Γιατί μειώνει τη διακύμανση της σάρωσης στη μηχανική μάθηση;

Anonim

Ερ:

Γιατί μειώνει τη διακύμανση της σάρωσης στη μηχανική μάθηση;

ΕΝΑ:

Η συσσωμάτωση του bootstrap ή η "σάρωση" στη μηχανική μάθηση μειώνει τη διακύμανση μέσω της κατασκευής πιο προηγμένων μοντέλων σύνθετων συνόλων δεδομένων. Συγκεκριμένα, η προσέγγιση "bagging" δημιουργεί υποσύνολα τα οποία συχνά επικαλύπτονται για να μοντελοποιούν τα δεδομένα με έναν περισσότερο εμπλεκόμενο τρόπο.

Μια ενδιαφέρουσα και ευδιάκριτη ιδέα για το πώς να εφαρμόσετε την τσάντα είναι να πάρετε μια σειρά τυχαίων δειγμάτων και να εξαγάγετε τον απλό μέσο. Στη συνέχεια, χρησιμοποιώντας το ίδιο σύνολο δειγμάτων, δημιουργήστε δεκάδες υποσύνολα που έχουν δημιουργηθεί ως δέντρα απόφασης για να χειριστούν τα τελικά αποτελέσματα. Ο δεύτερος τρόπος πρέπει να παρουσιάσει μια πιο αληθινή εικόνα του τρόπου με τον οποίο αυτά τα μεμονωμένα δείγματα σχετίζονται μεταξύ τους όσον αφορά την αξία. Η ίδια ιδέα μπορεί να εφαρμοστεί σε οποιαδήποτε ιδιότητα οποιουδήποτε συνόλου σημείων δεδομένων.

Δωρεάν Λήψη: Μηχανική Μάθηση και γιατί έχει σημασία

Δεδομένου ότι αυτή η προσέγγιση εδραιώνει την ανακάλυψη σε πιο καθορισμένα όρια, μειώνει τη διακύμανση και βοηθά στην υπερφόρτωση. Σκεφτείτε ένα scatterplot με κάπως κατανεμημένα σημεία δεδομένων? χρησιμοποιώντας μια μέθοδο bagging, οι μηχανικοί "συρρικνώουν" την πολυπλοκότητα και προσανατολίζουν τις γραμμές εντοπισμού σε ομαλότερες παραμέτρους.

Κάποιοι μιλούν για την αξία της τσάντας ως "διαιρέστε και κατακτήστε" ή ένα είδος "βοηθημένων ευριστικών". Η ιδέα είναι ότι μέσω της μοντελοποίησης των συνόλων, όπως η χρήση τυχαίων δασών, εκείνοι που χρησιμοποιούν τη σακούλα ως τεχνική μπορούν να πάρουν αποτελέσματα δεδομένων που είναι χαμηλότερα σε διακύμανση. Όσον αφορά τη μείωση της πολυπλοκότητας, η τσάντα μπορεί επίσης να βοηθήσει στην υπερφόρτωση. Σκεφτείτε ένα μοντέλο με πάρα πολλά σημεία δεδομένων: ας πούμε, μια σύνδεση-τα-σημεία με 100 μη ευθυγραμμισμένες κουκίδες. Η προκύπτουσα οπτική γραμμή δεδομένων θα είναι οδοντωτή, δυναμική, πτητική. Στη συνέχεια, "σβήνουν" τη διακύμανση, δημιουργώντας σύνολα αξιολογήσεων. Στην εκμάθηση του συνόλου, αυτό συχνά θεωρείται ότι ενώνει αρκετούς «αδύναμους μαθητές» για να προσφέρει ένα συνεργατικό αποτέλεσμα «ισχυρής μάθησης». Το αποτέλεσμα είναι μια ομαλότερη, πιο κοντραρισμένη γραμμή δεδομένων και λιγότερο άγρια ​​διακύμανση στο μοντέλο.

Είναι εύκολο να δούμε πώς μπορεί να εφαρμοστεί η ιδέα της σακούλας στα συστήματα πληροφορικής της επιχείρησης. Οι ηγέτες των επιχειρήσεων συχνά επιθυμούν μια "πανοραμική άποψη" του τι συμβαίνει με τα προϊόντα, τους πελάτες κ.λπ. Ένα μοντέλο με υπερβολικό ρυθμό μπορεί να επιστρέψει λιγότερο εύπεπτα δεδομένα και περισσότερα "διάσπαρτα" αποτελέσματα, όπου η τσάντα μπορεί να "σταθεροποιήσει" ένα μοντέλο και να το καταστήσει πιο χρήσιμο στους τελικούς χρήστες.

Γιατί μειώνει τη διακύμανση της σάρωσης στη μηχανική μάθηση;