Πίνακας περιεχομένων:
Ορισμός - Τι σημαίνει η ανίχνευση του Outlier;
Η ανίχνευση των εξωστρεφών είναι η διαδικασία ανίχνευσης και στη συνέχεια η εξαίρεση από ένα δεδομένο σύνολο δεδομένων.
Μια απόκλιση μπορεί να οριστεί ως ένα κομμάτι δεδομένων ή παρατήρηση που αποκλίνει δραστικά από το δεδομένο πρότυπο ή μέσο όρο του συνόλου δεδομένων. Μια απόκλιση μπορεί να προκληθεί απλά τυχαία, αλλά μπορεί επίσης να υποδεικνύει σφάλμα μέτρησης ή ότι το δεδομένο σύνολο δεδομένων έχει κατανεμημένη βαρύτητα.
Εδώ είναι ένα απλό σενάριο στην ανίχνευση των εξωστρέφεων, μια διαδικασία μέτρησης που παράγει συνεχώς αναγνώσεις μεταξύ 1 και 10, αλλά σε μερικές σπάνιες περιπτώσεις έχουμε μετρήσεις μεγαλύτερες από 20.
Αυτές οι σπάνιες μετρήσεις πέρα από τον κανόνα ονομάζονται αποθέματα αφού βρίσκονται εκτός της κανονικής καμπύλης κατανομής.
Η Techopedia εξηγεί την εξωστρέφεια
Δεν υπάρχει πραγματικά τυποποιημένη και άκαμπτη μαθηματική μέθοδος για τον προσδιορισμό ενός εξωλέμβιου δεδομένου ότι ποικίλει πραγματικά ανάλογα με το σύνολο ή τον πληθυσμό των δεδομένων, οπότε ο καθορισμός και η ανίχνευσή του τελικά γίνεται υποκειμενικός. Μέσω της συνεχούς δειγματοληψίας σε ένα δεδομένο πεδίο δεδομένων, είναι δυνατό να καθοριστούν τα χαρακτηριστικά μιας απόκλισης για να γίνει ευκολότερη η ανίχνευση.
Υπάρχουν μέθοδοι που βασίζονται στο μοντέλο για την ανίχνευση των ακραίων τιμών και υποθέτουν ότι όλα τα στοιχεία λαμβάνονται από μια κανονική κατανομή και θα προσδιορίσουν τις παρατηρήσεις ή τα σημεία που θεωρούνται απίθανες βάσει της μέσης ή τυπικής απόκλισης ως υπερβολικά υψηλά. Υπάρχουν διάφορες μέθοδοι ανίχνευσης των εξωστρεφών:
- Δοκιμή Grubb για τα Outliers - Αυτό βασίζεται στην υπόθεση ότι τα δεδομένα έχουν μια κανονική κατανομή και αφαιρεί ένα outlier κάθε φορά με το τεστ να επαναλαμβάνεται μέχρι να μην υπάρχουν πλέον απομεινάρια.
- Δοκιμή Q του Dixon - Με βάση επίσης την ομαλότητα του συνόλου δεδομένων, αυτή η μέθοδος ελέγχει τα κακά δεδομένα. Έχει σημειωθεί ότι αυτό πρέπει να χρησιμοποιείται με φειδώ και όχι περισσότερο από μία φορά σε ένα σύνολο δεδομένων.
- Κριτήριο Chauvenet - Αυτό χρησιμοποιείται για να αναλύσει αν το outlier είναι ψευδές ή εξακολουθεί να βρίσκεται εντός των ορίων και να θεωρείται ως μέρος του συνόλου. Λαμβάνεται η μέση και τυπική απόκλιση και υπολογίζεται η πιθανότητα εμφάνισης της απόκλισης. Τα αποτελέσματα θα καθορίσουν εάν πρέπει να συμπεριληφθούν ή όχι.
- Κριτήριο του Pierce - Ορίστηκε ένα όριο σφάλματος για μια σειρά παρατηρήσεων, πέραν των οποίων όλες οι παρατηρήσεις θα απορριφθούν, καθώς ήδη προκαλούν τόσο μεγάλο λάθος.
