Ερ:
Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε μεγάλα δεδομένα;
ΕΝΑ:Η απάντηση στην ερώτηση είναι ένα ηχηρό ΝΑΙ. Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε ένα μεγάλο έργο δεδομένων.
Υπάρχουν πολλοί τρόποι με τους οποίους αυτό μπορεί να συμβεί και διάφοροι λόγοι για τους οποίους οι επαγγελματίες πρέπει να περιορίσουν και να καθαρίσουν τα δεδομένα με οποιονδήποτε τρόπο για να πάρουν τα σωστά αποτελέσματα. (Διαβάστε 10 μεγάλους μύθους σχετικά με τα μεγάλα δεδομένα.)
Σε γενικές γραμμές, οι ειδικοί μιλούν για τη διαφοροποίηση του "σήματος" από τον "θόρυβο" σε ένα μοντέλο. Με άλλα λόγια, σε μια θάλασσα μεγάλων δεδομένων, τα σχετικά δεδομένα διορατικότητας καθίστανται δύσκολα στοχευμένα. Σε ορισμένες περιπτώσεις, ψάχνετε για βελόνα σε άχυρα.
Για παράδειγμα, ας υποθέσουμε ότι μια εταιρεία προσπαθεί να χρησιμοποιήσει μεγάλα δεδομένα για να δημιουργήσει συγκεκριμένες πληροφορίες για ένα τμήμα μιας πελατειακής βάσης και για τις αγορές τους σε ένα συγκεκριμένο χρονικό πλαίσιο. (Διαβάστε τι κάνουν τα μεγάλα δεδομένα;)
Η συγκέντρωση τεράστιου αριθμού στοιχείων δεδομένων μπορεί να οδηγήσει σε λήψη τυχαίων δεδομένων που δεν είναι σχετικά ή μπορεί να προκαλέσει ακόμη και μια προκατάληψη που στρεβλώνει τα δεδομένα σε μία ή την άλλη κατεύθυνση.
Επίσης επιβραδύνει δραματικά τη διαδικασία, καθώς τα συστήματα πληροφορικής πρέπει να παλεύουν με μεγαλύτερα και μεγαλύτερα σύνολα δεδομένων.
Σε τόσα πολλά διαφορετικά είδη έργων, είναι εξαιρετικά σημαντικό για τους μηχανικούς δεδομένων να επεξεργάζονται τα δεδομένα σε περιορισμένα και ειδικά σύνολα δεδομένων - στην περίπτωση αυτή, θα ήταν μόνο τα δεδομένα για το συγκεκριμένο τμήμα των πελατών που μελετήθηκαν, μόνο τα δεδομένα εκείνης της χρονικής περιόδου το πλαίσιο που μελετάται και μια προσέγγιση που εξαλείφει πρόσθετα αναγνωριστικά ή πληροφορίες φόντου που μπορούν να μπερδέψουν τα πράγματα ή να επιβραδύνουν τα συστήματα. (Ρόλος ReadJob: Μηχανικός δεδομένων.)
Για περισσότερα, ας δούμε πώς λειτουργεί αυτό στα σύνορα της μηχανικής μάθησης. (Διαβάστε τη μάθηση μηχανών 101.)
Οι εμπειρογνώμονες μηχανικής μάθησης μιλούν για κάτι που ονομάζεται "overfitting" όπου ένα υπερβολικά περίπλοκο μοντέλο οδηγεί σε λιγότερο αποτελεσματικά αποτελέσματα όταν το πρόγραμμα εκμάθησης μηχανών είναι χαλαρό σε νέα δεδομένα παραγωγής.
Η υπερφόρτωση συμβαίνει όταν ένα πολύπλοκο σύνολο σημείων δεδομένων ταιριάζει σε μια αρχική εκπαίδευση πολύ καλά και δεν επιτρέπει στο πρόγραμμα να προσαρμόζεται εύκολα σε νέα δεδομένα.
Τώρα τεχνικά, η υπερφόρτωση δεν προκαλείται από την ύπαρξη πάρα πολλών δειγμάτων δεδομένων, αλλά από τη στέψη πάρα πολλών σημείων δεδομένων. Αλλά θα μπορούσατε να υποστηρίξετε ότι το να έχετε πάρα πολλά δεδομένα μπορεί να συνεισφέρει και σε αυτό το είδος προβλήματος. Η ενασχόληση με την κατάρα των διαστάσεων περιλαμβάνει μερικές από τις ίδιες τεχνικές που έγιναν σε προηγούμενα μεγάλα έργα δεδομένων, καθώς οι επαγγελματίες προσπάθησαν να εντοπίσουν τι έφεραν τα συστήματα πληροφορικής.
Η ουσία είναι ότι τα μεγάλα δεδομένα μπορούν να είναι εξαιρετικά χρήσιμα για τις εταιρείες ή μπορεί να αποτελέσουν μείζονα πρόκληση. Μια πτυχή αυτού είναι αν η εταιρεία έχει τα σωστά δεδομένα στο παιχνίδι. Οι ειδικοί γνωρίζουν ότι δεν είναι σκόπιμο να απλώς να απορρίπτονται όλα τα στοιχεία δεδομένων σε ένα hopper και να καταλήξουμε σε ιδέες με αυτόν τον τρόπο - σε νέα συστήματα cloud-native και εξελιγμένα συστήματα δεδομένων, υπάρχει μια προσπάθεια ελέγχου και διαχείρισης και επεξεργασίας δεδομένων, αποτελεσματική χρήση στοιχείων περιουσιακών στοιχείων.