Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε μεγάλα δεδομένα;

2026

Ερ:

Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε μεγάλα δεδομένα;

ΕΝΑ:

Η απάντηση στην ερώτηση είναι ένα ηχηρό ΝΑΙ. Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε ένα μεγάλο έργο δεδομένων.

Υπάρχουν πολλοί τρόποι με τους οποίους αυτό μπορεί να συμβεί και διάφοροι λόγοι για τους οποίους οι επαγγελματίες πρέπει να περιορίσουν και να καθαρίσουν τα δεδομένα με οποιονδήποτε τρόπο για να πάρουν τα σωστά αποτελέσματα. (Διαβάστε 10 μεγάλους μύθους σχετικά με τα μεγάλα δεδομένα.)

Σε γενικές γραμμές, οι ειδικοί μιλούν για τη διαφοροποίηση του "σήματος" από τον "θόρυβο" σε ένα μοντέλο. Με άλλα λόγια, σε μια θάλασσα μεγάλων δεδομένων, τα σχετικά δεδομένα διορατικότητας καθίστανται δύσκολα στοχευμένα. Σε ορισμένες περιπτώσεις, ψάχνετε για βελόνα σε άχυρα.

Για παράδειγμα, ας υποθέσουμε ότι μια εταιρεία προσπαθεί να χρησιμοποιήσει μεγάλα δεδομένα για να δημιουργήσει συγκεκριμένες πληροφορίες για ένα τμήμα μιας πελατειακής βάσης και για τις αγορές τους σε ένα συγκεκριμένο χρονικό πλαίσιο. (Διαβάστε τι κάνουν τα μεγάλα δεδομένα;)

Η συγκέντρωση τεράστιου αριθμού στοιχείων δεδομένων μπορεί να οδηγήσει σε λήψη τυχαίων δεδομένων που δεν είναι σχετικά ή μπορεί να προκαλέσει ακόμη και μια προκατάληψη που στρεβλώνει τα δεδομένα σε μία ή την άλλη κατεύθυνση.

Επίσης επιβραδύνει δραματικά τη διαδικασία, καθώς τα συστήματα πληροφορικής πρέπει να παλεύουν με μεγαλύτερα και μεγαλύτερα σύνολα δεδομένων.

Σε τόσα πολλά διαφορετικά είδη έργων, είναι εξαιρετικά σημαντικό για τους μηχανικούς δεδομένων να επεξεργάζονται τα δεδομένα σε περιορισμένα και ειδικά σύνολα δεδομένων - στην περίπτωση αυτή, θα ήταν μόνο τα δεδομένα για το συγκεκριμένο τμήμα των πελατών που μελετήθηκαν, μόνο τα δεδομένα εκείνης της χρονικής περιόδου το πλαίσιο που μελετάται και μια προσέγγιση που εξαλείφει πρόσθετα αναγνωριστικά ή πληροφορίες φόντου που μπορούν να μπερδέψουν τα πράγματα ή να επιβραδύνουν τα συστήματα. (Ρόλος ReadJob: Μηχανικός δεδομένων.)

Για περισσότερα, ας δούμε πώς λειτουργεί αυτό στα σύνορα της μηχανικής μάθησης. (Διαβάστε τη μάθηση μηχανών 101.)

Οι εμπειρογνώμονες μηχανικής μάθησης μιλούν για κάτι που ονομάζεται "overfitting" όπου ένα υπερβολικά περίπλοκο μοντέλο οδηγεί σε λιγότερο αποτελεσματικά αποτελέσματα όταν το πρόγραμμα εκμάθησης μηχανών είναι χαλαρό σε νέα δεδομένα παραγωγής.

Η υπερφόρτωση συμβαίνει όταν ένα πολύπλοκο σύνολο σημείων δεδομένων ταιριάζει σε μια αρχική εκπαίδευση πολύ καλά και δεν επιτρέπει στο πρόγραμμα να προσαρμόζεται εύκολα σε νέα δεδομένα.

Τώρα τεχνικά, η υπερφόρτωση δεν προκαλείται από την ύπαρξη πάρα πολλών δειγμάτων δεδομένων, αλλά από τη στέψη πάρα πολλών σημείων δεδομένων. Αλλά θα μπορούσατε να υποστηρίξετε ότι το να έχετε πάρα πολλά δεδομένα μπορεί να συνεισφέρει και σε αυτό το είδος προβλήματος. Η ενασχόληση με την κατάρα των διαστάσεων περιλαμβάνει μερικές από τις ίδιες τεχνικές που έγιναν σε προηγούμενα μεγάλα έργα δεδομένων, καθώς οι επαγγελματίες προσπάθησαν να εντοπίσουν τι έφεραν τα συστήματα πληροφορικής.

Η ουσία είναι ότι τα μεγάλα δεδομένα μπορούν να είναι εξαιρετικά χρήσιμα για τις εταιρείες ή μπορεί να αποτελέσουν μείζονα πρόκληση. Μια πτυχή αυτού είναι αν η εταιρεία έχει τα σωστά δεδομένα στο παιχνίδι. Οι ειδικοί γνωρίζουν ότι δεν είναι σκόπιμο να απλώς να απορρίπτονται όλα τα στοιχεία δεδομένων σε ένα hopper και να καταλήξουμε σε ιδέες με αυτόν τον τρόπο - σε νέα συστήματα cloud-native και εξελιγμένα συστήματα δεδομένων, υπάρχει μια προσπάθεια ελέγχου και διαχείρισης και επεξεργασίας δεδομένων, αποτελεσματική χρήση στοιχείων περιουσιακών στοιχείων.

Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε μεγάλα δεδομένα;

5 Μεγάλα προβλήματα ιδιωτικότητας που έρχονται με μεγάλα δεδομένα

Πάρτε αυτό, μεγάλα δεδομένα! γιατί τα μικρά δεδομένα μπορεί να συσκευάσουν μια μεγαλύτερη γροθιά

Η τεχνολογία και τα παιδιά μας: πάρα πολλά και πολύ λίγα

Η επιλογή των συντακτών

Τι είναι ένας απομακρυσμένος διακομιστής κλήσεων διαδικασιών (διακομιστής rpc); - ορισμός από την τεχνολογία

Τι είναι ένας σαρωτής δακτυλικών αποτυπωμάτων; - ορισμός από την τεχνολογία

Τι είναι η ασφάλεια αρχιτεκτονικής προσανατολισμένη στις υπηρεσίες (security soa); - ορισμός από την τεχνολογία

Τι είναι το backscatter; - ορισμός από την τεχνολογία

Η επιλογή των συντακτών

Τι είναι η ανάλυση ερωτημάτων; - ορισμός από την τεχνολογία

Τι είναι r; - ορισμός από την τεχνολογία

Τι είναι μηχανή συστάσεων; - ορισμός από την τεχνολογία

Τι είναι το ρυθμό καρέ; - ορισμός από την τεχνολογία

Η επιλογή των συντακτών

Τι είναι τα σχόλια (στη java); - ορισμός από την τεχνολογία

Τι είναι το επιχειρηματικό σύστημα πληροφοριών (tier) (eis); - ορισμός από την τεχνολογία

Τι είναι το φασόλι της επιχείρησης (eb); - ορισμός από την τεχνολογία

Τι είναι ένα φασόλι οντότητας; - ορισμός από την τεχνολογία

Η επιλογή των συντακτών

Φροντίζει

Ποιοι είναι μερικοί από τους επιχειρηματικούς περιορισμούς του δημόσιου cloud;

Ποιοι είναι μερικοί από τους παράγοντες που εμποδίζουν τις εταιρείες να υιοθετήσουν πλήρως το σύννεφο;

Hacking

Η επιλογή των συντακτών

Τι είναι το ηλεκτρονικό εμπόριο (ηλεκτρονικό εμπόριο); - ορισμός από την τεχνολογία

Τι είναι το λειτουργικό σύστημα (os); - ορισμός από την τεχνολογία

Τι είναι το linux; - ορισμός από την τεχνολογία

Τι είναι το λογισμικό επιχειρησιακής πύλης (eps); - ορισμός από την τεχνολογία

Δημοφιλείς κατηγορίες