Πίνακας περιεχομένων:
- Πόσο μεγάλα δεδομένα χρησιμοποιούνται
- Πού είναι η πραγματική αξία;
- Μερικές φορές τα μικρά δεδομένα προκαλούν μεγαλύτερο (και λιγότερο δαπανηρό) αντίκτυπο
Τα μεγάλα δεδομένα είναι μια γενική λέξη που χρησιμοποιείται για την αναφορά μεγάλου όγκου δεδομένων. Όλοι καταλαβαίνουμε ότι όσο μεγαλύτερος είναι ο όγκος των δεδομένων, τόσο πιο πολύπλοκη γίνεται. Οι παραδοσιακές λύσεις βάσεων δεδομένων συχνά αποτυγχάνουν να διαχειριστούν σωστά μεγάλους όγκους δεδομένων λόγω της πολυπλοκότητας και του μεγέθους τους. Επομένως, η διαχείριση μεγάλων όγκων δεδομένων και η εξαγωγή πραγματικών πληροφοριών είναι ένα δύσκολο έργο. Η ίδια έννοια "αξίας" ισχύει επίσης για μικρά δεδομένα.
Πόσο μεγάλα δεδομένα χρησιμοποιούνται
Οι συμβατικές λύσεις βάσεων δεδομένων που βασίζονται στην ιδέα RDBMS μπορούν να διαχειριστούν πολύ καλά τα δεδομένα συναλλαγών και χρησιμοποιούνται ευρέως σε διάφορες εφαρμογές. Αλλά όταν πρόκειται για το χειρισμό ενός μεγάλου συνόλου δεδομένων (δεδομένα που αρχειοθετούνται και είναι σε terabytes ή petabytes), αυτές οι λύσεις βάσεων δεδομένων συχνά αποτυγχάνουν. Αυτά τα σύνολα δεδομένων είναι πάρα πολύ μεγάλα και τις περισσότερες φορές, δεν ταιριάζουν στην αρχιτεκτονική των παραδοσιακών βάσεων δεδομένων. Αυτές τις μέρες, τα μεγάλα δεδομένα έχουν γίνει μια οικονομικά αποδοτική προσέγγιση για τη διαχείριση μεγαλύτερων συνόλων δεδομένων. Από οργανωτική άποψη, η χρήση μεγάλων δεδομένων μπορεί να χωριστεί στις ακόλουθες κατηγορίες, όπου η πραγματική αξία των μεγάλων δεδομένων είναι:- Αναλυτική χρήση
Οι αναλυτές των μεγάλων δεδομένων έχουν αποκαλύψει πολλές σημαντικές κρυφές πτυχές δεδομένων που είναι υπερβολικά δαπανηρές για επεξεργασία. Για παράδειγμα, αν πρέπει να ελέγξουμε το ενδιαφέρον τάσεων των μαθητών για ένα συγκεκριμένο νέο θέμα, μπορούμε να το κάνουμε αυτό αναλύοντας τα αρχεία καθημερινής παρακολούθησης και άλλα κοινωνικά και γεωγραφικά δεδομένα. Αυτά τα γεγονότα καταγράφονται στη βάση δεδομένων. Εάν δεν έχουμε πρόσβαση στα δεδομένα αυτά με αποτελεσματικό τρόπο, δεν μπορούμε να δούμε τα αποτελέσματα.
- Ενεργοποίηση νέων προϊόντων
Στο πρόσφατο παρελθόν, πολλές νέες εταιρείες στο διαδίκτυο, όπως το Facebook, έχουν αρχίσει να χρησιμοποιούν μεγάλα δεδομένα ως λύση για την κυκλοφορία νέων προϊόντων. Όλοι γνωρίζουμε πόσο δημοφιλές είναι το Facebook - έχει προετοιμάσει με επιτυχία μια εμπειρία υψηλών επιδόσεων των χρηστών χρησιμοποιώντας μεγάλα δεδομένα.
Πού είναι η πραγματική αξία;
Διαφορετικές λύσεις μεγάλων δεδομένων διαφέρουν ως προς την προσέγγιση στην οποία αποθηκεύουν δεδομένα, αλλά στο τέλος, αποθηκεύουν όλα τα δεδομένα σε επίπεδη δομή αρχείων. Σε γενικές γραμμές, ο Hadoop αποτελείται από το σύστημα αρχείων και ορισμένες αφαίρεσεις δεδομένων σε επίπεδο λειτουργικού συστήματος. Αυτό περιλαμβάνει μια μηχανή MapReduce και το Hadoop Distributed File System (HDFS). Ένα απλό σύμπλεγμα Hadoop περιλαμβάνει έναν κύριο κόμβο και διάφορους κόμβους εργαζομένων. Ο κύριος κόμβος αποτελείται από τα εξής:- Παρακολούθηση εργασιών
- Job Tracker
- Όνομα κόμβου
- Κόμβος δεδομένων
- Παρακολούθηση εργασιών
- Κόμβος δεδομένων
Ορισμένες υλοποιήσεις έχουν μόνο τον κόμβο δεδομένων. Ο κόμβος δεδομένων είναι η πραγματική περιοχή όπου βρίσκονται τα δεδομένα. Το HDFS αποθηκεύει μεγάλα αρχεία (από το φάσμα των terabytes έως τα petabytes) που διανέμονται σε πολλαπλά μηχανήματα. Η αξιοπιστία των δεδομένων σε κάθε κόμβο επιτυγχάνεται με την αναπαραγωγή των δεδομένων σε όλους τους κεντρικούς υπολογιστές. Έτσι, τα δεδομένα είναι διαθέσιμα ακόμα και όταν ένας από τους κόμβους είναι κάτω. Αυτό βοηθά στην επίτευξη ταχύτερης απάντησης σε ερωτήματα. Αυτή η ιδέα είναι πολύ χρήσιμη στην περίπτωση τεράστιων εφαρμογών όπως το Facebook. Ως χρήστης, λαμβάνουμε μια απάντηση στο αίτημά μας για συνομιλία, για παράδειγμα, σχεδόν αμέσως. Εξετάστε ένα σενάριο όπου ένας χρήστης πρέπει να περιμένει για μεγάλο χρονικό διάστημα κατά τη συνομιλία. Εάν το μήνυμα και η επακόλουθη απάντηση δεν παραδοθούν αμέσως, τότε πόσοι άνθρωποι θα χρησιμοποιήσουν πραγματικά αυτά τα εργαλεία συνομιλίας;
Επιστρέφοντας στην υλοποίηση του Facebook, εάν τα δεδομένα δεν αναπαραχθούν σε ολόκληρα τα clusters, δεν θα είναι δυνατό να έχουμε μια ελκυστική εφαρμογή. Ο Hadoop διανέμει τα δεδομένα μεταξύ των μηχανών σε ένα μεγαλύτερο σύμπλεγμα και αποθηκεύει τα αρχεία ως μια ακολουθία μπλοκ. Αυτά τα μπλοκ έχουν το ίδιο μέγεθος εκτός από το τελευταίο μπλοκ. Το μέγεθος του μπλοκ και του παράγοντα αναπαραγωγής μπορεί να προσαρμοστεί ανάλογα με τις ανάγκες. Τα αρχεία σε HDFS ακολουθούν αυστηρά την προσέγγιση μιας εγγραφής και επομένως μπορούν να γραφτούν ή να επεξεργαστούν μόνο από έναν χρήστη τη φορά. Οι αποφάσεις σχετικά με την αναπαραγωγή των μπλοκ εκτελούνται από τον κόμβο ονομάτων. Ο κόμβος ονομάτων λαμβάνει αναφορές και απαντήσεις παλμών από κάθε κόμβο δεδομένων. Οι αποκρίσεις παλμών εξασφαλίζουν τη διαθεσιμότητα του αντίστοιχου κόμβου δεδομένων. Η αναφορά περιέχει τις λεπτομέρειες των μπλοκ στον κόμβο δεδομένων.
Μια άλλη μεγάλη υλοποίηση δεδομένων, η Cassandra, χρησιμοποιεί επίσης μια παρόμοια έννοια διανομής. Η Cassandra διανέμει δεδομένα βάσει γεωγραφικής θέσης. Ως εκ τούτου, στην Cassandra, τα δεδομένα διαχωρίζονται με βάση τη γεωγραφική θέση της χρήσης δεδομένων.
Μερικές φορές τα μικρά δεδομένα προκαλούν μεγαλύτερο (και λιγότερο δαπανηρό) αντίκτυπο
Σύμφωνα με τον Rufus Pollock του Open Knowledge Foundation, δεν υπάρχει λόγος να δημιουργηθεί διαφημιστική εκστρατεία γύρω από μεγάλα δεδομένα, ενώ τα μικρά δεδομένα εξακολουθούν να είναι ο τόπος όπου βρίσκεται η πραγματική αξία.
Όπως υποδηλώνει το όνομα, τα μικρά δεδομένα είναι ένα σύνολο δεδομένων που στοχεύουν σε ένα μεγαλύτερο σύνολο δεδομένων. Τα μικρά δεδομένα σκοπεύουν να μετατοπίσουν το επίκεντρο από τη χρήση των δεδομένων και στοχεύουν επίσης στην αντιμετώπιση της τάσης της μετάβασης προς μεγάλα δεδομένα. Η προσέγγιση των μικρών δεδομένων βοηθά στη συλλογή δεδομένων με βάση συγκεκριμένες απαιτήσεις, χρησιμοποιώντας λιγότερες προσπάθειες. Ως αποτέλεσμα, είναι η πιο αποτελεσματική επιχειρηματική πρακτική κατά την εφαρμογή επιχειρηματικών πληροφοριών.
Στον πυρήνα της, η έννοια των μικρών δεδομένων περιστρέφεται γύρω από επιχειρήσεις που απαιτούν αποτελέσματα που απαιτούν περαιτέρω ενέργειες. Αυτά τα αποτελέσματα πρέπει να ληφθούν γρήγορα και η επακόλουθη ενέργεια θα πρέπει επίσης να εκτελεστεί αμέσως. Έτσι, μπορούμε να εξαλείψουμε τα είδη συστημάτων που χρησιμοποιούνται συνήθως σε μεγάλες αναλύσεις δεδομένων.
Γενικά, εάν εξετάσουμε ορισμένα από τα συγκεκριμένα συστήματα που απαιτούνται για την απόκτηση μεγάλων δεδομένων, μια εταιρεία μπορεί να επενδύσει στη δημιουργία πολλών αποθηκευτικών χώρων διακομιστών, να χρησιμοποιήσει εξελιγμένους διακομιστές υψηλού επιπέδου και τις τελευταίες εφαρμογές εξόρυξης δεδομένων για να χειριστεί διαφορετικά κομμάτια δεδομένων, συμπεριλαμβανομένων των ημερομηνιών και των ωρών των ενεργειών των χρηστών, των δημογραφικών πληροφοριών και άλλων πληροφοριών. Όλο το σύνολο δεδομένων μεταφέρεται σε μια κεντρική αποθήκη δεδομένων, όπου χρησιμοποιούνται πολύπλοκοι αλγόριθμοι για την ταξινόμηση και επεξεργασία των δεδομένων για εμφάνιση με τη μορφή λεπτομερών αναφορών.
Όλοι γνωρίζουμε ότι αυτές οι λύσεις έχουν ωφελήσει πολλές επιχειρήσεις όσον αφορά την επεκτασιμότητα και τη διαθεσιμότητα. υπάρχουν οργανισμοί που θεωρούν ότι η υιοθέτηση αυτών των προσεγγίσεων απαιτεί ουσιαστική προσπάθεια. Είναι επίσης αλήθεια ότι σε ορισμένες περιπτώσεις, παρόμοια αποτελέσματα επιτυγχάνονται χρησιμοποιώντας μια λιγότερο ισχυρή στρατηγική εξόρυξης δεδομένων.
Τα μικρά δεδομένα παρέχουν στους οργανισμούς τη δυνατότητα να υποχωρούν από την εμμονή τους με τις πιο πρόσφατες και νεότερες τεχνολογίες που υποστηρίζουν πιο εξελιγμένες επιχειρηματικές διαδικασίες. Οι εταιρείες που προωθούν μικρά στοιχεία υποστηρίζουν ότι είναι σημαντικό από την άποψη των επιχειρήσεων να χρησιμοποιούν τους πόρους τους με αποτελεσματικό τρόπο, έτσι ώστε να μπορεί να αποφευχθεί σε κάποιο βαθμό η υπέρβαση της τεχνολογίας.
Συζητήσαμε πολλά για τα μεγάλα δεδομένα και τις μικρές πραγματικότητες δεδομένων, αλλά πρέπει να καταλάβουμε ότι η επιλογή της σωστής πλατφόρμας (μεγάλα δεδομένα ή μικρά δεδομένα) για τη σωστή χρήση είναι το πιο σημαντικό μέρος της όλης άσκησης. Και η αλήθεια είναι ότι ενώ τα μεγάλα δεδομένα μπορούν να προσφέρουν πολλά οφέλη, δεν είναι πάντα καλύτερο.