Πίνακας περιεχομένων:
- Πώς ξεκίνησε ο Hadoop;
- Τι είναι τόσο σημαντικό για τον Hadoop;
- Τι είναι το Σχήμα για να διαβάσετε;
- Τι είναι η κυψέλη;
- Τι είδους δεδομένα αναλύει ο Hadoop;
- Μπορείτε να δώσετε ένα πραγματικό παράδειγμα του Hadoop;
- Είναι η Hadoop ήδη ξεπερασμένη ή απλά μεταμορφωμένη;
Τι είναι ο Hadoop; Είναι ένας κίτρινος ελέφαντας παιχνιδιών. Όχι αυτό που περιμένατε; Τι θα συμβεί αυτό: ο Doug Cutting, συν-δημιουργός αυτού του προγράμματος λογισμικού ανοιχτού κώδικα, δανείστηκε το όνομα από το γιο του που συνέλαβε τον ελέφαντα παιχνιδιών Hadoop. Με λίγα λόγια, το Hadoop είναι ένα πλαίσιο λογισμικού που αναπτύχθηκε από το Apache Software Foundation που χρησιμοποιείται για την ανάπτυξη δεδομένων υψηλής έντασης, κατανεμημένων υπολογιστών. Και είναι ένα βασικό συστατικό σε έναν άλλο αναγνώστη λέξεων-κλειδιών δεν μπορεί ποτέ να φανεί να πάρει αρκετά από: μεγάλα δεδομένα. Εδώ είναι επτά πράγματα που πρέπει να ξέρετε για αυτό το μοναδικό, ελεύθερα αδειοδοτημένο λογισμικό.
Πώς ξεκίνησε ο Hadoop;
Πριν από δώδεκα χρόνια η Google δημιούργησε μια πλατφόρμα για να χειραγωγήσει τα τεράστια ποσά των δεδομένων που συλλέγει. Όπως η εταιρεία κάνει συχνά, η Google έκανε το σχέδιό της διαθέσιμο στο κοινό με τη μορφή δύο άρθρων: το Google File System και το MapReduce.
Την ίδια στιγμή, ο Doug Cutting και ο Mike Cafarella δούλευαν στην Nutch, μια νέα μηχανή αναζήτησης. Και οι δύο αγωνίστηκαν με το πώς να χειριστούν μεγάλα ποσά δεδομένων. Στη συνέχεια, οι δύο ερευνητές πήραν αέρα από τα έγγραφα της Google. Αυτή η τυχερή διασταύρωση άλλαξε τα πάντα εισάγοντας την Cutting και την Cafarella σε ένα καλύτερο σύστημα αρχείων και έναν τρόπο να παρακολουθήσουν τα δεδομένα, οδηγώντας τελικά στη δημιουργία του Hadoop.
Τι είναι τόσο σημαντικό για τον Hadoop;
Σήμερα, η συλλογή δεδομένων είναι ευκολότερη από ποτέ. Έχοντας όλα αυτά τα δεδομένα παρουσιάζει πολλές ευκαιρίες, αλλά υπάρχουν και προκλήσεις:- Οι τεράστιες ποσότητες δεδομένων απαιτούν νέες μεθόδους επεξεργασίας.
- Τα δεδομένα που συλλέγονται είναι σε μη δομημένη μορφή.
Στη συνέχεια, έπρεπε να αντιμετωπίσουν μη δομημένα δεδομένα ή δεδομένα σε μορφές που τα τυποποιημένα συστήματα σχεσιακών βάσεων δεδομένων δεν ήταν σε θέση να χειριστούν. Cutting και η Cafarella σχεδίασαν τον Hadoop να δουλεύει με κάθε τύπο δεδομένων: δομημένα, αδόμητα, εικόνες, αρχεία ήχου, ακόμη και κείμενο. Αυτή η Λευκή Βίβλος του Cloudera (ολοκληρωτή Hadoop) εξηγεί γιατί αυτό είναι σημαντικό:
-
"Με την αξιοποίηση όλων των δεδομένων σας, όχι μόνο των βάσεων δεδομένων σας, ο Hadoop σας επιτρέπει να αποκαλύψετε κρυφές σχέσεις και αποκαλύπτει απαντήσεις που ήταν πάντα απρόσιτες. Μπορείτε να αρχίσετε να παίρνετε περισσότερες αποφάσεις με βάση τα σκληρά δεδομένα, σε πλήρη σύνολα δεδομένων, όχι μόνο δείγματα και περιλήψεις. "
Τι είναι το Σχήμα για να διαβάσετε;
Όπως αναφέρθηκε προηγουμένως, ένα από τα πλεονεκτήματα του Hadoop είναι η ικανότητά του να χειρίζεται μη δομημένα δεδομένα. Κατά μία έννοια, αυτό είναι "κλοτσιές το δοχείο κάτω από το δρόμο." Τελικά τα δεδομένα χρειάζονται κάποια δομή για να τα αναλύσουν.
Εκεί το σχήμα της ανάγνωσης μπαίνει στο παιχνίδι. Το σχήμα στη διαβάθμιση είναι η συγχώνευση της μορφής των δεδομένων, η εύρεση των δεδομένων (θυμηθείτε ότι τα δεδομένα είναι διάσπαρτα σε διάφορους διακομιστές) και τι πρέπει να γίνει στα δεδομένα - όχι μια απλή εργασία. Έχει ειπωθεί ότι ο χειρισμός δεδομένων σε ένα σύστημα Hadoop απαιτεί τις δεξιότητες ενός επιχειρηματικού αναλυτή, ενός στατιστικού και ενός Java προγραμματιστή. Δυστυχώς, δεν υπάρχουν πολλοί άνθρωποι με αυτά τα προσόντα.
Τι είναι η κυψέλη;
Εάν ο Hadoop επρόκειτο να επιτύχει, η εργασία με τα δεδομένα έπρεπε να απλοποιηθεί. Έτσι, το πλήθος ανοιχτών πηγών πήγε στη δουλειά και δημιούργησε την Hive:-
"Η κυψέλη παρέχει έναν μηχανισμό για να προβάλλει τη δομή σε αυτά τα δεδομένα και να διερευνά τα δεδομένα χρησιμοποιώντας μια γλώσσα τύπου SQL που ονομάζεται HiveQL. Παράλληλα, αυτή η γλώσσα επιτρέπει επίσης στους παραδοσιακούς χάρτες / μειώνοντας τους προγραμματιστές να συνδέσουν τους προσαρμοσμένους χαρτογράφους και τους μειωτήρες όταν είναι ενοχλητικό ή δεν είναι αποτελεσματικό να εκφράσει αυτή τη λογική στην HiveQL. "
Η κυψέλη επιτρέπει το καλύτερο και των δύο κόσμων: το προσωπικό της βάσης δεδομένων που είναι εξοικειωμένο με τις εντολές SQL μπορεί να χειριστεί τα δεδομένα και οι προγραμματιστές που είναι εξοικειωμένοι με το σχήμα στη διαδικασία ανάγνωσης είναι ακόμα σε θέση να δημιουργήσουν προσαρμοσμένα ερωτήματα.
Τι είδους δεδομένα αναλύει ο Hadoop;
Οι αναλύσεις ιστού είναι το πρώτο πράγμα που έρχεται στο μυαλό, αναλύοντας τα αρχεία καταγραφής ιστού και την κυκλοφορία ιστού, προκειμένου να βελτιστοποιηθούν οι ιστότοποι. Το Facebook, για παράδειγμα, είναι σίγουρα σε αναλύσεις στο Web, χρησιμοποιώντας τον Hadoop για να ταξινομήσετε τα terabyte δεδομένων που συσσωρεύει η εταιρεία.
Οι εταιρείες χρησιμοποιούν clusters Hadoop για την ανάλυση κινδύνου, την ανίχνευση απάτης και την κατάτμηση της βάσης πελατών. Οι εταιρίες χρησιμότητας χρησιμοποιούν την Hadoop για να αναλύσουν τα δεδομένα των αισθητήρων από το ηλεκτρικό τους δίκτυο, επιτρέποντάς τους να βελτιστοποιήσουν την παραγωγή ηλεκτρικής ενέργειας. Μεγάλες εταιρείες όπως η Target, η 3M και η Medtronics χρησιμοποιούν την Hadoop για τη βελτιστοποίηση της διανομής προϊόντων, των εκτιμήσεων των επιχειρηματικών κινδύνων και της κατάτμησης της πελατειακής βάσης.
Τα πανεπιστήμια επενδύονται και στον Hadoop. Ο Brad Rubin, αναπληρωτής καθηγητής στο Πανεπιστήμιο του St. Thomas Graduate Programs in Software, ανέφερε ότι η τεχνογνωσία του Hadoop βοηθάει να ταξινομηθούν τα άφθονα δεδομένα που συλλέγονται από ερευνητικές ομάδες στο πανεπιστήμιο.
Μπορείτε να δώσετε ένα πραγματικό παράδειγμα του Hadoop;
Ένα από τα καλύτερα γνωστά παραδείγματα είναι το TimesMachine. Οι New York Times έχουν μια συλλογή πλήρους σελίδας εικόνων TIFF εφημερίδων, σχετικών μεταδεδομένων και κειμένου άρθρου από το 1851 έως το 1922, που αντιστοιχεί σε terabyte δεδομένων. Ο Derek Gottfrid της NYT, χρησιμοποιώντας ένα σύστημα EC2 / S3 / Hadoop και έναν εξειδικευμένο κωδικό:-
"Έγινε λήψη 405.000 πολύ μεγάλων εικόνων TIFF, 3.3 εκατομμυρίων άρθρων σε αρχεία SGML και 405.000 αρχεία xml σε ορθογώνιες περιοχές των TIFF. Αυτά τα δεδομένα μετατράπηκαν σε πιο φιλικές στο διαδίκτυο 810.000 εικόνες PNG (μικρογραφίες και πλήρεις εικόνες) και 405.000 αρχεία JavaScript. "
Χρησιμοποιώντας διακομιστές στο cloud Amazon Web Services, ο Gottfrid ανέφερε ότι ήταν σε θέση να επεξεργαστεί όλα τα δεδομένα που απαιτούνται για το TimesMachine σε λιγότερο από 36 ώρες.
Είναι η Hadoop ήδη ξεπερασμένη ή απλά μεταμορφωμένη;
Ο Hadoop βρισκόταν εδώ και πάνω από μια δεκαετία τώρα. Αυτό έχει πολλούς που λένε ότι είναι ξεπερασμένο. Ένας εμπειρογνώμονας, Δρ. David Rico, δήλωσε ότι "τα προϊόντα της Πληροφορικής είναι βραχύβια. Στα σκυλιά χρόνια, τα προϊόντα της Google είναι περίπου 70, ενώ ο Hadoop είναι 56."
Μπορεί να υπάρχει κάποια αλήθεια σε αυτό που λέει ο Ρίκο. Φαίνεται ότι ο Hadoop διέρχεται μια σημαντική αναθεώρηση. Για να μάθετε περισσότερα σχετικά με αυτό, ο Ρούμπιν με προσκάλεσε σε συνεδρίαση ομάδας χρηστών Twin Cities Hadoop και το θέμα της συζήτησης ήταν η εισαγωγή στο YARN:
-
"Το Apache Hadoop 2 περιλαμβάνει ένα νέο μηχανισμό MapReduce, ο οποίος έχει πολλά πλεονεκτήματα σε σχέση με την προηγούμενη υλοποίηση, συμπεριλαμβανομένης της καλύτερης επεκτασιμότητας και της αξιοποίησης των πόρων. Η νέα εφαρμογή βασίζεται σε ένα γενικό σύστημα διαχείρισης πόρων για την εκτέλεση κατανεμημένων εφαρμογών που ονομάζεται YARN.