Σπίτι Τάσεις Πώς το hadoop βοηθά στην επίλυση του μεγάλου προβλήματος των δεδομένων

Πώς το hadoop βοηθά στην επίλυση του μεγάλου προβλήματος των δεδομένων

Πίνακας περιεχομένων:

Anonim

Τα μεγάλα δεδομένα είναι … καλά … μεγάλα σε μέγεθος! Το ακριβές ποσό των δεδομένων που μπορούν να ταξινομηθούν ως μεγάλα δεδομένα δεν είναι πολύ ξεκάθαρο, οπότε ας μην βρεθούμε σε αυτή τη συζήτηση. Για μια μικρή εταιρεία που χρησιμοποιείται για την αντιμετώπιση δεδομένων σε gigabytes, 10 TB δεδομένων θα είναι BIG. Ωστόσο, για εταιρείες όπως το Facebook και το Yahoo, τα petabytes είναι μεγάλα.


Ακριβώς το μέγεθος των μεγάλων δεδομένων, καθιστά αδύνατη (ή τουλάχιστον απαγορευτική το κόστος) την αποθήκευση σε παραδοσιακές αποθηκευτικές βάσεις δεδομένων, όπως συμβατικές αρχειοθήκες. Μιλάμε για το κόστος αποθήκευσης gigabytes δεδομένων. Η χρήση παραδοσιακών αρχείων αποθήκευσης μπορεί να κοστίσει πολλά χρήματα για την αποθήκευση μεγάλων δεδομένων.


Εδώ θα ρίξουμε μια ματιά στα μεγάλα δεδομένα, τις προκλήσεις τους και πώς μπορεί να βοηθήσει η Hadoop να τα λύσει. Πρώτα, οι μεγαλύτερες προκλήσεις των μεγάλων δεδομένων.


Τα μεγάλα δεδομένα είναι μη δομημένα ή ημι-δομημένα

Πολλά μεγάλα δεδομένα είναι αδόμητα. Για παράδειγμα, κάντε κλικ στην επιλογή Δεδομένα αρχείου καταγραφής ροής μπορεί να μοιάζουν με:


χρονική σφραγίδα, user_id, σελίδα, σελίδα αναφοράς


Η έλλειψη δομής καθιστά τις σχεσιακές βάσεις δεδομένων ακατάλληλες για την αποθήκευση μεγάλων δεδομένων. Επιπλέον, πολλές βάσεις δεδομένων δεν μπορούν να αντιμετωπίσουν την αποθήκευση δισεκατομμυρίων σειρών δεδομένων.

Δεν υπάρχει κανένα σημείο στην αποθήκευση μεγάλων δεδομένων αν δεν μπορούμε να το επεξεργαστούμε

Η αποθήκευση μεγάλων δεδομένων είναι μέρος του παιχνιδιού. Πρέπει να το επεξεργαστούμε για να εξάγουμε τη νοημοσύνη εξ 'αυτού. Τα παραδοσιακά συστήματα αποθήκευσης είναι αρκετά "χαζή" "υπό την έννοια ότι απλά αποθηκεύουν κομμάτια. Δεν προσφέρουν καμία ισχύ επεξεργασίας.


Το παραδοσιακό μοντέλο επεξεργασίας δεδομένων έχει αποθηκευμένα δεδομένα σε ένα cluster αποθήκευσης, το οποίο αντιγράφεται σε ένα συμπλέγμα υπολογιστών για επεξεργασία. Τα αποτελέσματα επιστρέφονται στο σύμπλεγμα αποθήκευσης.


Αυτό το μοντέλο, ωστόσο, δεν λειτουργεί αρκετά για τα μεγάλα δεδομένα, επειδή η αντιγραφή τόσο μεγάλου όγκου δεδομένων σε ένα σύμπλεγμα υπολογιστών μπορεί να είναι πολύ χρονοβόρα ή αδύνατη. Ποια είναι λοιπόν η απάντηση;


Μια λύση είναι να επεξεργαστούν τα μεγάλα δεδομένα στη θέση τους, όπως σε μια συστοιχία αποθήκευσης που διπλασιάζεται ως συμπλέγματος υπολογιστών.


Όπως έχουμε δει παραπάνω, τα μεγάλα δεδομένα παραβιάζουν την παραδοσιακή αποθήκευση. Λοιπόν, πώς χειριζόμαστε τα μεγάλα δεδομένα;

Πώς Hadoop λύνει το μεγάλο πρόβλημα δεδομένων

Το Hadoop είναι χτισμένο για να τρέχει σε ένα σύμπλεγμα μηχανών

Ας ξεκινήσουμε με ένα παράδειγμα. Ας πούμε ότι πρέπει να αποθηκεύσουμε πολλές φωτογραφίες. Θα ξεκινήσουμε με ένα μόνο δίσκο. Όταν υπερβούμε έναν δίσκο, μπορούμε να χρησιμοποιήσουμε μερικούς δίσκους στοιβαγμένους σε μια μηχανή. Όταν φτάνουμε όλοι οι δίσκοι σε ένα μόνο μηχάνημα, πρέπει να φτιάξουμε ένα μάτσο μηχανών, το καθένα με μια δέσμη δίσκων.


Αυτός ακριβώς είναι ο τρόπος κατασκευής του Hadoop. Το Hadoop έχει σχεδιαστεί για να τρέχει σε ένα σύμπλεγμα μηχανών από το get go.



Οι ομαδοποιήσεις Hadoop οριζόντια

Περισσότερη αποθήκευση και υπολογιστική ισχύς μπορεί να επιτευχθεί προσθέτοντας περισσότερους κόμβους σε ένα σύμπλεγμα Hadoop. Αυτό εξαλείφει την ανάγκη να αγοράσετε όλο και πιο ισχυρό και ακριβό υλικό.


Ο Hadoop μπορεί να χειριστεί μη δομημένα / ημι-δομημένα δεδομένα

Ο Hadoop δεν επιβάλλει ένα σχήμα στα δεδομένα που αποθηκεύει. Μπορεί να χειριστεί αυθαίρετα κείμενα και δυαδικά δεδομένα. Έτσι, ο Hadoop μπορεί να χωνέψει εύκολα όλα τα μη δομημένα δεδομένα.


Τα clusters Hadoop παρέχουν αποθήκευση και υπολογισμό

Είδαμε πως η ύπαρξη ξεχωριστών συστοιχιών αποθήκευσης και επεξεργασίας δεν είναι η καλύτερη λύση για μεγάλα δεδομένα. Τα clusters Hadoop, ωστόσο, παρέχουν αποθήκευση και κατανεμημένα υπολογιστικά συστήματα όλα σε ένα.

Η επιχειρηματική υπόθεση για τον Hadoop

Hadoop παρέχει αποθήκευση για μεγάλα δεδομένα με λογικό κόστος

Η αποθήκευση μεγάλων δεδομένων χρησιμοποιώντας παραδοσιακή αποθήκευση μπορεί να είναι δαπανηρή. Το Hadoop είναι χτισμένο γύρω από το υλικό των βασικών προϊόντων, οπότε μπορεί να προσφέρει αρκετά μεγάλο αποθηκευτικό χώρο για ένα λογικό κόστος. Hadoop έχει χρησιμοποιηθεί στον τομέα σε κλίμακα petabyte.


Μια μελέτη από τον Cloudera πρότεινε ότι οι επιχειρήσεις συνήθως δαπανούν περίπου $ 25.000 έως $ 50.000 ανά τετραπαραγωγή ανά έτος. Με το Hadoop, το κόστος αυτό μειώνεται σε μερικές χιλιάδες δολάρια ανά τετραβάοτο το χρόνο. Καθώς το υλικό γίνεται φθηνότερο και φθηνότερο, αυτό το κόστος συνεχίζει να μειώνεται.


Το Hadoop επιτρέπει τη λήψη νέων ή περισσότερων δεδομένων

Μερικές φορές οι οργανώσεις δεν καταγράφουν έναν τύπο δεδομένων επειδή ήταν υπερβολικά δαπανηρό για την αποθήκευση. Δεδομένου ότι η Hadoop παρέχει αποθήκευση με λογικό κόστος, αυτό το είδος δεδομένων μπορεί να καταγραφεί και να αποθηκευτεί.


Ένα παράδειγμα θα ήταν τα αρχεία καταγραφής κλικ ιστοτόπου. Επειδή ο όγκος αυτών των αρχείων καταγραφής μπορεί να είναι πολύ υψηλός, δεν έχουν καταγραφεί πολλές οργανώσεις. Τώρα με τον Hadoop είναι δυνατόν να καταγράψετε και να αποθηκεύσετε τα αρχεία καταγραφής.


Με τον Hadoop, μπορείτε να αποθηκεύσετε δεδομένα περισσότερο

Για να διαχειριστεί τον όγκο των αποθηκευμένων δεδομένων, οι εταιρείες καθαρίζουν περιοδικά τα παλαιότερα δεδομένα. Για παράδειγμα, μπορούν να αποθηκευτούν μόνο τα αρχεία καταγραφής για τους τελευταίους τρεις μήνες, ενώ τα παλαιότερα αρχεία καταγραφής διαγράφηκαν. Με το Hadoop είναι δυνατό να αποθηκεύσετε τα ιστορικά δεδομένα περισσότερο. Αυτό επιτρέπει τη διεξαγωγή νέων αναλύσεων σε παλαιότερα ιστορικά δεδομένα.


Για παράδειγμα, κάντε κλικ στο αρχείο καταγραφής από έναν ιστότοπο. Πριν από μερικά χρόνια, αυτά τα αρχεία καταγραφής αποθηκεύτηκαν για σύντομο χρονικό διάστημα για να υπολογίσουν στατιστικά στοιχεία όπως δημοφιλείς σελίδες. Τώρα με τον Hadoop, είναι βιώσιμο να αποθηκεύσετε αυτά τα αρχεία καταγραφής κλικ για μεγαλύτερη χρονική περίοδο.


Ο Hadoop παρέχει κλιμακούμενα αναλυτικά στοιχεία

Δεν έχει νόημα να αποθηκεύσουμε όλα αυτά τα δεδομένα αν δεν μπορούμε να τα αναλύσουμε. Η Hadoop όχι μόνο παρέχει κατανεμημένη αποθήκευση, αλλά και κατανεμημένη επεξεργασία, πράγμα που σημαίνει ότι μπορούμε να χαλαρώσουμε ένα μεγάλο όγκο δεδομένων παράλληλα. Το υπολογιστικό πλαίσιο του Hadoop ονομάζεται MapReduce. Το MapReduce έχει αποδειχθεί με την κλίμακα των petabytes.


Ο Hadoop προσφέρει πλούσια αναλυτικά στοιχεία

Το εγγενές MapReduce υποστηρίζει την Java ως κύρια γλώσσα προγραμματισμού. Άλλες γλώσσες όπως το Ruby, το Python και το R μπορούν να χρησιμοποιηθούν επίσης.


Φυσικά, το γράψιμο του προσαρμοσμένου κώδικα MapReduce δεν είναι ο μόνος τρόπος για να αναλύσετε δεδομένα στο Hadoop. Χαρτογράφηση υψηλότερου επιπέδου είναι διαθέσιμο. Για παράδειγμα, ένα εργαλείο που ονομάζεται Pig παίρνει αγγλικά σαν γλώσσα ροής δεδομένων και μεταφράζει τους σε MapReduce. Ένα άλλο εργαλείο, το Hive, λαμβάνει ερωτήματα SQL και τα εκτελεί χρησιμοποιώντας το MapReduce.


Τα εργαλεία επιχειρηματικής ευφυΐας (BI) μπορούν να παρέχουν ακόμα υψηλότερο επίπεδο ανάλυσης. Υπάρχουν εργαλεία για αυτόν τον τύπο ανάλυσης επίσης.


Αυτό το περιεχόμενο είναι αποσπάσματα από το "Hadoop Illuminated" από τους Mark Kerzner και Sujee Maniyam. Έχει διατεθεί μέσω της Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

Πώς το hadoop βοηθά στην επίλυση του μεγάλου προβλήματος των δεδομένων