Σπίτι Τάσεις Τι το $ @! είναι ηγέτης;

Τι το $ @! είναι ηγέτης;

Πίνακας περιεχομένων:

Anonim

Ο καθένας μιλάει για τον Hadoop, την καυτή νέα τεχνολογία που είναι εξαιρετικά βραβευμένη μεταξύ των προγραμματιστών και απλά μπορεί να αλλάξει τον κόσμο (και πάλι). Αλλά τι είναι, ούτως ή άλλως; Είναι μια γλώσσα προγραμματισμού; Μια βάση δεδομένων; Ένα σύστημα επεξεργασίας; Ένα ινδικό τσάι ζεστό;


Η ευρεία απάντηση: Hadoop είναι όλα αυτά τα πράγματα (εκτός από το τσάι άνετο), και πολλά άλλα. Πρόκειται για μια βιβλιοθήκη λογισμικού που παρέχει ένα πλαίσιο προγραμματισμού για φθηνή, χρήσιμη επεξεργασία μιας άλλης σύγχρονης λέξης-κλειδιού: μεγάλα δεδομένα.

Από πού προέρχεται ο Hadoop;

Το Apache Hadoop αποτελεί μέρος του Project Foundation από το Apache Software Foundation, μη κερδοσκοπικό οργανισμό που έχει ως αποστολή να παρέχει λογισμικό για το δημόσιο συμφέρον. Ως εκ τούτου, η βιβλιοθήκη Hadoop είναι δωρεάν λογισμικό ανοικτού κώδικα διαθέσιμο σε όλους τους προγραμματιστές.


Η βασική τεχνολογία που εξουσιάζει τον Hadoop εφηύρε πραγματικά από την Google. Πίσω στις πρώτες μέρες, η μηχανή αναζήτησης που δεν ήταν αρκετά γιγαντιαία χρειάστηκε έναν τρόπο να αναδείξει τα τεράστια ποσά των δεδομένων που συλλέγει από το Διαδίκτυο και να την μετατρέψει σε χρήσιμα και συναφή αποτελέσματα για τους χρήστες της. Με τίποτα διαθέσιμο στην αγορά που θα μπορούσε να ικανοποιήσει τις απαιτήσεις τους, η Google δημιούργησε τη δική της πλατφόρμα.


Αυτές οι καινοτομίες κυκλοφόρησαν σε ένα έργο ανοιχτού κώδικα που ονομάζεται Nutch, το οποίο αργότερα ο Hadoop χρησιμοποίησε ως ίδρυμα. Ουσιαστικά, ο Hadoop εφαρμόζει τη δύναμη της Google σε μεγάλα δεδομένα με τρόπο που είναι προσιτός για εταιρείες όλων των μεγεθών.

Πώς λειτουργεί το Hadoop;

Όπως αναφέρθηκε προηγουμένως, ο Hadoop δεν είναι ένα πράγμα - είναι πολλά πράγματα. Η βιβλιοθήκη λογισμικού που είναι Hadoop αποτελείται από τέσσερα κύρια τμήματα (modules) και μια σειρά πρόσθετων λύσεων (όπως βάσεις δεδομένων και γλώσσες προγραμματισμού) που ενισχύουν την πραγματική χρήση της. Οι τέσσερις ενότητες είναι:

  • Hadoop Κοινή: Αυτή είναι η συλλογή κοινών βοηθητικών προγραμμάτων (η κοινή βιβλιοθήκη) που υποστηρίζει ενότητες Hadoop.
  • Το σύστημα κατανομής αρχείων Hadoop (HDFS): Ένα ισχυρό κατανεμημένο σύστημα αρχείων χωρίς περιορισμούς στα αποθηκευμένα δεδομένα (που σημαίνει ότι τα δεδομένα μπορούν να είναι δομημένα ή μη δομημένα και χωρίς σχήματα, όπου πολλά DFS θα αποθηκεύουν μόνο δομημένα δεδομένα) που παρέχει πρόσβαση υψηλής απόδοσης με πλεονασμό Το HDFS επιτρέπει την αποθήκευση δεδομένων σε πολλαπλές μηχανές, οπότε αν αποτύχει ένα μηχάνημα, η διαθεσιμότητα διατηρείται μέσω των άλλων μηχανών).
  • Hadoop YARN: Αυτό το πλαίσιο είναι υπεύθυνο για τον προγραμματισμό των θέσεων εργασίας και τη διαχείριση των πόρων των συμπλεγμάτων. διασφαλίζει ότι τα δεδομένα είναι διανεμημένα επαρκώς σε πολλαπλές μηχανές για να διατηρηθεί η απόλυση. Το YARN είναι η ενότητα που κάνει τον Hadoop έναν οικονομικό και οικονομικό τρόπο επεξεργασίας μεγάλων δεδομένων.
  • Hadoop MapReduce: Αυτό το σύστημα βασισμένο στο YARN, βασισμένο στην τεχνολογία της Google, πραγματοποιεί παράλληλη επεξεργασία μεγάλων συνόλων δεδομένων (δομημένων και αδόμητων). MapReduce μπορεί επίσης να βρεθεί στα περισσότερα από τα σημερινά μεγάλα πλαίσια επεξεργασίας δεδομένων, συμπεριλαμβανομένων των βάσεων δεδομένων MPP και NoSQL.
Όλες αυτές οι λειτουργικές μονάδες δημιουργούν κατανεμημένη επεξεργασία για μεγάλα σύνολα δεδομένων. Το πλαίσιο Hadoop χρησιμοποιεί απλά μοντέλα προγραμματισμού που αναπαράγονται σε ομάδες υπολογιστών, πράγμα που σημαίνει ότι το σύστημα μπορεί να κλιμακωθεί από μεμονωμένους διακομιστές σε χιλιάδες μηχανές για αυξημένη ισχύ επεξεργασίας παρά να στηρίζεται αποκλειστικά στο υλικό.


Το υλικό που μπορεί να χειριστεί το ποσό της επεξεργαστικής ισχύος που απαιτείται για την εργασία με τα μεγάλα δεδομένα είναι ακριβό, για να το θέσουμε ήπια. Αυτή είναι η αληθινή καινοτομία του Hadoop: η δυνατότητα να σπάσει τεράστιες ποσότητες επεξεργαστικής ισχύος σε πολλαπλά, μικρότερα μηχανήματα, καθένα με δικό του τοπικό υπολογισμό και αποθήκευση, μαζί με ενσωματωμένη πλεονασμό σε επίπεδο εφαρμογής για την πρόληψη βλαβών.

Τι κάνει ο Hadoop;

Με απλά λόγια, ο Hadoop κάνει μεγάλα δεδομένα προσβάσιμα και χρησιμοποιήσιμα σε όλους.


Πριν από τον Hadoop, εταιρείες που χρησιμοποιούσαν μεγάλα δεδομένα το έκαναν ως επί το πλείστον με σχεσιακές βάσεις δεδομένων και αποθήκες δεδομένων επιχειρήσεων (που χρησιμοποιούν τεράστιες ποσότητες δαπανηρού υλικού). Παρόλο που τα εργαλεία αυτά είναι εξαιρετικά χρήσιμα για την επεξεργασία δομημένων δεδομένων - τα οποία είναι ήδη ταξινομημένα και οργανωμένα με τρόπο διαχειρίσιμο - η ικανότητα επεξεργασίας των αδόμητων δεδομένων ήταν εξαιρετικά περιορισμένη, τόσο πρακτικά ανύπαρκτη. Για να μπορούν να χρησιμοποιηθούν, τα δεδομένα έπρεπε πρώτα να δομηθούν έτσι ώστε να ταιριάζουν με τακτοποιημένους πίνακες.


Το πλαίσιο Hadoop αλλάζει αυτή την απαίτηση και το κάνει τόσο φθηνά. Με τον Hadoop, μεγάλα ποσά δεδομένων από 10 έως 100 gigabytes και άνω, τόσο δομημένα όσο και αδόμητα, μπορούν να υποβληθούν σε επεξεργασία χρησιμοποιώντας συνηθισμένους (βασικούς) διακομιστές.


Hadoop φέρνει πιθανές μεγάλες εφαρμογές δεδομένων για επιχειρήσεις όλων των μεγεθών, σε κάθε βιομηχανία. Το πλαίσιο ανοιχτού κώδικα επιτρέπει στις εταιρείες χρηματοδότησης να δημιουργούν εξελιγμένα μοντέλα αξιολόγησης χαρτοφυλακίων και ανάλυσης κινδύνου ή σε απευθείας σύνδεση λιανοπωλητές για την τελειοποίηση των απαντήσεων αναζήτησης και την επισήμανση των πελατών προς τα προϊόντα που είναι πιο πιθανό να αγοράσουν.


Με τον Hadoop, οι δυνατότητες είναι απεριόριστες.

Τι το $ @! είναι ηγέτης;