Πίνακας περιεχομένων:
Το Apache Hadoop αποτελεί το θεμέλιο για τις μεγάλες εφαρμογές δεδομένων εδώ και πολύ καιρό και θεωρείται η βασική πλατφόρμα δεδομένων για όλες τις προσφορές μεγάλων δεδομένων. Ωστόσο, η βάση δεδομένων και ο υπολογισμός στη μνήμη κερδίζουν δημοτικότητα λόγω της ταχύτερης απόδοσης και των γρήγορων αποτελεσμάτων. Το Apache Spark είναι ένα νέο πλαίσιο που χρησιμοποιεί τις δυνατότητες μνήμης για γρήγορη επεξεργασία (σχεδόν 100 φορές πιο γρήγορα από την Hadoop). Έτσι, το προϊόν Spark χρησιμοποιείται όλο και περισσότερο σε έναν κόσμο με μεγάλα δεδομένα και κυρίως για ταχύτερη επεξεργασία.
Webinar: Η δύναμη της πρότασης: Πώς ένας κατάλογος δεδομένων διευκολύνει τους αναλυτές Εγγραφείτε εδώ |
Τι είναι το Apache Spark;
Το Apache Spark είναι ένα πλαίσιο ανοικτού κώδικα για την επεξεργασία τεράστιων όγκων δεδομένων (μεγάλα δεδομένα) με ταχύτητα και απλότητα. Είναι κατάλληλο για εφαρμογές ανάλυσης βασισμένες σε μεγάλα δεδομένα. Το Spark μπορεί να χρησιμοποιηθεί με περιβάλλον Hadoop, αυτόνομο ή στο σύννεφο. Αναπτύχθηκε στο Πανεπιστήμιο της Καλιφόρνιας και αργότερα προσφέρθηκε στο Apache Software Foundation. Έτσι, ανήκει στην κοινότητα ανοιχτού κώδικα και μπορεί να είναι πολύ οικονομικά αποδοτικό, γεγονός που επιτρέπει στους ερασιτέχνες προγραμματιστές να δουλεύουν με ευκολία. (Για να μάθετε περισσότερα σχετικά με την ανοικτή πηγή του Hadoop, ανατρέξτε στην ενότητα Τι είναι η επιρροή του ανοιχτού κώδικα στο οικοσύστημα Apache Hadoop;)
Ο κύριος σκοπός του Spark είναι ότι προσφέρει προγραμματιστές με ένα πλαίσιο εφαρμογής που λειτουργεί γύρω από μια κεντρική δομή δεδομένων. Το Spark είναι επίσης εξαιρετικά ισχυρό και έχει την έμφυτη ικανότητα να επεξεργάζεται γρήγορα τεράστιες ποσότητες δεδομένων σε σύντομο χρονικό διάστημα, προσφέροντας έτσι εξαιρετικά καλές επιδόσεις. Αυτό το κάνει πολύ πιο γρήγορα από ό, τι λέγεται ότι είναι ο πιο κοντινό ανταγωνιστή του, Hadoop.