Σπίτι Ήχος Ανάλυση Hadoop: δεν είναι τόσο εύκολη από πολλές πηγές δεδομένων

Ανάλυση Hadoop: δεν είναι τόσο εύκολη από πολλές πηγές δεδομένων

Πίνακας περιεχομένων:

Anonim

Hadoop είναι ένα εξαιρετικό μέρος για να αφαιρέσετε τα δεδομένα για την επεξεργασία των αναλυτικών στοιχείων ή για να μοντελοποιήσετε μεγαλύτερους όγκους μιας ενιαίας πηγής δεδομένων που δεν είναι δυνατά με τα υπάρχοντα συστήματα. Ωστόσο, καθώς οι εταιρείες φέρνουν δεδομένα από πολλές πηγές στο Hadoop, υπάρχει μια αυξανόμενη ζήτηση για την ανάλυση δεδομένων από διάφορες πηγές, κάτι που μπορεί να είναι εξαιρετικά δύσκολο να επιτευχθεί. Αυτή η ανάρτηση είναι η πρώτη σε μια σειρά τριών μερών που εξηγεί τα προβλήματα που αντιμετωπίζουν οι οργανισμοί, καθώς προσπαθούν να αναλύσουν διαφορετικές πηγές δεδομένων και τύπους μέσα στο Hadoop και πώς να επιλύσουν αυτές τις προκλήσεις. Η σημερινή ανάρτηση επικεντρώνεται στα προβλήματα που προκύπτουν όταν συνδυάζονται πολλές εσωτερικές πηγές. Οι επόμενες δύο θέσεις εξηγούν γιατί αυτά τα προβλήματα αυξάνουν με πολυπλοκότητα, καθώς προστίθενται εξωτερικές πηγές δεδομένων και πώς οι νέες προσεγγίσεις συμβάλλουν στην επίλυσή τους.

Δεδομένα από διάφορες πηγές που είναι δύσκολο να συνδεθούν και να χαρτογραφηθούν

Τα δεδομένα από διαφορετικές πηγές έχουν διαφορετικές δομές που δυσκολεύουν τη σύνδεση και τη χαρτογράφηση των τύπων δεδομένων, ακόμη και δεδομένα από εσωτερικές πηγές. Ο συνδυασμός δεδομένων μπορεί να είναι ιδιαίτερα δύσκολος εάν οι πελάτες έχουν πολλούς αριθμούς λογαριασμών ή ένας οργανισμός έχει αποκτήσει ή συγχωνευθεί με άλλες εταιρείες. Τα τελευταία χρόνια, ορισμένες οργανώσεις επιχείρησαν να χρησιμοποιήσουν εφαρμογές ανίχνευσης δεδομένων ή επιστήμης δεδομένων για την ανάλυση δεδομένων από πολλαπλές πηγές που αποθηκεύτηκαν στο Hadoop. Αυτή η προσέγγιση είναι προβληματική επειδή περιλαμβάνει πολλή εικασία: οι χρήστες πρέπει να αποφασίσουν ποια ξένα κλειδιά θα χρησιμοποιήσουν για να συνδέσουν διάφορες πηγές δεδομένων και να κάνουν υποθέσεις κατά τη δημιουργία επικαλύψεων μοντέλων δεδομένων. Αυτές οι εικασίες είναι δύσκολο να δοκιμαστούν και συχνά λανθασμένες όταν εφαρμόζονται σε κλίμακα, γεγονός που οδηγεί σε εσφαλμένη ανάλυση δεδομένων και δυσπιστία των πηγών.

Οι εμπειρογνώμονες του Hadoop προσπαθούν να συγχωνεύσουν τα δεδομένα μαζί

Επομένως, οι οργανισμοί που επιθυμούν να αναλύσουν τα δεδομένα σε όλες τις πηγές δεδομένων έχουν προσφύγει στην πρόσληψη εμπειρογνωμόνων του Hadoop για τη δημιουργία προσαρμοσμένων σεναρίων δέσμης ενεργειών για τη συγχώνευση συνόλων δεδομένων. Αυτοί οι εμπειρογνώμονες του Hadoop δεν είναι συνήθως ειδικοί για την ολοκλήρωση δεδομένων ή για την επίλυση οντότητας, αλλά κάνουν ό, τι μπορούν για να αντιμετωπίσουν τις άμεσες ανάγκες του οργανισμού. Αυτοί οι εμπειρογνώμονες συνήθως χρησιμοποιούν το Pig ή το Java για να γράψουν σκληρούς και γρήγορους κανόνες που καθορίζουν τον τρόπο συνδυασμού των δομημένων δεδομένων από συγκεκριμένες πηγές, π.χ. την αντιστοίχιση αρχείων που βασίζονται σε έναν αριθμό λογαριασμού. Αφού έχει γραφτεί μια δέσμη ενεργειών για δύο πηγές, εάν χρειάζεται να προστεθεί μια τρίτη πηγή, πρέπει να αφαιρεθεί το πρώτο σενάριο και να δημιουργηθεί μια νέα δέσμη ενεργειών που θα συνδυάζει τρεις συγκεκριμένες πηγές. Το ίδιο συμβαίνει αν προστεθεί άλλη πηγή και ούτω καθεξής. Δεν είναι μόνο αυτή η προσέγγιση αναποτελεσματική, αλλά αποτυγχάνει και όταν εφαρμόζεται σε κλίμακα, χειρίζεται άσχημα περιστατικά, μπορεί να οδηγήσει σε μεγάλο αριθμό διπλών εγγραφών και συχνά συγχωνεύει πολλά αρχεία που δεν πρέπει να συνδυαστούν.

Ανάλυση Hadoop: δεν είναι τόσο εύκολη από πολλές πηγές δεδομένων