Σπίτι Σκεύη, εξαρτήματα Μεγάλο σίδερο, πληρούν τα μεγάλα δεδομένα: απελευθέρωση δεδομένων mainframe με hadoop και σπινθήρα

Μεγάλο σίδερο, πληρούν τα μεγάλα δεδομένα: απελευθέρωση δεδομένων mainframe με hadoop και σπινθήρα

Anonim

Από το προσωπικό της Techopedia, 2 Ιουνίου 2016

Takeaway: Το οικοσύστημα Hadoop χρησιμοποιείται σε mainframes για την επεξεργασία μεγάλων δεδομένων γρήγορα και αποτελεσματικά.

Δεν έχετε εισέλθει αυτήν τη στιγμή. Συνδεθείτε ή εγγραφείτε για να δείτε το βίντεο.

Eric Kavanagh: Εντάξει, κυρίες και κύριοι, είναι τέσσερις η Ανατολική την Πέμπτη, και αυτές τις μέρες αυτό σημαίνει φυσικά ότι είναι καιρός για τις Hot Technologies. Ναι, πράγματι, το όνομά μου είναι ο Eric Kavanagh. Θα είμαι ο συντονιστής σας για το σημερινό σεμινάριο ιστού. Είναι καλό πράγμα, παιδιά, "Μεγάλο σίδερο, Γνωρίστε τα μεγάλα δεδομένα" - Αγαπώ ακριβώς τον τίτλο - "Απελευθέρωση δεδομένων mainframe με Hadoop και Spark." Θα μιλήσουμε για το παλιό συναντά νέο. Ουάου! Καλύπτουμε το φάσμα όσων έχουμε μιλήσει στα τελευταία 50 χρόνια της επιχείρησης IT. Spark συναντά mainframe, μου αρέσει.

Υπάρχει μια θέση σχετικά με την δική σας πραγματικά και αρκετό για μένα. Το έτος είναι ζεστό. Μιλάμε για καυτά θέματα σε αυτή τη σειρά γιατί προσπαθούμε πραγματικά να βοηθήσουμε τους λαούς να κατανοήσουν ορισμένους κλάδους, ορισμένους χώρους. Τι σημαίνει, για παράδειγμα, μια αναλυτική πλατφόρμα; Τι σημαίνει απελευθέρωση μεγάλων δεδομένων από mainframes; Τι σημαίνει όλα αυτά τα πράγματα; Προσπαθούμε να σας βοηθήσουμε να κατανοήσετε συγκεκριμένα είδη τεχνολογιών, όπου εντάσσονται στο μίγμα και πώς μπορείτε να τα χρησιμοποιήσετε.

Έχουμε δύο αναλυτές σήμερα και στη συνέχεια, φυσικά, Tendü Yogurtçu της Syncsort. Είναι οραματιστής στο χώρο μας, πολύ ευτυχής που την έχει σήμερα στο διαδίκτυο, με το δικό μας Dez Blanchfield και τον Δρ Robin Bloor. Θα πω μερικά γρήγορα λόγια. Ένας είναι ότι, οι λαοί, παίζετε μεγάλο ρόλο σε αυτή τη διαδικασία, γι 'αυτό παρακαλώ μην είστε ντροπαλός να ρωτάτε κάποιες καλές ερωτήσεις. Θα θέλαμε να φτάσουμε σε αυτά κατά τη διάρκεια του στοιχείου Q & A του διαδικτυακού καναλιού, το οποίο συνήθως βρίσκεται στο τέλος της εκπομπής. Και το μόνο που έχω να πω είναι ότι έχουμε πολύ καλό περιεχόμενο, γι 'αυτό είμαι ενθουσιασμένος που ακούω αυτά που πρέπει να πουν αυτά τα αγόρια. Και με αυτό, θα το παραδώσω στο Dez Blanchfield. Dez, το πάτωμα είναι δικό σου, πάρτε το μακριά.

Dez Blanchfield: Σας ευχαριστώ, Eric, και σας ευχαριστώ όλους για την παρουσία σας σήμερα. Έτσι, παίρνω πολύ ενθουσιασμένος όταν έχω την ευκαιρία να μιλήσω για ένα από τα αγαπημένα μου πράγματα στον κόσμο, mainframes. Δεν έχουν πολύ αγάπη αυτές τις μέρες. Η άποψή μου είναι ότι το mainframe ήταν η αρχική πλατφόρμα δεδομένων. Κάποιοι θα υποστήριζαν ότι ήταν ο μόνος υπολογιστής εκείνη την εποχή και αυτό είναι ένα δίκαιο σημείο που πρέπει να γίνει, αλλά για πάνω από 60 χρόνια τώρα έχουν πραγματικά το μηχανοστάσιο των όσων μεγάλα δεδομένα είναι αργά δημοφιλής. Και θα πάω σε ένα μικρό ταξίδι για το γιατί πιστεύω ότι συμβαίνει αυτό.

Έχουμε δει ένα ταξίδι στις στοίβες υλικού τεχνολογίας στο πλαίσιο του mainframes στροφή από την εικόνα που βλέπετε στην οθόνη τώρα. Πρόκειται για ένα παλιό mainframe της FACOM, ένα από τα αγαπημένα μου. Έχουμε μετακινηθεί μέσα από τη μεγάλη σιδερένια φάση, τα τέλη της δεκαετίας του '90 και το boom dot-com. Αυτό είναι το Sun Microsystems E10000. Αυτό το πράγμα ήταν ένα απόλυτο τέρας σε 96 επεξεργαστές. Αρχικά 64 αλλά θα μπορούσε να αναβαθμιστεί σε 96 CPUs. Κάθε CPU μπορεί να τρέξει 1.024 θέματα. Κάθε νήμα θα μπορούσε να είναι ταυτόχρονα με ρυθμό εφαρμογής. Ήταν απλώς τερατώδες και στην πραγματικότητα τροφοδοτούσε το boom dot-com. Αυτά είναι όλα τα μεγάλα μονόκερα, όπως τα αποκαλούμε, τώρα τρέχουμε, και όχι μόνο τις μεγάλες επιχειρήσεις, μερικοί από τους μεγάλους ιστοτόπους.

Και έπειτα καταλήξαμε σε αυτό το κοινό μοντέλο PC off-the-shelf. Μόλις συγκολλήσαμε πολλά φτηνά μηχανήματα μαζί και δημιουργήσαμε ένα σύμπλεγμα και προσεγγίσαμε τη μεγάλη πρόκληση σιδήρου και τι έγινε μεγάλα δεδομένα, ιδίως υπό τη μορφή του έργου Hadoop που προήλθε από την μηχανή αναζήτησης ανοιχτού κώδικα Nutch. Και ουσιαστικά αναδημιουργήσαμε το mainframe και πολλά μικρά CPU που είναι κολλημένα μεταξύ τους και είναι ικανά να δρουν σαν μονοπάτια L και με τη μορφή ξεχωριστών εργασιών ή μερών εργασιών και ήταν αρκετά αποτελεσματικά με πολλούς τρόπους. Φθηνότερο εάν ξεκινήσατε μικρότερες, αλλά πάντοτε πολλές από αυτές τις μεγάλες συστάδες έχουν φτάσει πιο ακριβά από ένα mainframe.

Η άποψή μου σχετικά με αυτά τα πράγματα είναι ότι με τη βιασύνη από το boom dot-com έως ό, τι έγινε Web 2.0 και τώρα κυνηγούν μονόκεροι, έχουμε ξεχάσει ότι αυτή η πλατφόρμα εξακολουθεί να τροφοδοτεί πολλά από τα μεγαλύτερα συστήματα κρίσιμης σημασίας μας εκεί έξω. Όταν σκεφτόμαστε τι τρέχει στις πλατφόρμες mainframe εκεί έξω. Είναι πάρα πολύ τα μεγάλα δεδομένα, ιδιαίτερα τα δεδομένα των δεδομένων, αλλά σίγουρα τα μεγάλα δεδομένα. Παραδοσιακά συστήματα επιχειρήσεων και κυβέρνησης, όπως η διαχείριση τραπεζών και πλούτου και η ασφάλιση ειδικότερα, χρησιμοποιούμε όλους καθημερινά.

Συστήματα κράτησης αεροπορικών εταιρειών και διαχείρισης πτήσης, ιδίως διαχείρισης πτήσεων, όπου είναι κρίσιμο σε πραγματικό χρόνο. Σχεδόν κάθε κράτος και ομοσπονδιακή κυβέρνηση σε κάποιο χρονικό διάστημα είχε ένα mainframe και πάντοτε πολλοί εξακολουθούν να τους έχουν. Λιανικό εμπόριο και μεταποίηση. Μερικοί από το παλιό λογισμικό που μόλις βρισκόταν γύρω και δεν έχει φύγει ποτέ. Απλά συνεχίζει να εξουσιάζει τα περιβάλλοντα κατασκευής και σίγουρα το λιανικό εμπόριο σε κλίμακα. Ιατρικά συστήματα. Συστήματα άμυνας, σίγουρα αμυντικά συστήματα.

Τις τελευταίες δύο εβδομάδες έχω διαβάσει πολλά άρθρα σχετικά με το γεγονός ότι ορισμένα από τα συστήματα ελέγχου πυραύλων εξακολουθούν να τρέχουν σε παλιά mainframes που αγωνίζονται να βρουν μέρη για. Καταλαβαίνουν πώς να αναβαθμίσουν σε νέα mainframes. Συστήματα μεταφοράς και υλικοτεχνικής υποστήριξης. Αυτά μπορεί να μην ακούγονται σαν τα σέξι θέματα αλλά αυτά είναι τα θέματα που αντιμετωπίζουμε σε καθημερινή βάση. Και ορισμένα πολύ μεγάλα τηλεπικοινωνιακά περιβάλλοντα εξακολουθούν να τρέχουν σε πλατφόρμες mainframe.

Όταν σκέφτεστε τους τύπους δεδομένων που βρίσκονται εκεί, είναι όλα κρίσιμα για την αποστολή. Είναι πραγματικά σημαντικές πλατφόρμες και πλατφόρμες που θεωρούμε δεδομένες κάθε μέρα και με πολλούς τρόπους καθιστούν δυνατή τη ζωή. Ποιος λοιπόν χρησιμοποιεί ένα mainframe και ποιοι είναι αυτοί οι άνθρωποι που κρατούν τις μεγάλες αυτές πλατφόρμες και κρατούν όλα αυτά τα δεδομένα; Λοιπόν, όπως είπα εδώ, πιστεύω ότι είναι εύκολο να ξεγελαστούν από τη μετάβαση των μέσων ενημέρωσης από το μεγάλο σίδερο σε ράφια συνηθισμένων συστοιχιών εκτός ορίων ή φτηνών υπολογιστών ή μηχανημάτων x86, να σκεφτούν ότι το mainframe πέθανε και εξαφανίστηκε. Αλλά τα δεδομένα λένε ότι το mainframe δεν πήγε ποτέ και στην πραγματικότητα είναι εδώ για να μείνει.

Η έρευνα που έχω συγκεντρώσει εδώ τις τελευταίες δύο εβδομάδες έδειξε ότι το 70 τοις εκατό των επιχειρήσεων, ιδιαίτερα των μεγάλων επιχειρήσεων, τα δεδομένα εξακολουθούν να βρίσκονται στην πραγματικότητα σε ένα mainframe κάποιου τύπου. Το εβδομήντα ένα τοις εκατό των Fortune 500 εξακολουθεί να τρέχει βασικά επιχειρηματικά συστήματα σε mainframes κάπου. Στην πραγματικότητα, εδώ στην Αυστραλία, έχουμε μια σειρά από οργανώσεις που διαθέτουν ένα κέντρο δεδομένων στη μέση μιας πόλης. Είναι ένας πραγματικός υπόγειος υπολογιστής αποτελεσματικά, και ο αριθμός των mainframes τρέχει εκεί, ticking και ευτυχώς να κάνουν τη δουλειά τους. Και πολύ λίγοι άνθρωποι γνωρίζουν ότι το περπάτημα στους δρόμους, ακριβώς κάτω από τα πόδια τους σε ένα συγκεκριμένο τμήμα της πόλης υπάρχει αυτό το τεράστιο κέντρο δεδομένων γεμάτο με mainframes. Ενενήντα δύο από τις 100 τράπεζες σε όλο τον κόσμο, οι πρώτες 100 τράπεζες που είναι, εξακολουθούν να τρέχουν τραπεζικά συστήματα σε mainframes. Είκοσι τρεις από τις κορυφαίες 25 αλυσίδες λιανικής πώλησης σε όλο τον κόσμο χρησιμοποιούν mainframes για να τρέξουν ακόμα τα συστήματα διαχείρισης λιανικής σε πλατφόρμες EIP και BI.

Είναι ενδιαφέρον ότι 10 από τους 10 κορυφαίους ασφαλιστές εξακολουθούν να τρέχουν τις πλατφόρμες τους στο mainframe και στην πραγματικότητα τροφοδοτούν τις υπηρεσίες cloud στο mainframe. Εάν χρησιμοποιείτε μια διεπαφή ιστού ή μια εφαρμογή για κινητά κάπου που υπάρχει ένα μεσαίο λογισμικό μια διασύνδεση είναι, που στην πραγματικότητα μιλάμε για κάτι πραγματικά βαρύ και μεγάλο στο πίσω μέρος.

Βρήκα πάνω από 225 κρατικές και τοπικές κυβερνητικές υπηρεσίες παγκοσμίως που τρέχουν σε mainframe ακόμα. Είμαι βέβαιος ότι υπάρχουν πολλοί λόγοι για αυτό. Ίσως δεν έχουν τον προϋπολογισμό για να εξετάσουν το νέο σίδερο, αλλά αυτό είναι ένα τεράστιο αποτύπωμα πολύ μεγάλων περιβαλλόντων που τρέχουν στο mainframe με μερικά πολύ κρίσιμα δεδομένα. Και όπως ανέφερα προηγουμένως, τα περισσότερα έθνη εξακολουθούν να τρέχουν τα βασικά αμυντικά τους συστήματα στο mainframe. Είμαι βέβαιος ότι με πολλούς τρόπους προσπαθούν να κατεβούν εκεί αλλά εκεί πηγαίνετε.

Το 2015 η IDC διενήργησε έρευνα και 350 από τους παρατηρητές των CIO ανέφεραν ότι εξακολουθούν να ανήκουν και να διαχειρίζονται μεγάλο σίδερο με τη μορφή mainframes. Και μου φάνηκε ότι είναι πιθανό ότι είναι κάτι παραπάνω από τον αριθμό των μεγάλης κλίμακας συμπλεγμάτων Hadoop που κυκλοφορούν σήμερα παγκοσμίως στην παραγωγή - μια ενδιαφέρουσα μικρή στάση εκεί. Πάω να προχωρήσω και να επικυρώσω αυτό, αλλά ήταν ένας μεγάλος αριθμός. Τριακόσιες πενήντα CIO ανέφεραν ότι έχουν ένα ή περισσότερα κεντρικά συστήματα που βρίσκονται ακόμη στην παραγωγή.

Πέρυσι, το 2015, η IBM μας έδωσε το ισχυρό Z13, την 13η επανάληψη της mainframe πλατφόρμας. Τα μέσα ενημέρωσης έγιναν άγρια ​​για αυτό το πράγμα, επειδή ήταν έκπληκτοι ότι η IBM εξακολουθούσε να κατασκευάζει mainframes. Όταν σήκωσαν την κουκούλα και κοίταξε τι ήταν κάτω από το πράγμα, συνειδητοποίησαν ότι ήταν στην πραγματικότητα ισοδύναμη με σχεδόν κάθε σύγχρονη πλατφόρμα που είχαμε ενθουσιαστεί με τη μορφή μεγάλων δεδομένων, Hadoop και σίγουρα των ομάδων. Αυτό το πράγμα έτρεξε Spark και τώρα Hadoop εγγενώς. Θα μπορούσατε να τρέξετε χιλιάδες και χιλιάδες μηχανές Linux σε αυτό και φαινόταν και ένιωθε σαν οποιοδήποτε άλλο σύμπλεγμα. Ήταν μια εκπληκτική μηχανή.

Ορισμένες οργανώσεις έλαβαν αυτά τα πράγματα και στην πραγματικότητα έκανα κάποια στοιχεία σχετικά με το πόσες από αυτές τις μηχανές αναλαμβάνουν. Τώρα έχω την άποψη ότι το τερματικό κειμένου 3270 έχει αντικατασταθεί από προγράμματα περιήγησης ιστού και κινητές εφαρμογές για κάποιο χρονικό διάστημα και υπάρχουν πολλά δεδομένα που το υποστηρίζουν. Νομίζω ότι τώρα εισερχόμαστε σε μια εποχή όπου έχουμε συνειδητοποιήσει ότι αυτά τα mainframes δεν πηγαίνουν μακριά και υπάρχει ένα σημαντικό ποσό δεδομένων για αυτούς. Και λοιπόν αυτό που κάνουμε τώρα είναι να προσθέσουμε απλά αυτά που αποκαλώ εργαλεία ανάλυσης off-the-shelf. Αυτές δεν είναι προσαρμοσμένες εφαρμογές. Αυτά είναι τα πράγματα που είναι εξατομικευμένα εφάπαξ. Αυτά είναι πράγματα που μπορείτε κυριολεκτικά να αγοράσετε μόνο σε ένα συσκευασμένο κουτί per se και να συνδέσετε το mainframe σας και να κάνετε κάποια αναλυτικά στοιχεία.

Όπως είπα και πριν, το mainframe ήταν εδώ για πάνω από 60 χρόνια, στην πραγματικότητα. Όταν σκεφτόμαστε πόσο καιρό είναι αυτό, αυτό είναι μεγαλύτερο από ό, τι οι περισσότερες επαγγελματικές σταδιοδρομίες των επαγγελματιών του IT πραγματικά καλύπτουν. Και στην πραγματικότητα ίσως μερικές από τις ζωές τους, ακόμη και. Το 2002 η IBM πώλησε 2.300 mainframes. Το 2013 που αυξήθηκε σε 2.700 mainframes. Αυτό είναι 2.700 πωλήσεις mainframes σε ένα έτος το 2013. Δεν μπορούσα να πάρω ακριβή δεδομένα το 2015, αλλά φαντάζομαι ότι πλησιάζει γρήγορα στις 3.000 μονάδες που πωλήθηκαν το χρόνο το 2015, 2013. Και ανυπομονώ να το επιβεβαιώσω αυτό.

Με την κυκλοφορία του Z13, η 13η επανάσταση μιας πλατφόρμας mainframe, η οποία νομίζω ότι κοστίζει γύρω στα 1, 2 ή 1, 3 δισεκατομμύρια δολάρια για να αναπτυχθεί από την αρχή, η IBM δηλαδή, είναι μια μηχανή που μοιάζει και αισθάνεται όπως κάθε άλλο σύμπλεγμα που έχουμε σήμερα, και τρέχει native Hadoop και Spark. Και σίγουρα μπορεί να συνδεθεί με άλλα εργαλεία ανάλυσης και μεγάλα δεδομένα ή να συνδεθεί σταθερά με ένα από τα υπάρχοντα ή νέα clusters του Hadoop. Έχω αυτή την άποψη ότι η ενσωμάτωση της πλατφόρμας mainframe στη μεγάλη στρατηγική δεδομένων σας είναι απαραίτητη. Προφανώς, εάν έχετε ένα, έχετε πολλά δεδομένα και θέλετε να μάθετε πώς να το απομακρύνετε εκεί. Και αφήνονται να συλλέγουν σκόνη με πολλούς τρόπους, διανοητικά και συναισθηματικά όσο ο επιχειρηματικός κόσμος πηγαίνει, αλλά είναι εδώ για να μείνουν.

Η συνδεσιμότητα και οι διασυνδέσεις για όλα τα εργαλεία ανάλυσης με τα κεντρικά φιλοξενούντα δεδομένα θα πρέπει να αποτελούν βασικό κομμάτι των επιχειρησιακών σας σχεδίων και ιδιαίτερα των μεγάλων κυβερνητικών σχεδίων δεδομένων. Και συνεχώς το λογισμικό τους παρατηρεί, βλέποντάς το μακρά και συνειδητοποιώντας τι είναι μέσα αυτά τα πράγματα και συνδέοντας τα μυαλά που αρχίζουν να παίρνουν ένα κομμάτι της διορατικότητας και μια μικρή αίσθηση για το τι είναι στην πραγματικότητα κάτω από την κουκούλα. Και με αυτό θα παραδώσει στον αγαπητό συνάδελφό μου, τον Δρ Robin Bloor και θα προσθέσει σε αυτό το μικρό ταξίδι. Ρόμπιν, πάρτε το μακριά.

Robin Bloor: Σας ευχαριστώ. Εντάξει, καθώς η Dez έχει τραγουδήσει το τραγούδι του mainframe, θα πάω σε αυτό που νομίζω ότι συμβαίνει όσον αφορά τον παλαιό κεντρικό υπολογιστή και τον νέο κόσμο Hadoop. Υποθέτω ότι το μεγάλο ερώτημα εδώ είναι, πώς διαχειρίζεστε όλα αυτά τα δεδομένα; Δεν πιστεύω ότι το mainframe αμφισβητείται σε σχέση με τις μεγάλες ικανότητες δεδομένων του - η μεγάλη δυνατότητα δεδομένων του είναι εξαιρετική, όπως επεσήμανε ο Dez, είναι εξαιρετικά ικανός. Στην πραγματικότητα μπορείτε να βάλετε τα clusters του Hadoop σε αυτό. Όπου αμφισβητείται είναι από την άποψη του οικοσυστήματος και θα το επεξεργαστώ κάπως.

Ακολουθεί κάποια τοποθέτηση κεντρικού υπολογιστή. Έχει υψηλό κόστος εισόδου και αυτό που συνέβη στο παρελθόν, από τα μέσα της δεκαετίας του '90, όταν η δημοτικότητα των mainframes άρχισε να βουτά, τείνει να έχει χάσει το χαμηλό τέλος, όσους αγόραζαν φθηνά mainframes και δεν ήταν δεν είναι ιδιαίτερα οικονομικό για αυτούς τους ανθρώπους. Αλλά υψηλότερα στην πραγματικότητα στο μεσαίο εύρος και την υψηλή εμβέλεια του mainframe ήταν ακόμα στην πραγματικότητα, και αποδεδειγμένα στην πραγματικότητα, απίστευτα φθηνή υπολογιστική.

Ήταν, πρέπει να ειπωθεί, διασωθεί από το Linux επειδή το Linux που υλοποιήθηκε σε ένα mainframe κατέστησε φυσικά δυνατή την εκτέλεση όλων των εφαρμογών του Linux. Πολλές εφαρμογές Linux πήγαν εκεί πριν τα μεγάλα δεδομένα ήταν ακόμη και μια λέξη, ή δύο λέξεις υποθέτω. Είναι στην πραγματικότητα μια αρκετά καλή πλατφόρμα για ιδιωτικό σύννεφο. Εξαιτίας αυτού μπορεί να συμμετάσχει σε υβριδικές εφαρμογές σύννεφου. Ένα από τα προβλήματα είναι ότι οι ικανότητες των mainframe είναι περιορισμένες. Οι δεξιότητες κεντρικού υπολογιστή που υπάρχουν είναι στην πραγματικότητα γηράσκουν, με την έννοια ότι οι άνθρωποι εγκαταλείπουν τη βιομηχανία για συνταξιοδότηση χρόνο με το χρόνο και απλώς αντικαθίστανται μόνο από την άποψη του αριθμού των ανθρώπων. Αυτό είναι ένα θέμα. Αλλά εξακολουθεί να είναι φθηνή υπολογιστική.

Η περιοχή στην οποία αμφισβητείται φυσικά είναι αυτό το όλο πράγμα Hadoop. Αυτή είναι μια εικόνα του Doug Cutting με τον αρχικό ελέφαντα Hadoop. Το οικοσύστημα Hadoop είναι - και πρόκειται να παραμείνει - το κυρίαρχο μεγάλο οικοσύστημα δεδομένων. Προσφέρει καλύτερη κλίμακα από ό, τι το mainframe μπορεί πραγματικά να επιτύχει και είναι ένα χαμηλότερο κόστος ως αποθήκη δεδομένων από πολύ δρόμο. Το οικοσύστημα Hadoop εξελίσσεται. Ο καλύτερος τρόπος να σκεφτεί κανείς κάτι τέτοιο είναι κάποτε μια συγκεκριμένη πλατφόρμα υλικού και το περιβάλλον λειτουργίας με αυτό γίνεται κυρίαρχο, τότε το οικοσύστημα ζωντανεύει. Και αυτό συνέβη με το mainframe της IBM. Λοιπόν, αργότερα συνέβη με το ψηφιακό VAX, συνέβη με τους διακομιστές της Sun, συνέβη με τα Windows, συνέβη με το Linux.

Και αυτό που συνέβη είναι ότι ο Hadoop, τον οποίο πάντα σκέφτομαι ή σκέφτομαι, ως ένα είδος κατανεμημένου περιβάλλοντος για δεδομένα, το οικοσύστημα εξελίσσεται με απίστευτο ρυθμό. Θέλω να πω αν αναφέρετε μόνο τις διάφορες εντυπωσιακές συνεισφορές που είναι ανοιχτού κώδικα, Spark, Flink, Kafka, Presto και στη συνέχεια προσθέτετε σε αυτό κάποιες από τις βάσεις δεδομένων, τις δυνατότητες NoSQL και SQL που βρίσκονται τώρα στο Hadoop. Το Hadoop είναι το πιο ενεργό οικοσύστημα που πραγματικά υπάρχει εκεί, σίγουρα στον τομέα των εταιρικών υπολογιστών. Αλλά αν θέλετε να το αντιμετωπίζετε ως βάση δεδομένων, απλά δεν συγκρίνεται αυτή τη στιγμή με αυτό που σκέφτομαι ως πραγματικές βάσεις δεδομένων, ειδικά στον χώρο αποθήκης δεδομένων. Και αυτό εξηγεί σε κάποιο βαθμό την επιτυχία πολλών μεγάλων βάσεων δεδομένων NoSQL που δεν τρέχουν σε Hadoop όπως το CouchDB και ούτω καθεξής.

Ως λίμνη δεδομένων έχει ένα πολύ πιο πλούσιο οικοσύστημα από οποιαδήποτε άλλη πλατφόρμα και δεν πρόκειται να εκτοπιστεί από αυτό. Το οικοσύστημα του δεν είναι μόνο το οικοσύστημα ανοιχτού κώδικα. Υπάρχει τώρα ένας δραματικός αριθμός μελών λογισμικού που διαθέτουν προϊόντα τα οποία είναι βασικά κατασκευασμένα για τον Hadoop ή έχουν εισαχθεί στον Hadoop. Και μόλις δημιούργησαν ένα οικοσύστημα που δεν υπάρχει τίποτα που να μπορεί να ανταγωνιστεί με αυτό σε σχέση με το εύρος του. Και αυτό σημαίνει πραγματικά ότι έχει γίνει η πλατφόρμα για μεγάλη καινοτομία δεδομένων. Αλλά κατά τη γνώμη μου είναι ακόμα ανώριμο και θα μπορούσαμε να έχουμε μακρές συζητήσεις για το τι είναι και δεν είναι, ας πούμε, επιχειρησιακά ώριμη με τον Hadoop, αλλά νομίζω ότι οι περισσότεροι άνθρωποι που κοιτάζουν τον συγκεκριμένο τομέα γνωρίζουν πολύ καλά ότι ο Hadoop είναι δεκαετίες πίσω από το mainframe από άποψη επιχειρησιακής ικανότητας.

Η εξελισσόμενη λίμνη των δεδομένων. Η λίμνη δεδομένων είναι μια πλατφόρμα από οποιονδήποτε ορισμό και αν σκέφτεστε ότι υπάρχει ένα στρώμα δεδομένων στον εταιρικό υπολογισμό τώρα είναι πολύ εύκολο να το σκεφτείτε από την άποψη των σταθερών βάσεων δεδομένων και τη λίμνη δεδομένων που συνθέτουν το επίπεδο δεδομένων. Οι εφαρμογές λίμνης δεδομένων είναι πολλές και ποικίλες. Έχω ένα διάγραμμα εδώ που απλά περνάει από τα διάφορα δεδομένα που διαμαρτύρονται για τα πράγματα που πρέπει να γίνουν αν χρησιμοποιήσετε τον Hadoop ως περιοχή σταδιοδρομίας ή τον Hadoop και τον Spark ως περιοχή σταδιοδρομίας. Και έχετε το όλον - καταγωγή δεδομένων, καθαρισμός δεδομένων, διαχείριση μεταδεδομένων, ανακάλυψη μεταδεδομένων - μπορεί να χρησιμοποιηθεί για το ίδιο το ETL, αλλά συχνά απαιτεί ETL για να φέρει τα δεδομένα μέσα Master διαχείριση δεδομένων, επιχειρηματικούς ορισμούς των δεδομένων, τι συμβαίνει στον Hadoop, τη διαχείριση του κύκλου ζωής των δεδομένων και το ETL από τον Hadoop, και έχετε επίσης άμεσες εφαρμογές αναλυτικών στοιχείων που μπορείτε να εκτελέσετε στον Hadoop.

Και γι 'αυτό είναι πολύ ισχυρό και όπου έχει εφαρμοστεί και υλοποιηθεί με επιτυχία, κανονικά έχει τουλάχιστον μια συλλογή από αυτά τα είδη εφαρμογών που τρέχουν πάνω από αυτό. Και οι περισσότερες από αυτές τις εφαρμογές, ιδιαίτερα αυτές που μου έχουν ενημερωθεί, δεν είναι διαθέσιμες στο mainframe τώρα. Αλλά μπορείτε να τα εκτελέσετε στο mainframe, σε ένα cluster Hadoop που τρέχει σε ένα διαμέρισμα του mainframe.

Η λίμνη δεδομένων γίνεται, κατά τη γνώμη μου, η φυσική περιοχή διοργάνωσης για γρήγορη ανάλυση βάσεων δεδομένων και για BI. Αποτελεί τον τόπο όπου παίρνετε τα δεδομένα, είτε πρόκειται για εταιρικά δεδομένα είτε για εξωτερικά δεδομένα, να τα μπερδέψετε μέχρι να είναι, ας πούμε, αρκετά καθαρά για να τα χρησιμοποιήσετε και καλά δομημένα για χρήση και στη συνέχεια να τα μεταφέρετε. Και όλα αυτά είναι ακόμα στα σπάργανα.

Η ιδέα, κατά τη γνώμη μου, για τη συνύπαρξη mainframe / Hadoop, το πρώτο πράγμα είναι ότι οι μεγάλες εταιρείες είναι απίθανο να εγκαταλείψουν το mainframe. Στην πραγματικότητα, οι ενδείξεις που έχω δει πρόσφατα υπονοούν ότι υπάρχει μια αυξανόμενη επένδυση στο mainframe. Αλλά δεν πρόκειται να αγνοήσουν το οικοσύστημα Hadoop. Βλέπω στοιχεία του 60% των μεγάλων εταιρειών που χρησιμοποιούν το Hadoop, ακόμη και αν πολλοί από αυτούς είναι στην πραγματικότητα απλά πρωτότυπα και πειραματισμοί.

Το αίνιγμα είναι τότε: "Πώς τα συνυπάρχουν αυτά τα δύο πράγματα;" επειδή θα πρέπει να μοιράζονται δεδομένα. Τα δεδομένα που μεταφέρονται στη λίμνη δεδομένων πρέπει να μεταφερθούν στο mainframe. Τα δεδομένα που βρίσκονται στο mainframe ενδέχεται να χρειαστεί να μεταβούν στη λίμνη δεδομένων ή μέσω της λίμνης δεδομένων, προκειμένου να συνδεθούν με άλλα δεδομένα. Και αυτό θα συμβεί. Και αυτό σημαίνει ότι απαιτεί γρήγορη μεταφορά δεδομένων / δυνατότητα ETL. Είναι απίθανο τα φορτία εργασίας να μοιράζονται δυναμικά, για παράδειγμα, σε ένα περιβάλλον mainframe ή σε κάτι σε περιβάλλον Hadoop. Θα πρόκειται για δεδομένα που μοιράζονται. Και η πλειονότητα των δεδομένων αναπόφευκτα θα διαμένουν στον Hadoop μόνο και μόνο επειδή είναι η πλατφόρμα με το χαμηλότερο κόστος γι 'αυτό. Και η αναλυτική επεξεργασία από άκρο σε άκρο πιθανότατα θα κατοικεί και εκεί.

Εν ολίγοις, τελικά πρέπει να σκεφτούμε με βάση ένα εταιρικό επίπεδο δεδομένων, το οποίο για πολλές εταιρείες θα περιλαμβάνει το mainframe. Και αυτό το επίπεδο δεδομένων πρέπει να αντιμετωπιστεί προληπτικά. Διαφορετικά, τα δύο δεν θα συνυπάρχουν καλά. Μπορώ να περάσω την μπάλα πίσω σε εσένα Eric.

Eric Kavanagh: Και πάλι, Tendü Σας έκανα μόνο τον παρουσιαστή, γι 'αυτό πάρτε το μακριά.

Tendü Yogurtçu: Σας ευχαριστώ, Eric. Σας ευχαριστώ που με πήρατε. Γεια σε όλους. Θα μιλήσω για την εμπειρία Syncsort με τους πελάτες σε σχέση με τον τρόπο που βλέπουμε τα δεδομένα ως περιουσιακό στοιχείο στο επίπεδο του οργανισμού από το mainframe σε μεγάλα δεδομένα για τις πλατφόρμες ανάλυσης. Και ελπίζω ότι θα έχουμε επίσης χρόνο στο τέλος της συνόδου να έχουμε ερωτήσεις από το κοινό επειδή αυτό είναι πραγματικά το πιο πολύτιμο μέρος αυτών των webcasts.

Μόνο για άτομα που δεν γνωρίζουν τι κάνει το Syncsort, η Syncsort είναι εταιρεία λογισμικού. Βρισκόμαστε περίπου 40 χρόνια. Ξεκινήσαμε από την κεντρική πλατφόρμα και τα προϊόντα μας ξεκινούν από το mainframe στο Unix σε μεγάλες πλατφόρμες δεδομένων, συμπεριλαμβανομένων των Hadoop, Spark, Splunk, τόσο στο χώρο όσο και στο σύννεφο. Η εστίασή μας ήταν πάντοτε σε προϊόντα δεδομένων, προϊόντα επεξεργασίας δεδομένων και προϊόντα ολοκλήρωσης δεδομένων.

Η στρατηγική μας σε σχέση με τα μεγάλα δεδομένα και ο Hadoop ήταν πραγματικά να γίνει μέρος του οικοσυστήματος από την πρώτη μέρα. Ως ιδιοκτήτες πωλητών που έχουν επικεντρωθεί στην επεξεργασία δεδομένων με πολύ ελαφρούς κινητήρες, θεωρήσαμε ότι υπήρχε μεγάλη ευκαιρία να συμμετάσχουν στην Hadoop και να γίνουν πλατφόρμα επεξεργασίας δεδομένων και να αποτελέσουν μέρος αυτής της αρχιτεκτονικής αποθήκης δεδομένων επόμενης γενιάς για τον οργανισμό. Έχουμε συνεισφέρει στα έργα Apache ανοιχτού κώδικα από το 2011, ξεκινώντας από το MapReduce. Έχουν βρεθεί στην πρώτη δεκάδα για το Hadoop Version 2 και συμμετείχαν πραγματικά σε πολλαπλά προγράμματα, συμπεριλαμβανομένων των πακέτων Spark, μερικοί από τους συνδέσμους μας δημοσιεύονται σε πακέτα Spark.

Χρησιμοποιούμε την πολύ ελαφριά μηχανή επεξεργασίας δεδομένων μας, η οποία είναι πλήρως μεταφορτωμένα με βάση τα αρχεία μεταδεδομένα και βρίσκεται πολύ καλά με τα κατανεμημένα συστήματα αρχείων όπως το Hadoop Distributed File System. Και αξιοποιούμε την κληρονομιά μας στο mainframe, την τεχνογνωσία μας με τους αλγόριθμους καθώς βάζουμε τα μεγάλα δεδομένα μας. Και συνεργαζόμαστε πολύ στενά με τους μεγάλους πωλητές, με μείζονες παίκτες όπως Hortonworks, Cloudera, MapR, Splunk. Η Hortonworks ανακοίνωσε πρόσφατα ότι θα μεταπωλήσει το προϊόν μας για ETL με το Hadoop. Με την Dell και τη Cloudera έχουμε μια πολύ στενή συνεργασία, η οποία επίσης μεταπωλεί το προϊόν μας ETL ως μέρος της μεγάλης συσκευής τους. Και με την Splunk στην πραγματικότητα, δημοσιεύουμε μια τηλεμετρία mainframe και δεδομένα ασφαλείας σε πίνακες ελέγχου Splunk. Έχουμε στενή συνεργασία.

Τι είναι το μυαλό κάθε εκτελεστικού επιπέδου C; Είναι πραγματικά, "Πώς μπορώ να αξιοποιήσω τα στοιχεία των στοιχείων μου;" Όλοι μιλάνε για μεγάλα δεδομένα. Όλοι μιλάνε για την Hadoop, την Spark, την επόμενη πλατφόρμα υπολογιστών που μπορεί να με βοηθήσει να δημιουργήσω ευελιξία στις επιχειρήσεις και να ανοίξω νέες εφαρμογές μετασχηματισμού. Νέες ευκαιρίες πρόσβασης στην αγορά. Κάθε μέλος του διοικητικού συμβουλίου σκέφτεται: "Ποια είναι η στρατηγική δεδομένων μου, ποια είναι η πρωτοβουλία μου για δεδομένα και πώς μπορώ να σιγουρευτώ ότι δεν παραμένω πίσω από τον ανταγωνισμό μου και εξακολουθώ να είμαι στην αγορά αυτή τα επόμενα τρία χρόνια;" βλέπετε αυτό καθώς μιλάμε στους πελάτες μας, καθώς μιλάμε στην παγκόσμια πελατειακή βάση μας, η οποία είναι αρκετά μεγάλη, όπως μπορείτε να φανταστείτε, αφού βρισκόμαστε για λίγο.

Καθώς μιλάμε με όλες αυτές τις οργανώσεις βλέπουμε και αυτό στην τεχνολογική στοίβα στη διαταραχή που συνέβη με τον Hadoop. Είναι πραγματικά προκειμένου να ικανοποιηθεί αυτή η απαίτηση σχετικά με τα δεδομένα ως περιουσιακό στοιχείο. Αξιοποίηση όλων των στοιχείων που διαθέτει ένας οργανισμός. Και έχουμε δει την αρχιτεκτονική αποθήκης δεδομένων των επιχειρήσεων να εξελιχθεί έτσι ώστε ο Hadoop να είναι τώρα το νέο κεντρικό στοιχείο της σύγχρονης αρχιτεκτονικής δεδομένων. Και οι περισσότεροι από τους πελάτες μας, είτε πρόκειται για χρηματοοικονομικές υπηρεσίες, είτε πρόκειται για ασφάλειες, είτε για τηλεπικοινωνίες, οι πρωτοβουλίες συνήθως είτε θεωρούμε ότι η Hadoop ως υπηρεσία ή δεδομένα ως υπηρεσία. Επειδή όλοι προσπαθούν να καταστήσουν διαθέσιμα τα στοιχεία ενεργητικού είτε για εξωτερικούς πελάτες είτε για εσωτερικούς πελάτες τους. Και σε ορισμένες από τις οργανώσεις βλέπουμε πρωτοβουλίες όπως σχεδόν μια αγορά δεδομένων για τους πελάτες τους.

Και ένα από τα πρώτα βήματα που επιτυγχάνουν είναι όλα από τη δημιουργία ενός επιχειρηματικού κόμβου δεδομένων. Μερικές φορές οι άνθρωποι θα την ονομάσουν λίμνη δεδομένων. Η δημιουργία αυτού του κόμβου δεδομένων για επιχειρήσεις δεν είναι πραγματικά τόσο εύκολη όσο ακούγεται επειδή απαιτεί πραγματικά πρόσβαση και συλλογή σχεδόν οποιωνδήποτε δεδομένων στην επιχείρηση. Και αυτά τα δεδομένα είναι τώρα από όλες τις νέες πηγές, όπως οι αισθητήρες κινητής τηλεφωνίας καθώς και οι παλαιότερες βάσεις δεδομένων και είναι σε λειτουργία παρτίδας και σε λειτουργία συνεχούς ροής. Η ενσωμάτωση των δεδομένων ήταν πάντοτε μια πρόκληση, όμως, με τον αριθμό και την ποικιλία των πηγών δεδομένων και τις διαφορετικές μορφές παράδοσης, είτε πρόκειται για παρτίδα είτε για ροή σε πραγματικό χρόνο, είναι ακόμα πιο δύσκολη τώρα σε σύγκριση με πριν από πέντε χρόνια, πριν από δέκα χρόνια. Μερικές φορές το αναφερόμαστε ως εξής: "Δεν είναι πια η ETL του πατέρα σας".

Γι 'αυτό και μιλάμε για τα διαφορετικά στοιχεία των στοιχείων. Δεδομένου ότι οι επιχειρήσεις προσπαθούν να κατανοήσουν τα νέα δεδομένα, τα δεδομένα που συλλέγουν από τις κινητές συσκευές, είτε οι αισθητήρες ενός κατασκευαστή αυτοκινήτων είτε τα δεδομένα χρήστη για μια εταιρία τυχερών παιχνιδιών, πρέπει συχνά να αναφέρουν τα πιο κρίσιμα στοιχεία δεδομένων η επιχείρηση, η οποία είναι πληροφορίες για τον πελάτη, για παράδειγμα. Αυτά τα πιο σημαντικά στοιχεία δεδομένων ζουν συχνά στο mainframe. Η αντιστοίχιση δεδομένων κεντρικών υπολογιστών με αυτές τις αναδυόμενες νέες πηγές, που συλλέγονται στο νέφος, συλλέγονται μέσω κινητού τηλεφώνου, συλλέγονται στη γραμμή παραγωγής μιας ιαπωνικής εταιρείας αυτοκινήτων ή σε εφαρμογές διαδικτύου με πράγματα, πρέπει να έχουν νόημα για αυτά τα νέα δεδομένα, αναφερόμενα στα σύνολα δεδομένων παλαιού τύπου. Και αυτά τα σύνολα δεδομένων παλαιού τύπου βρίσκονται συχνά στο mainframe.

Και αν αυτές οι εταιρείες δεν είναι σε θέση να το κάνουν αυτό, δεν είναι σε θέση να αξιοποιήσουν τα δεδομένα mainframe τότε υπάρχει μια χαμένη ευκαιρία. Στη συνέχεια, τα δεδομένα ως υπηρεσία ή η αξιοποίηση όλων των δεδομένων επιχείρησης δεν αξιοποιούν πραγματικά τα πιο κρίσιμα στοιχεία του οργανισμού. Υπάρχει επίσης το τμήμα τηλεμετρίας και δεδομένων ασφαλείας επειδή σχεδόν όλα τα δεδομένα συναλλαγών ζουν στο mainframe.

Φανταστείτε ότι πηγαίνετε σε ΑΤΜ, νομίζω ότι ένας από τους συμμετέχοντες έστειλε ένα μήνυμα στους συμμετέχοντες εδώ για την προστασία του τραπεζικού συστήματος, όταν μεταφέρετε την κάρτα σας ότι τα δεδομένα συναλλαγών είναι λίγο πολύ παγκοσμίως στο mainframe. Και η εξασφάλιση και συλλογή των δεδομένων ασφαλείας και των δεδομένων τηλεμετρίας από τα mainframes και η διάθεσή τους μέσω είτε των dashboards Splunk είτε άλλων, Spark, SQL, γίνεται πλέον πιο κρίσιμη από ποτέ, λόγω του όγκου των δεδομένων και της ποικιλίας των δεδομένων.

Τα σετ δεξιοτήτων είναι μια από τις μεγαλύτερες προκλήσεις. Επειδή από τη μία πλευρά έχετε μια ταχέως μεταβαλλόμενη μεγάλη στοίβα δεδομένων, δεν ξέρετε ποιο έργο πρόκειται να επιβιώσει, ποιο έργο δεν πρόκειται να επιβιώσει, θα πρέπει να νοικιάσω τους κυψέλους ή τους χοιροτρόφους; Πρέπει να επενδύσω σε MapReduce ή Spark; Ή το επόμενο πράγμα, Flink, κάποιος είπε. Πρέπει να επενδύσω σε μία από αυτές τις πλατφόρμες υπολογιστών; Από τη μία πλευρά, η αντιμετώπιση του ταχέως μεταβαλλόμενου οικοσυστήματος είναι μια πρόκληση, και από την άλλη πλευρά, έχετε αυτές τις πηγές δεδομένων παλαιού τύπου. Τα νέα σύνολα δεξιοτήτων δεν ταιριάζουν πραγματικά και μπορεί να έχετε κάποιο πρόβλημα, επειδή οι πόροι αυτοί ενδέχεται να αποσυρθούν πραγματικά. Υπάρχει ένα μεγάλο χάσμα όσον αφορά τα σύνολα δεξιοτήτων των ανθρώπων που καταλαβαίνουν αυτά τα παλιά πακέτα δεδομένων και που καταλαβαίνουν την αναδυόμενη τεχνολογική στοίβα.

Η δεύτερη πρόκληση είναι η διακυβέρνηση. Όταν έχετε πρόσβαση σε όλα τα δεδομένα επιχείρησης σε διάφορες πλατφόρμες, έχουμε πελάτες που εξέφρασαν ανησυχίες ότι: "Δεν θέλω τα δεδομένα μου να προσγειωθούν. Δεν θέλω να αντιγραφούν τα δεδομένα μου σε πολλά σημεία, επειδή θέλω να αποφύγω όσο το δυνατόν περισσότερα αντίγραφα. Θέλω να έχω πρόσβαση από άκρο σε άκρο χωρίς να την προσγειωθώ στη μέση εκεί. "Η διαχείριση αυτών των δεδομένων γίνεται μια πρόκληση. Και το άλλο κομμάτι είναι ότι αν έχετε πρόσβαση στα δεδομένα που παρουσιάζουν σημεία συμφόρησης, αν συλλέγετε τα περισσότερα από τα δεδομένα σας στο σύννεφο και έχετε πρόσβαση και αναφορές σε παλαιότερα δεδομένα, το εύρος ζώνης του δικτύου γίνεται ζήτημα, μια πλατφόρμα συμπλέγματος. Υπάρχουν πολλές προκλήσεις όσον αφορά την πραγματοποίηση αυτής της μεγάλης πρωτοβουλίας για δεδομένα και προηγμένων πλατφορμών ανάλυσης και μοχλός αξιοποίησης όλων των δεδομένων των επιχειρήσεων.

Αυτό που προσφέρει το Syncsort είναι ότι είμαστε αναφερόμενοι ως "απλά το καλύτερο" όχι γιατί είμαστε απλά οι καλύτεροι, αλλά οι πελάτες μας πραγματικά αναφέρονται σε μας ως απλώς το καλύτερο για την πρόσβαση και την ενσωμάτωση των δεδομένων mainframe. Υποστηρίζουμε όλες τις μορφές δεδομένων από το mainframe και το διαθέτουμε για τις μεγάλες αναλύσεις δεδομένων. Είτε πρόκειται για Hadoop είτε για Spark ή την επόμενη πλατφόρμα υπολογιστή. Επειδή τα προϊόντα μας απομονώνουν πραγματικά την πολυπλοκότητα της πλατφόρμας υπολογιστών. Είστε ως προγραμματιστής που αναπτύσσεται ενδεχομένως σε φορητό υπολογιστή εστιάζοντας στον αγωγό δεδομένων και ποιες είναι οι προετοιμασίες για τα δεδομένα, τα βήματα για να δημιουργήσετε τα δεδομένα αυτά για τα αναλυτικά στοιχεία, την επόμενη φάση και να πάρετε την ίδια εφαρμογή στο MapReduce ή να το πάρετε αυτό ίδια εφαρμογή γύρω από το Spark.

Βοηθήσαμε τους πελάτες μας να το κάνουν όταν το YARN έγινε διαθέσιμο και έπρεπε να μετακινήσουν τις εφαρμογές τους από MapReduce έκδοση 1 στο YARN. Τους βοηθάμε να κάνουν το ίδιο με το Apache Spark. Το προϊόν μας, η νέα έκδοση 9, εκτελείται με το Spark καθώς και τα πλοία με μια δυναμική βελτιστοποίηση που θα μονώνει αυτές τις εφαρμογές για μελλοντικά πλαίσια υπολογιστών.

Έχουμε λοιπόν πρόσβαση σε δεδομένα mainframe, είτε πρόκειται για αρχεία VSAM, είτε πρόκειται για DB2 είτε για τηλεμετρικά δεδομένα, όπως αρχεία SMF ή Log4j ή syslogs, τα οποία πρέπει να απεικονιστούν μέσω των εργαλείων dashboard Splunk. Και κάνοντας αυτό, επειδή ο οργανισμός μπορεί να αξιοποιήσει τον υπάρχοντα μηχανικό δεδομένων ή τα σύνολα ικανοτήτων ETL, ο χρόνος ανάπτυξης μειώνεται σημαντικά. Στην πραγματικότητα με την Dell και το Cloudera, υπήρχε ένα ανεξάρτητο σημείο αναφοράς που χρηματοδοτήθηκε και αυτό το σημείο αναφοράς επικεντρώθηκε στον χρόνο ανάπτυξης που χρειάζεται εάν κάνετε χειροκίνητη κωδικοποίηση ή χρησιμοποιώντας άλλα εργαλεία όπως το Syncsort και ήταν περίπου 60, 70 τοις εκατό μείωση στον χρόνο ανάπτυξης . Γεφυρώνοντας το χάσμα συνόλων δεξιοτήτων μεταξύ των ομάδων, σε αυτούς τους οικοδεσπότες αρχείων δεδομένων, αλλά και εκείνων που φιλοξενούν αρχεία δεδομένων από την άποψη των ανθρώπων.

Συνήθως η μεγάλη ομάδα δεδομένων ή η ομάδα κατανοητών δεδομένων ή η ομάδα που έχει την εντολή να αναπτύξει αυτά τα δεδομένα ως αρχιτεκτονική υπηρεσιών, δεν μιλούν απαραίτητα με την ομάδα mainframe. Θέλουν να ελαχιστοποιήσουν αυτή την αλληλεπίδραση σχεδόν σε πολλές από τις οργανώσεις. Κλείνοντας αυτό το χάσμα έχουμε προχωρήσει. Και το πιο σημαντικό κομμάτι είναι πραγματικά η διασφάλιση ολόκληρης της διαδικασίας. Επειδή στην επιχείρηση, όταν ασχολείσαι με αυτό το είδος ευαίσθητων δεδομένων, υπάρχουν πολλές απαιτήσεις.

Σε πολύ ρυθμισμένες βιομηχανίες όπως η ασφαλιστική και τραπεζική που ζητούν οι πελάτες μας, είπαν: "Προσφέρετε αυτή την πρόσβαση στο mainframe και αυτό είναι μεγάλο. Μπορείτε επίσης να μου προσφέρετε να διατηρήσω αυτόν τον μορφότυπο εγγραφής με κωδικοποίηση EBCDIC στην αρχική του μορφή ώστε να μπορώ να ικανοποιήσω τις απαιτήσεις ελέγχου μου; "Έτσι, κάνουμε τον Hadoop και τον Apache Spark να καταλάβουν τα δεδομένα mainframe. Μπορείτε να διατηρήσετε τα δεδομένα στην αρχική τους μορφή εγγραφής, να επεξεργαστείτε την πλατφόρμα υπολογιστών διανομής επεξεργαστών και επιπέδων και αν χρειαστεί να τα βάλετε πίσω, μπορείτε να δείτε ότι η εγγραφή δεν έχει αλλάξει και η μορφή εγγραφής δεν έχει αλλάξει, μπορείτε να συμμορφώνεστε με τις κανονιστικές απαιτήσεις .

Και οι περισσότεροι οργανισμοί, καθώς δημιουργούν το διανομέα δεδομένων ή τη λίμνη δεδομένων, προσπαθούν επίσης να το κάνουν με ένα μόνο κλικ για να μπορούν να χαρτογραφήσουν μεταδεδομένα από εκατοντάδες σχήματα σε μια βάση δεδομένων της Oracle σε πίνακες κυψελών ή αρχεία ORC ή παρκέ καθίσταται αναγκαία. Στέλνουμε εργαλεία και παρέχουμε εργαλεία για να κάνουμε αυτό μια πρόσβαση δεδομένων σε ένα βήμα, δημιουργώντας αυτόματα θέσεις εργασίας ή μετακινήσεις δεδομένων και δημιουργώντας θέσεις εργασίας για την πραγματοποίηση της χαρτογράφησης δεδομένων.

Μιλήσαμε για το τμήμα συνδεσιμότητας, τη συμμόρφωση, τη διακυβέρνηση και την επεξεργασία δεδομένων. Και τα προϊόντα μας είναι διαθέσιμα τόσο στην αρχή όσο και στο σύννεφο, γεγονός που το καθιστά πραγματικά απλό επειδή οι εταιρείες δεν χρειάζεται να σκεφτούν τι θα συμβεί το επόμενο έτος ή δύο, αν αποφασίσω να πάω εντελώς στο δημόσιο σύννεφο έναντι του υβριδικού περιβάλλον, καθώς ορισμένες από τις ομάδες ενδέχεται να λειτουργούν σε προάγγελα ή στο σύννεφο. Και τα προϊόντα μας είναι διαθέσιμα τόσο στο Amazon Marketplace, όσο και στο EC2, το Elastic MapReduce και σε ένα δοχείο Docker.

Ακριβώς στο είδος της ολοκλήρωσης, οπότε έχουμε αρκετό χρόνο για Q & A, είναι πραγματικά για την πρόσβαση, την ενσωμάτωση και τη συμμόρφωση με τη διακυβέρνηση δεδομένων, αλλά καθιστώντας όλα αυτά απλούστερα. Και κάνοντας αυτό το απλούστερο, "σχεδιασμός μια φορά και να αναπτυχθεί οπουδήποτε" με την αληθινή έννοια, λόγω των συνεισφορών μας ανοιχτού κώδικα, το προϊόν μας λειτουργεί φυσικά στη ροή δεδομένων Hadoop και με το Spark, απομονώνοντας τους οργανισμούς από το ταχέως μεταβαλλόμενο οικοσύστημα. Και παρέχοντας έναν ενιαίο αγωγό δεδομένων, μια ενιαία διεπαφή, τόσο για παρτίδα όσο και για ροή.

Και αυτό βοηθά επίσης τους οργανισμούς να αξιολογούν μερικές φορές αυτά τα πλαίσια, γιατί ίσως θέλετε να δημιουργήσετε εφαρμογές και απλά να τρέξετε σε MapReduce έναντι Spark και να δείτε μόνοι σας, ναι, ο Spark έχει αυτήν την υπόσχεση και παρέχει όλη την πρόοδο σε επαναληπτικούς αλγορίθμους για καλύτερη μηχανική μάθηση και οι εφαρμογές πρόβλεψης αναλύσεων λειτουργούν με το Spark, μπορώ επίσης να πραγματοποιήσω τα streaming και τα φορτία φόρτωσης σε αυτό το πλαίσιο υπολογιστή; Μπορείτε να δοκιμάσετε διαφορετικές πλατφόρμες υπολογιστών χρησιμοποιώντας τα προϊόντα μας. Και η δυναμική βελτιστοποίηση, είτε τρέχετε σε ένα αυτόνομο διακομιστή, στον φορητό υπολογιστή σας, στο Google Cloud έναντι Apache Spark, είναι πραγματικά μια μεγάλη πρόταση αξίας για τους πελάτες μας. Και ήταν πραγματικά οδηγείται από τις προκλήσεις που είχαν.

Θα καλύψω μόνο μία από τις περιπτωσιολογικές μελέτες. Αυτή είναι η Guardian Life Insurance Company. Και η πρωτοβουλία του Guardian ήταν πραγματικά να συγκεντρώσει τα στοιχεία του ενεργητικού του και να το διαθέσει για τους πελάτες του, να μειώσει τον χρόνο προετοιμασίας των δεδομένων και είπαν ότι όλοι μιλάνε για την προετοιμασία των δεδομένων λαμβάνοντας 80 τοις εκατό του συνολικού αγωγού επεξεργασίας δεδομένων και δήλωσαν ότι στην πραγματικότητα 75 έως 80 τοις εκατό για αυτούς και θέλησαν να μειώσουν την προετοιμασία των δεδομένων, τους χρόνους μετασχηματισμού, το χρόνο για την αγορά για τα έργα ανάλυσης. Δημιουργήστε την ευκινησία καθώς προσθέτουν νέες πηγές δεδομένων. Και να κάνετε αυτή την κεντρική πρόσβαση δεδομένων διαθέσιμη για όλους τους πελάτες τους.

Η λύση τους, συμπεριλαμβανομένων των προϊόντων Syncsort, είναι αυτή τη στιγμή που διαθέτουν μια αγορά δεδομένων της Amazon Marketplace, η οποία υποστηρίζεται από μια λίμνη δεδομένων, η οποία είναι βασικά η Hadoop και η βάση δεδομένων NoSQL. Και χρησιμοποιούν τα προϊόντα μας για να μεταφέρουν όλα τα στοιχεία δεδομένων στη λίμνη δεδομένων, συμπεριλαμβανομένης της DB2 στο mainframe, συμπεριλαμβανομένων των αρχείων VSAM στο mainframe και των πηγών δεδομένων παλαιού τύπου βάσεων δεδομένων καθώς και των νέων πηγών δεδομένων. Και ως αποτέλεσμα αυτού, έχουν συγκεντρώσει τα επαναχρησιμοποιήσιμα στοιχεία δεδομένων τα οποία είναι δυνατό να αναζητηθούν, προσβάσιμα και διαθέσιμα στους πελάτες τους. Και είναι πραγματικά σε θέση να προσθέσουν τις νέες πηγές δεδομένων και να εξυπηρετήσουν τους πελάτες τους πολύ πιο γρήγορα και πιο αποτελεσματικά από πριν. Και οι πρωτοβουλίες ανάλυσης προχωρούν ακόμη περισσότερο στην προγνωστική πλευρά. Συνεπώς, θα σταματήσω και ελπίζω ότι αυτό είναι χρήσιμο και αν έχετε οποιεσδήποτε ερωτήσεις για κάποιο από τα σχετικά θέματα παρακαλώ, είστε ευπρόσδεκτοι.

Eric Kavanagh: Σίγουρα, και Tendü, θα ρίξω μόνο ένα. Έχω ένα σχόλιο από ένα μέλος του ακροατηρίου λέγοντας απλά, "Μου αρέσει αυτό το σχέδιο" μια φορά, να αναπτυχθεί οπουδήποτε. "" Μπορείτε να σκάψετε πώς είναι αλήθεια; Θέλω να πω τι κάνατε για να επιτύχετε αυτό το είδος ευκινησίας και υπάρχει κάποιος φόρος; Όπως και όταν μιλάμε για virtualization, για παράδειγμα, υπάρχει πάντα ένα κομμάτι ενός φόρου επί της απόδοσης. Ορισμένοι λένε ότι δύο τοις εκατό, πέντε τοις εκατό 10 τοις εκατό. Αυτό που κάνατε για να ενεργοποιήσετε τη σχεδίαση μία φορά, αναπτύξτε οπουδήποτε - πώς το κάνετε και υπάρχει κάποιος φόρος που συνδέεται με αυτό από την άποψη της απόδοσης;

Tendü Yogurtçu: Σίγουρα, σας ευχαριστώ. Όχι, επειδή σε αντίθεση με μερικούς από τους άλλους προμηθευτές δεν δημιουργούμε πραγματικά κυψέλη ή χοίρο ή κάποιο άλλο κώδικα που δεν είναι εγγενής στις μηχανές μας. Αυτό είναι το σημείο όπου οι συνεισφορές μας με ανοιχτού κώδικα διαδραμάτισαν τεράστιο ρόλο, διότι εργαζόμαστε πολύ με τους πωλητές Hadoop, Cloudera, Hortonworks και MapR και λόγω των ανοιχτών εισφορών μας, ο κινητήρας μας λειτουργεί στην πραγματικότητα ως μέρος της ροής, ως μέρος της ροής Hadoop, ως μέρος του Spark.

Αυτό που μεταφράζεται επίσης, έχουμε αυτή τη δυναμική βελτιστοποίηση. Αυτό ήταν κάτι που ήρθε ως αποτέλεσμα των πελατών μας να αμφισβητηθεί με πλαίσια υπολογιστών. Καθώς έφταναν στην παραγωγή με μερικές από τις εφαρμογές, επέστρεψαν, είπαν: «Είμαι απλά σταθεροποιώντας το σύμπλεγμα Hadoop, σταθεροποιώντας το MapReduce YARN Version 2, MapReduce Version 2 και οι άνθρωποι μιλάνε ότι το MapReduce είναι νεκρό, το Spark είναι το επόμενο πράγμα, και κάποιοι λένε ότι ο Flink θα είναι το επόμενο πράγμα, πώς θα το αντιμετωπίσω; "

Και αυτές οι προκλήσεις έγιναν τόσο προφανείς για εμάς, επενδύσαμε στην κατοχύρωση αυτής της δυναμικής βελτιστοποίησης που θεωρούμε ως έξυπνη εκτέλεση. Στο χρόνο εκτέλεσης, όταν η εργασία, όταν υποβληθεί αυτός ο αγωγός δεδομένων, με βάση το σύμπλεγμα, είτε πρόκειται για το Spark, είτε πρόκειται για MapReduce είτε για αυτόνομο διακομιστή Linux, αποφασίζουμε πώς να τρέξουμε αυτή τη δουλειά, εγγενώς στον κινητήρα μας, ως μέρος αυτής Ροή δεδομένων Hadoop ή Spark. Δεν υπάρχει επιβάρυνση γιατί όλα γίνονται μέσω αυτής της δυναμικής βελτιστοποίησης που έχουμε και όλα γίνονται επίσης επειδή ο κινητήρας μας είναι τόσο εγγενώς ενσωματωμένος λόγω των συνεισφορών μας ανοιχτού κώδικα. Μήπως αυτή απαντά στην ερώτησή σας;

Eric Kavanagh: Ναι, αυτό είναι καλό. Και θέλω να ρίξω μια ακόμη ερώτηση εκεί και στη συνέχεια Dez, ίσως θα σας τραβήξουμε και τον Robin. Μόλις πήρα ένα ξεκαρδιστικό σχόλιο από έναν από τους συμμετέχοντες μας. Θα το διαβάσω, γιατί είναι πραγματικά σκληρό. Γράφει: "Φαίνεται ότι στην ιστορία των πράξεων HOT" - πάρτε το; Όπως το IOT - "είναι ότι όσο περισσότερο προσπαθείτε να« απλοποιήσετε »κάτι που είναι πολύ περίπλοκο, πιο συχνά απ 'ότι το απλούστερο φαίνεται να κάνει πράγματα, το παρέχεται περισσότερο σχοινί. Σκέψου το ερώτημα της βάσης δεδομένων, την έκρηξη, το πολλαπλό σπείρωμα, κλπ. "Μπορείς να σχολιάσεις αυτό το παράδοξο που αναφέρει; Απλότητα έναντι πολυπλοκότητας και βασικά τι συμβαίνει πραγματικά κάτω από τα καλύμματα;

Tendü Yogurtçu: Σίγουρα. Νομίζω ότι αυτό είναι ένα πολύ σημαντικό σημείο. Όταν απλοποιείτε τα πράγματα και κάνετε αυτές τις βελτιστοποιήσεις, κατά κάποιο τρόπο κάτω από τα καλύμματα, κάποιος πρέπει να πάρει αυτή την πολυπλοκότητα του τι πρέπει να συμβεί, σωστά; Αν παραλύετε κάτι ή εάν αποφασίζετε πώς να εκτελέσετε μια συγκεκριμένη εργασία σε σχέση με το πλαίσιο του υπολογιστή, προφανώς υπάρχει κάποιο μέρος της εργασίας που πιέζεται αν είναι στο τέλος του χρήστη, κωδικοποίηση μενού ή είναι στη βελτιστοποίηση του κινητήρα. Υπάρχει ένα μέρος από αυτό, απλοποιώντας την εμπειρία των χρηστών, υπάρχει ένα τεράστιο όφελος από την άποψη ότι είναι σε θέση να αξιοποιήσει τα σύνολα δεξιοτήτων που υπάρχουν στην επιχείρηση.

Και μπορείτε να μετριάσετε αυτό το παράδοξο, να μετριάσετε αυτή την πρόκληση, "Ναι, αλλά δεν έχω τον έλεγχο όλων όσων συμβαίνουν κάτω από το κάλυμμα κάτω από την κουκούλα της μηχανής", εκθέτοντας τα πράγματα στους πιο προχωρημένους χρήστες εάν θέλουν να έχουν αυτό το είδος ελέγχου. Με την επένδυση σε μερικά από τα είδη λειτουργικότητας. Μπορούμε να προσφέρουμε περισσότερα λειτουργικά μεταδεδομένα, περισσότερα λειτουργικά δεδομένα, όπως στο παράδειγμα που έδωσε ο συμμετέχων, για ένα ερώτημα SQL καθώς και για τον κινητήρα που εκτελείται. Ελπίζω ότι οι απαντήσεις.

Eric Kavanagh: Ναι, αυτό ακούγεται καλό. Dez, πάρτε το μακριά.

Dez Blanchfield: Είμαι πραγματικά πρόθυμος να αποκτήσω λίγο περισσότερη εικόνα στο αποτύπωμα σας στις συνεισφορές ανοικτού πηγαίου κώδικα και στο ταξίδι που έχετε πάρει από την παραδοσιακή, μακρόχρονη εμπειρία σας στο mainframe και τον ιδιόκτητο κόσμο και στη συνέχεια τη μετάβαση σε συμβάλλοντας στην ανοιχτή πηγή και πώς συνέβη αυτό. Και το άλλο πράγμα που θέλω να καταλάβω είναι η άποψη που βλέπετε ότι οι επιχειρήσεις, όχι μόνο τα τμήματα πληροφορικής, αλλά οι επιχειρήσεις παίρνουν τώρα όσον αφορά τους κόμβους δεδομένων ή τις λίμνες δεδομένων, όπως λένε τώρα οι άνθρωποι και αν βλέπουν αυτήν την τάση μόνο μια ενιαία, ενοποιημένη λίμνη δεδομένων ή αν βλέπουμε διανεμημένα δεδομένα λίμνες και οι άνθρωποι χρησιμοποιούν εργαλεία για να τα βάλουν μαζί;

Tendü Yogurtçu: Σίγουρα. Για το πρώτο, αυτό ήταν ένα πολύ ενδιαφέρον ταξίδι, ως εταιρεία λογισμικού ιδιοκτήτη, μία από τις πρώτες μετά την IBM. Ωστόσο, και πάλι, όλα ξεκίνησαν με τους πελάτες μας ευαγγελιστές κοιτάζοντας τον Hadoop. Είχαμε εταιρίες δεδομένων όπως το ComScore, ήταν μία από τις πρώτες που υιοθέτησαν τον Hadoop επειδή συλλέγαν ψηφιακά δεδομένα ανά τον κόσμο και δεν ήταν σε θέση να κρατήσουν 90 ημέρες δεδομένων εκτός αν είχαν επενδύσει ένα κιβώτιο αποθήκης δεδομένων ύψους δέκα εκατομμυρίων δολαρίων περιβάλλον. Άρχισαν να κοιτάζουν τον Hadoop. Με αυτό ξεκινήσαμε επίσης να κοιτάμε τον Hadoop.

Και όταν αποφασίσαμε και αναγνωρίσαμε ότι ο Hadoop θα είναι πραγματικά η πλατφόρμα δεδομένων του μέλλοντος, καταλήξαμε επίσης στο συμπέρασμα ότι δεν θα είμαστε σε θέση να έχουμε ένα παιχνίδι σε αυτό, ένα επιτυχημένο έργο σε αυτό, εκτός εάν εμείς ήταν μέρος του οικοσυστήματος. Και εργαζόμαστε πολύ στενά με τους πωλητές Hadoop, με τους Cloudera, Hortonworks, MapR κλπ. Ξεκινήσαμε πραγματικά να μιλάμε μαζί τους, επειδή η εταιρική σχέση είναι πολύ σημαντική για την επικύρωση της αξίας που μπορεί να προσφέρει ο πωλητής και επίσης φροντίζει να μπορέσουμε να πάμε από κοινού στην επιχείρηση και να προσφέρετε κάτι πιο σημαντικό. Απαιτούσε μεγάλη συσχέτιση, διότι δεν ήμασταν γνωστοί στα έργα open source των Apache, ωστόσο είχαμε μεγάλη υποστήριξη από αυτούς τους πωλητές Hadoop, πρέπει να πω.

Ξεκινήσαμε να δουλεύουμε μαζί και να δούμε το κέντρο, πώς μπορούμε να φέρουμε αξία χωρίς καν το λογισμικό του ιδιοκτήτη μας στο χώρο. Αυτό ήταν σημαντικό. Δεν πρόκειται απλώς για την τοποθέτηση ορισμένων API που μπορεί να λειτουργήσει το προϊόν σας, αλλά για να μπορέσω να πω ότι θα επενδύσω σε αυτό επειδή πιστεύω ότι ο Hadoop πρόκειται να αποτελέσει πλατφόρμα του μέλλοντος, επενδύοντας έτσι στις πηγές που θέλαμε να κάνουμε βεβαιωθείτε ότι ωριμάζει και γίνεται έτοιμη για επιχείρηση. Μπορούμε να επιτρέψουμε κάποιες από τις περιπτώσεις χρήσης που δεν ήταν διαθέσιμες πριν από τις συνεισφορές μας. Αυτό θα ωφελήσει ολόκληρο το οικοσύστημα και θα μπορέσουμε να αναπτύξουμε αυτές τις συμπράξεις πολύ στενά.

Χρειάστηκε πολύς χρόνος. Ξεκινήσαμε να συνεισφέρουμε το 2011 και το 2013, στις 21 Ιανουαρίου - θυμάμαι την ημερομηνία, επειδή αυτή η ημερομηνία ήταν η μεγαλύτερη συνεισφορά μας, η οποία σήμαινε ότι μπορούμε τώρα να έχουμε τα προϊόντα μας γενικά διαθέσιμα από εκείνο το σημείο - χρειάστηκε αρκετός χρόνος για να αναπτύξουμε αυτές τις σχέσεις, δείχνουν την αξία, οι εταίροι γίνονται εταίροι σχεδιασμού με τους πωλητές και τους συμμετέχοντες στην κοινότητα ανοιχτού κώδικα. Αλλά ήταν πολύ διασκεδαστικό. Ήταν πολύ ανταμείβοντας ως εταιρεία για να είμαστε μέρος αυτού του οικοσυστήματος και να αναπτύξουμε μια μεγάλη συνεργασία.

Το δεύτερο ερώτημα σχετικά με τη λίμνη δεδομένων δεδομένων / δεδομένων, νομίζω ότι όταν βλέπουμε αυτά τα δεδομένα ως εφαρμογή των υπηρεσιών στις περισσότερες περιπτώσεις, ναι, μπορεί να είναι ομάδες, φυσικά ενιαία ή πολλαπλά clusters, αλλά είναι πιο εννοιολογική από το να γίνει αυτό το μοναδικό μέρος για όλα τα δεδομένα. Επειδή σε μερικούς οργανισμούς βλέπουμε μεγάλες υλοποιήσεις συμπλεγμάτων, αλλά έχουν επίσης ομάδες, για παράδειγμα, στο δημόσιο σύννεφο, επειδή ορισμένα από τα δεδομένα που συλλέγονται από διαδικτυακά τμήματα διατηρούνται πραγματικά στο σύννεφο. Είναι σε θέση να έχει έναν ενιαίο αγωγό δεδομένων που μπορείτε πραγματικά να αξιοποιήσετε και τα δύο αυτά, και να τα χρησιμοποιήσετε ως ένα μόνο κέντρο δεδομένων, μια ενιαία λίμνη δεδομένων, γίνεται σημαντική. Δεν είναι απαραίτητα μόνο ο φυσικός χώρος, αλλά πιστεύω ότι θα έχει πολύ μεγάλη σημασία ο ενδιάμεσος σταθμός δεδομένων και η λίμνη δεδομένων σε ομάδες, σε γεωγραφικές περιοχές και ίσως στην αρχή και στο σύννεφο. Ειδικά προχωράμε. Φέτος ξεκινήσαμε να βλέπουμε ολοένα και περισσότερες εφαρμογές στο cloud. Είναι καταπληκτικό. Το πρώτο εξάμηνο του τρέχοντος έτους έχουμε δει πολλές εφαρμογές του cloud.

Eric Kavanagh: Εντάξει, δροσερό. Και ο Robin, έχετε κάποιες ερωτήσεις; Ξέρω ότι έχουμε μόλις μερικά λεπτά.

Robin Bloor: Εντάξει, μπορώ να σας ρωτήσω μια ερώτηση. Το πρώτο πράγμα που μου φάνηκε είναι ότι υπήρξε πολύ ενθουσιασμός για τον Kafka και με ενδιέφερε η γνώμη σας για τον Kafka και πώς ενσωματώνετε τον τρόπο με τον οποίο χρησιμοποιούν τον Kafka;

Tendü Yogurtçu: Σίγουρα. Ναι, ο Kafka γίνεται αρκετά δημοφιλής. Μεταξύ των πελατών μας βλέπουμε ότι είναι το είδος του στρώματος μεταφοράς δεδομένων και θεωρήσαμε ότι τα δεδομένα είναι ένα λεωφορείο, λίγο πολύ. Για παράδειγμα, ένας από τους πελάτες μας χρησιμοποιούσε στην πραγματικότητα ένα είδος καταναλώσιμων δεδομένων που προωθήθηκαν σε αυτό το Kafka μεταξύ πολλών, όπως χιλιάδες χρήστες στο διαδίκτυο και ήταν σε θέση να το ταξινομήσουν και να προωθήσουν.

Και πάλι, το Kafka είναι ένα λεωφορείο δεδομένων προς τους διαφορετικούς καταναλωτές αυτών των δεδομένων. Κατηγοριοποιήστε μερικούς προηγμένους χρήστες έναντι μη προχωρημένων χρηστών και κάντε κάτι διαφορετικό που προχωράει προς τα εμπρός σε αυτόν τον αγωγό δεδομένων. Η ενσωμάτωση με την Kafka είναι βασικά, το προϊόν μας DMX-h γίνεται ένας αξιόπιστος καταναλωτής, ένας πολύ αποτελεσματικός και αξιόπιστος καταναλωτής για τον Kafka. Μπορεί να διαβάσει τα δεδομένα και αυτό δεν διαφέρει από την ανάγνωση δεδομένων από οποιαδήποτε άλλη πηγή δεδομένων για εμάς. Δίνουμε στους χρήστες τη δυνατότητα να ελέγχουν το παράθυρο είτε από την άποψη της απαίτησης χρόνου που έχουν είτε από τον αριθμό των μηνυμάτων που μπορεί να καταναλώνουν από το λεωφορείο Kafka. Και τότε μπορούμε να εμπλουτίσουμε αυτά τα δεδομένα καθώς περνάει το προϊόν μας και ωθείται πίσω στην Kafka. Έχουμε δοκιμάσει αυτό. Έχουμε συγκριτική αξιολόγηση στο χώρο του πελάτη. Επίσης πιστοποιείται από το Confluent. Συνεργαζόμαστε στενά με τους συμμαθητές και είναι πολύ υψηλής απόδοσης και εύκολο στη χρήση. Και πάλι, αλλάζουν τα API, αλλά δεν χρειάζεται να ανησυχείτε επειδή το προϊόν αντιμετωπίζει πραγματικά αυτό ως μια άλλη πηγή δεδομένων, μια πηγή ροής δεδομένων. Είναι πολύ διασκεδαστικό να δουλεύουμε με το προϊόν μας και την Kafka, στην πραγματικότητα.

Robin Bloor: Εντάξει έχω μια άλλη ερώτηση που είναι απλώς ένα είδος γενικής επιχειρηματικής ερώτησης, αλλά έχω γνωρίσει το Syncsort εδώ και πολύ καιρό και πάντα είχατε τη φήμη και παρέδωσε εξαιρετικά γρήγορο λογισμικό για το ETL και το mainframe κόσμο. Αληθεύει ότι το μεγαλύτερο μέρος της επιχείρησής σας τώρα μεταφέρεται στον Hadoop; Αληθεύει ότι με τον ένα ή τον άλλο τρόπο εξάπλωσα την επιχείρησή σας αρκετά δραματικά από τον κεντρικό υπολογιστή;

Tendü Yogurtçu: Τα προϊόντα μας mainframe εξακολουθούν να εκτελούν το 50% των mainframes παγκοσμίως. Έχουμε λοιπόν μια πολύ ισχυρή γραμμή προϊόντων mainframe, εκτός από αυτό που κάνουμε στα μεγάλα δεδομένα και στο τέλος του Hadoop. Και είμαστε ακόμα στο μεγαλύτερο μέρος των έργων απλοποίησης ή βελτιστοποίησης πληροφορικής, επειδή υπάρχει ένα τέλος στο οποίο θέλετε να μπορείτε να αξιοποιήσετε τα δεδομένα mainframe σας στις μεγάλες πλατφόρμες δεδομένων Multex και να αξιοποιήσετε όλα τα επιχειρηματικά δεδομένα, ωστόσο υπάρχουν και πολύ κρίσιμοι φόρτοι εργασίας συναλλαγών που συνεχίζει να τρέχει στο mainframe και προσφέρουμε στους πελάτες αυτούς τους τρόπους να κάνουν πιο αποτελεσματικές αυτές τις εφαρμογές, τρέχουν στον κινητήρα zIIP, ώστε να μην καταναλώνουν όσο περισσότερους κύκλους επεξεργασίας και MIPS, καθιστώντας τους αποδοτικούς ως προς το κόστος.

Συνεχίζουμε να επενδύουμε στα mainframe προϊόντα και πραγματικά να παίζουμε σε αυτό το χώρο όπου οι άνθρωποι πηγαίνουν από το mainframe μεγάλο σίδερο σε μεγάλα δεδομένα και καλύπτουν τη γραμμή προϊόντων και σε αυτές τις πλατφόρμες. Επομένως, δεν αλλάζουμε αναγκαστικά ολόκληρη την επιχείρηση σε μια πλευρά, συνεχίζουμε να έχουμε πολύ επιτυχημένη επιχειρηματική δραστηριότητα και από τις δύο πλευρές. Και οι εξαγορές είναι μια μεγάλη εστίαση και για εμάς. Δεδομένου ότι αυτό το χώρο διαχείρισης δεδομένων και επεξεργασίας δεδομένων για τις μεγάλες πλατφόρμες δεδομένων εξελίσσονται, δεσμευόμαστε επίσης να κάνουμε αρκετές δωρεάν προσθήκες.

Robin Bloor: Πιστεύω ότι δεν μπορώ να σας ρωτήσω τι είναι επειδή δεν θα μου επιτρέπετε να μου πείτε. Ενδιαφέρομαι για το αν έχετε δει πολλές εφαρμογές του Hadoop ή Spark πραγματικά στο mainframe ή αν αυτό είναι ένα πολύ σπάνιο πράγμα.

Tendü Yogurtçu: Δεν έχουμε δει κανένα. Υπάρχει περισσότερη ερώτηση γι 'αυτό. Νομίζω ότι ο Hadoop στο mainframe δεν είχε πολύ νόημα εξαιτίας του είδους της βασικής δομής. Ωστόσο, το Spark στο mainframe έχει πολύ νόημα και το Spark είναι πολύ καλό με την εκμάθηση μηχανών και τις προβλέψεις και είναι σε θέση να έχει μερικές από αυτές τις εφαρμογές με τα δεδομένα mainframe πραγματικά είναι, νομίζω, πολύ σημαντικό. Δεν έχουμε δει κανέναν να το κάνει αυτό, ωστόσο είναι πραγματικά η περίπτωση χρήσης που οδηγεί αυτά τα πράγματα. Εάν η περίπτωσή σας ως μια επιχείρηση φέρνει περισσότερο τα δεδομένα mainframe και ενσωματώνοντας τα υπόλοιπα σύνολα δεδομένων στη μεγάλη πλατφόρμα δεδομένων, αυτή είναι μια ιστορία. Απαιτεί πρόσβαση στα δεδομένα mainframe από την πλατφόρμα μεγάλων δεδομένων Multex επειδή είναι απίθανο να μεταφέρετε τα σύνολα δεδομένων σας από ανοιχτά συστήματα και να επιστρέψετε στο mainframe. Ωστόσο, εάν έχετε κάποια δεδομένα κεντρικού υπολογιστή που θέλετε να εξερευνήσετε και να κάνετε λίγη ανακάλυψη δεδομένων, εφαρμόστε κάποια προηγμένη τεχνολογία AI και προηγμένες αναλύσεις, τότε ο Spark ίσως είναι ένας καλός τρόπος για να προχωρήσετε και να τρέξετε στο mainframe.

Eric Kavanagh: Και εδώ μια ακόμη ερώτηση από το κοινό, δύο ακόμη. Θα σας δώσω μια ερώτηση ομάδας-ετικετών, τότε θα ολοκληρώσουμε. Ένας συμμετέχων ρωτάει: "Είναι η IBM ενσωματώνοντας τις συνεισφορές σας ανοιχτού κώδικα στο δημόσιο σύννεφο του cloud, με άλλα λόγια το Bluemix;" Και ένας άλλος συμμετέχοντας έκανε ένα πολύ καλό σημείο, σημειώνοντας ότι το Syncsort είναι εξαιρετικό για τη διατήρηση μεγάλου σιδήρου ζωντανό για όσους αλλά αν οι εταιρείες παραιτηθούν από νέα κεντρικά υπολογιστικά φύλλα υπέρ αυτού που ονομάζει CE, τα πάντα σύννεφα, ότι πιθανότατα θα μειωθεί, αλλά σημειώνει ότι είστε πραγματικά καλοί στη μεταφορά δεδομένων παρακάμπτοντας τα λειτουργικά συστήματα μέχρι ένα gigabyte ανά δευτερόλεπτο. Μπορείτε να μιλήσετε για την πυκνότητα του πυρήνα σας, όπως ανέφερε, και αν η IBM ενσωματώνει τα πράγματα σας στο Bluemix;

Tendü Yogurtçu: Με την IBM, είμαστε ήδη συνεργάτες της IBM και είχαμε συζητήσεις για τις υπηρεσίες cloud δεδομένων που προσφέρουν το προϊόν. Οι συνεισφορές μας ανοικτού κώδικα είναι ανοιχτές σε όλους όσους θέλουν να τους αξιοποιήσουν. Ορισμένες από τις συνδέσεις mainframe είναι επίσης διαθέσιμες στα πακέτα Spark, έτσι όχι μόνο η IBM. Ο καθένας μπορεί να τα αξιοποιήσει. Στο Bluemix δεν έχουμε κάνει κάτι συγκεκριμένο γι 'αυτό ακόμα. Και μήπως θέλετε να επαναλάβετε τη δεύτερη ερώτηση;

Eric Kavanagh: Ναι, το δεύτερο ερώτημα αφορούσε τον βασικό τομέα της λειτουργικότητάς σας με τα χρόνια, το οποίο χειριζόταν πραγματικά τα εμπόδια του ETL και προφανώς αυτό είναι κάτι που εσείς θα συνεχίσει να κάνει ως mainframes, καλά, σταματάτε θεωρητικά, αν και ο Dez σημείο εξακολουθεί να είναι το είδος της ταλάντευσης και το ξετύλιγμα εκεί έξω. Όμως ο συμμετέχων μόλις σημείωσε ότι το Syncsort είναι πολύ καλό στη μεταφορά δεδομένων παρακάμπτοντας τα λειτουργικά συστήματα και μέχρι ένα gigabyte ανά δευτερόλεπτο. Μπορείτε να σχολιάσετε αυτό;

Tendü Yogurtçu: Ναι, αυτή η πραγματική αποτελεσματικότητα των πόρων ήταν η δύναμή μας και η επεκτασιμότητα και η απόδοση ήταν η δύναμή μας. Δεν κάνουμε συμβιβασμούς, απλοποιούμε πολλές έννοιες, δεν κάνουμε συμβιβασμούς από αυτούς. Όταν οι άνθρωποι άρχισαν να μιλάνε για το Hadoop το 2014, για παράδειγμα, πολλοί από τους οργανισμούς δεν έβλεπαν πραγματικά την απόδοση αρχικά. Λέγονταν: "Ω, αν συμβαίνει κάτι, μπορώ να προσθέσω και άλλα δύο κόμβους και θα είμαι ωραία, η απόδοση δεν είναι η απαίτησή μου".

Ενώ μιλούσαμε ότι είχαμε τις καλύτερες επιδόσεις γιατί λειτουργούσαμε ήδη, δεν είχαμε ακόμη και μερικούς από τους αρχικούς λόξυγκους που είχε η Hive με πολλές θέσεις εργασίας του MapReduce και τις γενικές δαπάνες τους ξεκινώντας. Οι άνθρωποι μας λένε, "Ω, αυτό δεν είναι ανησυχία μου, μην ανησυχείτε γι 'αυτό αυτή τη στιγμή."

Όταν φτάσαμε στο 2015, το τοπίο έχει αλλάξει επειδή μερικοί από τους πελάτες μας ξεπέρασαν ήδη την αποθήκευση που είχαν στα συγκροτήματα παραγωγής τους. Έγινε πολύ κρίσιμο γι 'αυτούς να δουν τι μπορεί να προσφέρει η Syncsort. Αν παίρνετε μερικά δεδομένα από μια βάση δεδομένων ή κεντρικό υπολογιστή και γράφετε σε μια μορφή παρκέ στις ομάδες, εάν προσγειωθήκατε και σκηνοθετήκατε και κάνατε άλλο μετασχηματισμό ή απλά κάντε το μετασχηματισμό πτήσης και το φορμά αρχείου στόχου, κάνατε τη διαφορά επειδή αποθηκεύετε από αποθήκευση, εξοικονομείτε από το εύρος ζώνης του δικτύου, εξοικονομείτε από το φόρτο εργασίας στο σύμπλεγμα επειδή δεν εκτελείτε επιπλέον εργασίες. Εκείνα τα δυνατά που παίζουμε με την έννοια ότι είμαστε πολύ συνειδητοί, αισθανόμαστε την αποτελεσματικότητα των πόρων κάτω από το δέρμα μας, φαίνεται.

Αυτό περιγράφουμε. Είναι κρίσιμο για εμάς. Δεν το θεωρούμε δεδομένο. Ποτέ δεν το θεωρήσαμε ως δεδομένο, ώστε να συνεχίσουμε να είμαστε ισχυροί με αυτή τη μόχλευση στο Apache Spark ή στο επόμενο πλαίσιο του υπολογιστή. Αυτό θα συνεχίσει να είναι η εστίασή μας. Και όσον αφορά το κομμάτι κίνησης δεδομένων και το κομμάτι πρόσβασης δεδομένων, είναι σίγουρα ένα από τα πλεονεκτήματα μας και έχουμε πρόσβαση στα δεδομένα DB2 ή VSAM στα mainframes στο πλαίσιο του Hadoop ή του Spark.

Eric Kavanagh: Λοιπόν, αυτός είναι ένας πολύ καλός τρόπος για να τερματίσετε την εκπομπή, ανθρώπους. Σας ευχαριστώ πολύ για το χρόνο και την προσοχή σας. Χάρη σε εσάς, Tendü και Syncsort, για να μπείτε στην αίθουσα ενημέρωσης και να μπείτε στο γύρο, όπως λένε. Πολλές μεγάλες ερωτήσεις από το ακροατήριο. Είναι ένα διαρκώς μεταβαλλόμενο περιβάλλον εκεί έξω, λαοί. Θα επεξεργαστούμε αυτό το Hot Tech όπως κάνουμε με όλους τους άλλους. Μπορείτε να μας βρείτε στο εσωτερικόanalysis.com και στο techopedia.com. Συνήθως ανεβαίνει περίπου μια μέρα. Και με αυτό, θα σας προσφέρουμε αποχαιρετισμό, παιδιά. Σε ευχαριστώ πάρα πολύ. Θα σας μιλήσουμε σύντομα. Να προσέχεις. Αντίο.

Μεγάλο σίδερο, πληρούν τα μεγάλα δεδομένα: απελευθέρωση δεδομένων mainframe με hadoop και σπινθήρα