Μεταξύ των νεοσύστατων τεχνολογιών, ο επιστήμονας δεδομένων είναι ένας ολοένα και πιο κοινός όρος που χρησιμοποιείται για να αναφερθεί σε δεδομένα geeks που είναι σε θέση να γεφυρώνουν τις παραδοσιακά ξεχωριστές λειτουργικές περιοχές της πληροφορίας πληροφοριών. Ένας επιστήμονας δεδομένων είναι κάποιος που κάνει άνετα την εκτέλεση αρκετών (αν όχι όλων) πτυχών των σχεδίων πληροφοριών των δεδομένων:
- Απόκτηση δεδομένων: Αυτό μπορεί να συνεπάγεται τη σύνταξη προσαρμοσμένων παραμέτρων και ανιχνευτών ιστού ή σεναρίων που στοχεύουν συγκεκριμένες υπηρεσίες ιστού ή API για μη παραδοσιακές πηγές δεδομένων.
- Διαχείριση δεδομένων: ETL, χειρισμός, διερεύνηση και συντήρηση δεδομένων σε βάσεις δεδομένων, καταστήματα βασικής αξίας, ή Hadoop.
- Οπτικοποίηση πληροφοριών: Ανακαλύψτε πρότυπα με τη χρήση εργαλείων στατικής οπτικοποίησης ή / και διαδραστικών πλατφορμών βασισμένων σε Flash, JavaScript ή Επεξεργασία.
- Analytics: Αυτό μπορεί να κυμαίνεται από απλές σε περίπλοκες τεχνικές σε πολυμεταβλητά στατιστικά στοιχεία, μηχανική μάθηση και NLP.
- Insight: Εξάγει, συνοψίζει και παρουσιάζει βασικά ευρήματα σε ένα ευρύ κοινό.
Υπάρχουν πολλά εργαλεία, δεξιότητες και τεχνικές λεπτομέρειες, και μπορεί κανείς να περάσει χρόνια να κυριαρχεί σε κάθε ένα από τα στοιχεία που αναφέρονται παραπάνω. Ενώ ένας επιστήμονας δεδομένων μπορεί να μην διαθέτει πραγματική εξειδικευμένη γνώση σε κανέναν από τους τομείς, αυτός ή αυτή είναι άνετα παρακάμπτοντας εμπρός και πίσω και εκτελώντας βασικά καθήκοντα σε όλα αυτά. Το αποτέλεσμα είναι ένα εύχρηστο δεδομένο ώστε να διερευνά γρήγορα ένα έργο δεδομένων και να παράγει απαντήσεις σε ερωτήσεις (υψηλού επιπέδου) από τη διοίκηση. (για τους επιστήμονες δεδομένων στο Data Scientists: The New Rock Stars του Tech World).
Για να καλλιεργήσουν οι επιστήμονες δεδομένων, οι εταιρείες πρέπει να επικεντρωθούν περισσότερο στην κουλτούρα και την οργανωτική δομή. Πολλοί εργαζόμενοι στον τομέα των δεδομένων έχουν επαρκείς δεξιότητες και κατάρτιση ώστε να γίνουν γρήγορα παραγωγικοί σε πολλαπλές περιοχές δεδομένων πληροφοριών. Το πρόβλημα είναι ότι οι περισσότεροι δεν εργάζονται σε περιβάλλοντα που τους ενθαρρύνουν να γίνουν επιστήμονες δεδομένων. Είναι κολλημένοι σε σιλό και περιορίζονται σε μία ή δύο περιοχές πληροφοριών πληροφοριών. Συχνά, περιορίζονται στη χρήση εργαλείων "εγκεκριμένων" από τους διαχειριστές τους.