Ερ:
Ποιοι είναι οι βασικοί τρόποι αυτοματοποίησης και βελτιστοποίησης των διαδικασιών επιστήμης δεδομένων;
ΕΝΑ:Οι διαδικασίες επιστήμης δεδομένων στο πλαίσιο της μάθησης μηχανών και της ΑΠ μπορούν να χωριστούν σε τέσσερις ξεχωριστές φάσεις:
- την απόκτηση και την εξερεύνηση δεδομένων,
- κτίριο μοντέλου,
- ανάπτυξη μοντέλου και
- ηλεκτρονική αξιολόγηση και τελειοποίηση.
Από την εμπειρία μου, οι πιο δυσχερείς φάσεις είναι οι φάσεις της απόκτησης δεδομένων και των μοντέλων ανάπτυξης σε οποιαδήποτε διαδικασία επιστήμης δεδομένων βασισμένη σε μηχανές μάθησης, και εδώ υπάρχουν δύο τρόποι βελτιστοποίησης:
1. Καθιέρωση ενός πολύ προσιτού datastore.
Στις περισσότερες επιχειρήσεις, τα δεδομένα δεν αποθηκεύονται σε μία κεντρική τοποθεσία. Ας πάρουμε μόνο πληροφορίες σχετικά με τους πελάτες. Έχετε πληροφορίες επικοινωνίας πελατών, ηλεκτρονικά μηνύματα υποστήριξης πελατών, σχόλια πελατών και ιστορικό περιήγησης πελατών, εάν η επιχείρησή σας είναι μια εφαρμογή στο διαδίκτυο. Όλα αυτά τα δεδομένα είναι φυσικά διάσπαρτα, καθώς εξυπηρετούν διαφορετικούς σκοπούς. Μπορούν να βρίσκονται σε διαφορετικές βάσεις δεδομένων και μερικές μπορεί να είναι πλήρως δομημένες και μερικές μη δομημένες, και μπορεί ακόμη και να αποθηκεύονται ως αρχεία απλού κειμένου.
Δυστυχώς, η διασπορά αυτών των συνόλων δεδομένων είναι εξαιρετικά περιοριστική για την εργασία επιστήμης των δεδομένων ως βάση όλων των NLP, της μηχανικής μάθησης και των προβλημάτων της ΑΠ είναι δεδομένα . Έτσι, έχοντας όλα αυτά τα δεδομένα σε ένα μέρος - το datastore - είναι πρωταρχικής σημασίας για την επιτάχυνση της ανάπτυξης και της ανάπτυξης του μοντέλου. Δεδομένου ότι αυτό είναι ένα κρίσιμο κομμάτι σε όλες τις διαδικασίες επιστήμης δεδομένων, οι οργανισμοί θα πρέπει να προσλάβουν ειδικευμένους μηχανικούς δεδομένων για να τους βοηθήσουν να χτίσουν τα δεδομένα τους. Αυτό μπορεί εύκολα να ξεκινήσει καθώς τα απλά δεδομένα χωρίζουν σε μια θέση και σιγά-σιγά μεγαλώνουν σε ένα καλά σχεδιασμένο αποθετήριο δεδομένων, πλήρως τεκμηριωμένο και τελετουργικό με εργαλεία χρησιμότητας για την εξαγωγή υποσυνόλων δεδομένων σε διαφορετικές μορφές για διαφορετικούς σκοπούς.
2. Εκθέστε τα μοντέλα σας ως υπηρεσία για ομαλή ενσωμάτωση.
Εκτός από τη δυνατότητα πρόσβασης σε δεδομένα, είναι επίσης σημαντικό να είναι δυνατή η ενσωμάτωση των μοντέλων που αναπτύσσονται από τους επιστήμονες δεδομένων στο προϊόν. Μπορεί να είναι εξαιρετικά δύσκολο να ενσωματώσετε μοντέλα που αναπτύσσονται στην Python με μια εφαρμογή web που τρέχει σε Ruby. Επιπλέον, τα μοντέλα μπορεί να έχουν πολλές εξαρτήσεις δεδομένων που το προϊόν σας μπορεί να μην είναι σε θέση να παρέχει.
Ένας τρόπος για να το αντιμετωπίσετε είναι να δημιουργήσετε μια ισχυρή υποδομή γύρω από το μοντέλο σας και να εκθέσετε ακριβώς τη λειτουργικότητα που χρειάζεται το προϊόν σας για να χρησιμοποιήσετε το μοντέλο ως "υπηρεσία web." Για παράδειγμα, αν η αίτησή σας χρειάζεται ταξινόμηση συναίσθημα σε κριτικές προϊόντων, το μόνο που χρειάζεται να κάνετε είναι να επικαλεστείτε την υπηρεσία ιστού, παρέχοντας το σχετικό κείμενο και η υπηρεσία θα δώσει πίσω την κατάλληλη ταξινόμηση των αισθήσεων που μπορεί να χρησιμοποιήσει απευθείας το προϊόν. Με αυτόν τον τρόπο η ολοκλήρωση είναι απλά με τη μορφή μιας κλήσης API. Η αποσύνδεση του μοντέλου και του προϊόντος που το χρησιμοποιεί, καθιστά πραγματικά εύκολο για τα νέα προϊόντα που προσκομίζετε να χρησιμοποιείτε αυτά τα μοντέλα και με λίγη ταλαιπωρία.
Τώρα, η δημιουργία της υποδομής γύρω από το μοντέλο σας είναι μια ολόκληρη άλλη ιστορία και απαιτεί μια μεγάλη αρχική επένδυση από τις ομάδες μηχανικών. Μόλις η υποδομή είναι εκεί, πρόκειται απλώς για την κατασκευή μοντέλων κατά τρόπο που να ταιριάζει στην υποδομή.