Ερ:
Πώς απομακρύνονται τα δεδομένα για τη μηχανική μάθηση, καθιστούν τη συμφόρηση μεγαλύτερη από το εργατικό δυναμικό από την εισαγωγή των χειροκίνητων δεδομένων στη μετανάστευση;
ΕΝΑ:Ένα από τα πρακτικά προβλήματα που ενδέχεται να αντιμετωπίσουν οι εταιρείες όταν προσπαθούν να ξεκινήσουν ένα πρόγραμμα εκμάθησης μηχανών (ML) είναι η πρόκληση να αποκτήσουν τα σύνολα δεδομένων αρχικής κατάρτισης. Αυτό μπορεί να περιλαμβάνει διαδικασίες έντασης εργασίας, όπως απόξεση ιστού ή άλλες αποκομμένες πληροφορίες.
Οι όροι απόξεση ιστού και απόξεση δεδομένων αφορούν σε μεγάλο βαθμό την αυτοματοποιημένη δραστηριότητα από λογισμικό υπολογιστών, αλλά για πολλά έργα ML, πρόκειται να υπάρξουν περιπτώσεις όπου οι υπολογιστές δεν έχουν την πολυπλοκότητα συλλογής των σωστών στοχοθετημένων δεδομένων, οπότε θα πρέπει να γίνει "με το χέρι." Αυτό θα μπορούσατε να ονομάσετε "ανθρώπινο ιστό / δεδομένα απόξεση", και είναι μια ευχαριστημένη δουλειά. Συμπεριλαμβάνει γενικά τη μετάβαση και την αναζήτηση δεδομένων ή εικόνων για την "τροφοδοσία" του προγράμματος ML μέσω εκπαιδευτικών σετ. Είναι συχνά αρκετά επαναληπτικό, το οποίο καθιστά κουραστική, αργή, απαιτητική δουλειά.
Δωρεάν Λήψη: Μηχανική Μάθηση και γιατί έχει σημασία |
Η απομάκρυνση των δεδομένων για τα σετ εκπαίδευσης ML αντιπροσωπεύει μια μοναδική προβληματική συμφόρηση στη μηχανική μάθηση, εν μέρει επειδή τόσο μεγάλο μέρος της άλλης εργασίας είναι εντελώς εννοιολογικό και όχι επαναλαμβανόμενο. Πολλοί άνθρωποι μπορούν να βρουν μια μεγάλη ιδέα για μια νέα εφαρμογή που εκτελεί εργασίες εκμάθησης μηχανών, αλλά τα καρύδια και οι βίδες και η πρακτική εργασία μπορεί να είναι πολύ πιο δύσκολο. Ειδικότερα, η ανάθεση του έργου συγκέντρωσης των εκπαιδευτικών σετ μπορεί να είναι ένα από τα πιο δύσκολα μέρη ενός έργου ML, όπως διερευνήθηκε πλήρως στο τηλεοπτικό σόου του Mike Judge "Silicon Valley". Σε μια εποχή τέσσερα επεισόδια, ένας επιχειρηματίας εκκίνησης αρχικά εκφοβίζει έναν εταίρο για να κάνει το έργο έντασης εργασίας, στη συνέχεια, προσπαθεί να το περάσει μακριά από τους φοιτητές με τη μεταμφίεση ως εργασία στο σπίτι.
Αυτό το παράδειγμα είναι διδακτικό, διότι δείχνει πόσο δυσάρεστο και φαινομενικά ασήμαντο είναι η χειροκίνητη απόσπαση δεδομένων. Ωστόσο, δείχνει επίσης ότι αυτή η διαδικασία είναι απαραίτητη για ένα ευρύ φάσμα προϊόντων μηχανικής μάθησης. Παρόλο που οι περισσότεροι άνθρωποι μισούν την είσοδο δεδομένων, τα εκπαιδευτικά σετ πρέπει να συναρμολογηθούν με κάποιο τρόπο. Οι εμπειρογνώμονες σχετικά με τη διαδικασία συχνά συνιστούν τη χρήση μιας υπηρεσίας απόξεσης ιστού - ουσιαστικά απλώς να αναθέτουν σε εξωτερικούς συνεργάτες αυτήν την πολύ έντονη εργασία, αλλά θα μπορούσαν να έχουν συνέπειες στην ασφάλεια και να δημιουργήσουν άλλα προβλήματα. Όταν διατηρείται η εργασία χειρωνακτικής συλλογής δεδομένων στο σπίτι, πάλι, πρέπει να υπάρχει μια διάταξη που να συνιστά συχνά μια πολύ χειροκίνητη και χρονοβόρα διαδικασία.
Με κάποιους τρόπους, η "απομάκρυνση των δεδομένων από τον άνθρωπο" για τη μηχανική μάθηση μοιάζει με τη μη αυτόματη εισαγωγή δεδομένων, η οποία μερικές φορές έπρεπε να γίνει στη μετανάστευση. Καθώς το σύννεφο έγινε ολοένα και πιο δημοφιλές και οι εταιρείες έβαλαν τις διαδικασίες και τις ροές εργασίας τους στο σύννεφο, κάποιοι διαπίστωσαν ότι δεν είχαν εργαστεί μέσω των πρακτικών πτυχών του τρόπου με τον οποίο θα μπορούσαν να αποκτήσουν τα εταιρικά τους δεδομένα από ένα απομονωμένο κληροδοτημένο σύστημα σε εφαρμογές σύννεφων. Ως αποτέλεσμα, μερικοί άνθρωποι που κατά τα άλλα ήταν επιστήμονες δεδομένων ή δημιουργικοί άνθρωποι με βασικές δεξιότητες πληροφορικής διαπίστωσαν ότι κάνουν δυσάρεστες εργασίες εισαγωγής δεδομένων.
Το ίδιο συμβαίνει και με τη μηχανική μάθηση. Ίσως ακούσετε έναν επιστήμονα δεδομένων που διαμαρτύρεται ότι είμαι "δημιουργικός άνθρωπος" ή "είμαι στην αναπτυξιακή πλευρά" - αλλά κάποιος πρέπει να κάνει το βρώμικο έργο.
Και πάλι, εάν η δημιουργική ροή δεν συνοδεύεται από μια πρακτική εκτίμηση της μεταβίβασης της ροής εργασίας, θα υπάρξει μια αναντιστοιχία στον τρόπο με τον οποίο γίνεται ο χειρισμός της εργασίας. Όταν μια εταιρεία δεν έχει ανθρώπους να κάνουν τα δεδομένα να απομακρύνονται από τη συλλογή των συνόλων δεδομένων, λείπει ένα βασικό μέρος της αλυσίδας διαδικασίας για ένα επιτυχημένο έργο. Αξίζει να το θυμάστε κάθε φορά που μια εταιρεία προσπαθεί να κάνει καλό σε μια ιδέα που βασίζεται γύρω από την ανάπτυξη νέων εφαρμογών μηχανικής μάθησης.