Σπίτι Λογισμικό Τεχνολογία αναγνώρισης φωνής: χρήσιμη ή επώδυνη;

Τεχνολογία αναγνώρισης φωνής: χρήσιμη ή επώδυνη;

Πίνακας περιεχομένων:

Anonim

Έχετε καλέσει ποτέ μια εταιρεία να σας βοηθήσει ή να πληρώσετε το λογαριασμό σας, μόνο για να σας υποδεχτεί μια ευχάριστη ηχογραφημένη φωνή που θέλει να συνομιλήσει μαζί σας - αλλά δεν μπορείτε να καταλάβετε το μισό από αυτό που λέτε; Ή ίσως έχετε ένα iPhone, και ενώ η Siri έμοιαζε για πρώτη φορά σαν ένας καλός σύμμαχος, έχετε συνειδητοποιήσει ότι μερικές φορές (εντάξει, ας είμαστε ειλικρινείς, συχνά) απλά δεν το καταφέρνει; Η τεχνολογία αναγνώρισης φωνής (VRT), γνωστή και ως ομιλία σε κείμενο, πέφτει σε μια κοινή παγίδα: έχει τη δυνατότητα να είναι απίστευτα δροσερή (και αγόρι, στηρίζουμε για αυτό), αλλά πιο συχνά, είναι μια λείανση των δοντιών άσκηση σε απογοήτευση.


Μόλις μια ιδέα που ανήκε στη σφαίρα της επιστημονικής φαντασίας, η φωνητική αναγνώριση έχει αυξηθεί από την αρχή της δεκαετίας του 1950, όταν το σύστημα Bell Laboratories Audrey σχεδιάστηκε για να αναγνωρίζει τα ψηφία που ομιλούνται με μία φωνή, στο σύγχρονο δίκτυο ηλεκτρονικών συνομιλιών που αλληλεπιδράμε τώρα σε καθημερινή βάση - με μικτά αποτελέσματα.

Για να μιλήσετε σε έναν άνθρωπο, πατήστε 0

Πολλές από τις σημερινές επιχειρήσεις χρησιμοποιούν πλέον συστήματα που ονομάζονται διαδραστική φωνητική απόκριση (IVR) για τη διαχείριση κλήσεων εξυπηρέτησης πελατών. Η πιο συνηθισμένη χρήση είναι για φωνητικά μενού, αλλά ορισμένες εταιρείες χρησιμοποιούν συστήματα IVR που μπορούν να έχουν πρόσβαση σε πληροφορίες λογαριασμού πελατών και να απαντούν σε δευτερεύουσες ερωτήσεις. Το λογισμικό IVR στο μενού έχει συνήθως περιορισμένο λεξιλόγιο, το οποίο μπορεί να περιορίζεται σε "ναι", "όχι" και αριθμούς. Τα πιο πολύπλοκα συστήματα μπορούν να αναγνωρίσουν λέξεις και φράσεις συγκεκριμένης εταιρείας.


Αυτά τα συστήματα γίνονται όλο και πιο δημοφιλή - τουλάχιστον για τις επιχειρήσεις - για έναν απλό λόγο: είναι οικονομικά αποδοτικά. Σύμφωνα με μια έκθεση του Wall Street Journal για το 2010, μια τυπική κλήση πελάτη που φθάνει σε έναν πράκτορα κοστίζει μεταξύ $ 3 και $ 9, ενώ μια κλήση που διαχειρίζεται μέσω ενός αυτοματοποιημένου συστήματος κοστίζει μόνο πέντε έως επτά λεπτά. Και, βεβαίως, τα προγράμματα ηλεκτρονικών υπολογιστών δεν κουράζονται, καλέστε σε άρρωστα ή απογοητευτείτε με τους πελάτες (αν και οι πελάτες σίγουρα απογοητεύονται από αυτά!).


Ευτυχώς, αυτό δεν σημαίνει πάντοτε ότι το IVR λαμβάνει θέσεις εργασίας μακριά από τους ανθρώπους - ή τουλάχιστον ότι όλοι οι άνθρωποι εξαφανίζονται από τα τηλεφωνικά κέντρα. Αυτοί οι ενεργοποιημένοι με φωνή βοηθοί επιτρέπουν στους αντιπροσώπους εξυπηρέτησης πελατών να είναι πιο παραγωγικοί κατευθύνοντας τις κλήσεις και απαντώντας σε απλές ερωτήσεις.


Φυσικά για τους ανθρώπους χρήστες που αλληλεπιδρούν με αυτές τις τεχνολογίες, δεν είναι πάντα ομαλή ιστιοπλοΐα. Η τεχνολογία συμβάλλει στη βελτίωση των κοινών προβλημάτων στην τεχνολογία IVR, όπως το πρόβλημα με τις προθέσεις, αλλά η απομάκρυνση αυτοματοποιημένων συστημάτων εξακολουθεί να είναι ένα κοινό θέμα στο διαδίκτυο. Ελέγξτε αυτό το κομμάτι κωμωδίας για έναν ανελκυστήρα εξοπλισμένο με φωνητική αναγνώριση, που υπογραμμίζει την απογοήτευση που μπορεί να προκαλέσει δυσλειτουργία στα συστήματα IVR.

Προσωπικές εφαρμογές τηλεφώνου: Siri, Google Now

Οι περισσότεροι άνθρωποι γνωρίζουν την αναγνώριση φωνής για τα smartphones. Ενώ η πλειοψηφία των τελευταίων μοντέλων τηλεφώνου έρχονται με VR, η δημοτικότητά τους - και η φήμη τους - διογκώθηκαν όταν η Apple εισήγαγε το Siri, τον ήπιο σαρκαστικό, ενεργοποιημένο με φωνή "προσωπικό βοηθό" για το iPhone 4S το 2011. Το Google σύντομα δημιούργησε έναν άμεσο ανταγωνιστή: Τώρα για το λειτουργικό σύστημα Android Jelly Bean. Και τα δύο συστήματα διαθέτουν γυναικείες φωνές και εξελιγμένα χαρακτηριστικά γνωρίσματα που επιτρέπουν στους χρήστες να "μιλούν" με τα τηλέφωνά τους χρησιμοποιώντας απλή γλώσσα.


Όμως, ενώ αυτά τα συστήματα είναι πολύ πιο εξελιγμένα και λειτουργικά από τους προκατόχους τους, δείχνουν επίσης ότι η τεχνολογία έχει ακόμα πολύ δρόμο. Τα ανέκδοτα για την αποτυχία του Σίρι έχουν γίνει ένα δημοφιλές μίμισμα στο Διαδίκτυο. Ένας άνθρωπος μήνυσε ακόμη και την Apple για ψευδή διαφήμιση σχετικά με τις δυνατότητες του Siri.


Ίσως γι 'αυτό το λόγο, ενώ η Apple δημιούργησε Siri για να είναι προηγμένη και ενημερωτική, το λογισμικό VR είναι επίσης λίγο στην αδυσώπητη πλευρά. Για παράδειγμα, αν μιλάς μία από τις πιο περίφημες γραμμές τεχνολογίας πληροφοριών στην ιστορία του κινηματογράφου από την ταινία του 1968 "2001: Μια διαστημική οδύσσεια" - "ανοίξτε τις πόρτες του κόλπου" - η Siri θα απαντήσει είτε με τη γραμμή απάντησης από την ταινία, Λυπάμαι (το όνομά σας), φοβάμαι ότι δεν μπορώ να το κάνω αυτό ", ή το πιο σαρκαστικό, " εμείς οι πράκτορες των μυστικών υπηρεσιών δεν θα ζήσουν ποτέ αυτό, φαινομενικά ".


Σας καλώντας με το όνομα είναι μόνο μία από τις λειτουργίες που προσπαθεί να κάνει το Siri ευκολότερο να αγαπά, και λίγο πιο ανθρώπινο. Ο βοηθός VR μπορεί να ακολουθήσει φωνητικές εντολές για να κάνει κλήσεις, να λάβει υπαγόρευση και να στείλει κείμενα, να πραγματοποιήσει αναζήτηση στο Internet για πληροφορίες, να βρει κοντινά καταστήματα, να δώσει οδηγίες οδήγησης και άλλα, όλα χωρίς να χρειάζεται να αγγίξει τίποτα. Οι απαντήσεις εκφωνούνται ταυτόχρονα από το τηλέφωνο και εμφανίζονται στην οθόνη.


Το Google Now, το τμήμα VR της πλατφόρμας Android Jelly Bean, είναι πολύ παρόμοιο με το Siri. Το σύστημα προσφέρει τις ίδιες εκτεταμένες δυνατότητες αναγνώρισης μεταφέροντας την περιστασιακή ομιλία σε εντολές που επιτρέπουν στους χρήστες να πραγματοποιούν κλήσεις, να στέλνουν κείμενα, να εκτελούν αναζητήσεις, να εκτελούν υπολογισμούς και μετατροπές, να αρπάζουν ορισμούς λέξεων, να ρυθμίζουν συναγερμούς, να παίζουν τραγούδια και να λαμβάνουν χάρτες και οδηγίες.


Με προσωπικούς βοηθούς φωνής όπως το Siri και το Google Now, τα οφέλη είναι προφανή. Τα πάντα από την κλήση και την αποστολή μηνυμάτων σε αναζήτηση και ψυχαγωγία είναι ταχύτερα και πιο εύκολα. Απλά πείτε τι θέλετε, και (τις περισσότερες φορές) η εφαρμογή VR το αρπάζει για εσάς. Η τεχνολογία hands-off του VR είναι ιδιαίτερα χρήσιμη κατά την οδήγηση. Και ενώ πολλοί άνθρωποι έχουν καταγγείλει τις ατέλειες του Σίρι και οι συγγραφείς έχουν υποστηρίξει ότι η ικανότητα του Google Now να τρέχει ουσιαστικά τη ζωή των χρηστών είναι τόσο τρομακτικό, λίγο ενοχλητικό, οι περισσότεροι άνθρωποι εξακολουθούν να αισθάνονται ότι αυτές οι φουτουριστικές τεχνολογίες είναι αρκετά δροσερές.


Φυσικά, οι προσωπικές εφαρμογές τηλεφώνου όπως το Siri και το Google Now απέχουν πολύ από την τέλεια - αν και δείχνουν πού θα μπορούσε να οδηγήσει αυτή η τεχνολογία στο μέλλον. Αυτό σημαίνει ότι ακόμα και όταν η Siri εμφανίζει μια λανθασμένη απάντηση, είμαστε πιθανό να γελάσουμε και να την συγχωρήσουμε, γνωρίζοντας ότι η επόμενη έκδοση θα είναι πολύ καλύτερη.

Όπου το VR Falls Flat

Εάν έχετε συναντήσει ποτέ ένα IVR όταν έχετε καλέσει μια επιχείρηση, ίσως έχετε παρατηρήσει ορισμένα εμπόδια στην επικοινωνία. Ορισμένα προγράμματα χρησιμοποιούν μια ρομποτική φράση κειμένου-ομιλίας που αναπαράγει λάθη και καθιστά τα πράγματα δύσκολα κατανοητά. Άλλοι έχουν προβλήματα ευαισθησίας που έχουν ως αποτέλεσμα το λογισμικό να μην μπορεί να επεξεργαστεί αυτό που λέτε αν είστε πολύ δυνατός, πολύ μαλακός ή δεν δημοσιεύετε προσεκτικά.


Επιπλέον, πολλοί άνθρωποι εξακολουθούν να μην αισθάνονται άνετα να μιλούν σε μια μηχανή. Αν εκτελέσετε μερικές αναζητήσεις στο IVR, θα συναντήσετε λίστες που έχουν συγκεντρώσει οι άνθρωποι για να παρακάμψουν τα συστήματα IVR και να φτάσουν σε ένα "πραγματικό πρόσωπο". Αυτές οι λύσεις κυμαίνονται από "συνεχίσετε να πιέζετε 0 για έναν χειριστή" για να "ορκιστείτε στο μηχάνημα μέχρι να τραβήξει ένα ανθρώπινο ον." Ως αποτέλεσμα, μεγάλο μέρος της πρόσφατης εξέλιξης των συστημάτων IVR έχει περιστραφεί γύρω από το να γίνει πιο ευχάριστο για τους ανθρώπους. καθιστώντας τις φωνές πιο συμπαθητικές και λιγότερο ρομποτικές, καθιστώντας το σύστημα πιο εύκολο στην πλοήγηση και αφήνοντας τους καλούντες να ξέρουν πόσο καιρό το όλο θέμα θα πάρει από την αρχή μέχρι το τέλος. Αυτό δείχνει ότι η καλύτερη τεχνολογία είναι μόνο η μισή μάχη εδώ. το άλλο μισό παίρνει τους χρήστες στο σκάφος μιλώντας σε μια μηχανή.

Τι κρατάει το μέλλον

Παρά τις προκλήσεις αυτές, η τεχνολογία αναγνώρισης φωνής βελτιώνεται συνεχώς. Εφαρμογές όπως το Siri και το Google Now - ατέλειες και όλα - εξακολουθούν να είναι εξαιρετικά εντυπωσιακά στην απόδοσή τους και αρκετές εταιρείες επεκτείνουν τις δυνατότητες του VR σε άλλες εφαρμογές.


Για παράδειγμα, η Nuance, οι δημιουργοί του λογισμικού ομιλίας σε κείμενο του Dragon NaturallySpeaking, έχει ήδη αναπτύξει φωνητικούς ελέγχους για τηλεοράσεις και αυτοκίνητα και οι εκδόσεις αυτής της τεχνολογίας ενσωματώνονται σε ορισμένες τηλεοράσεις Samsung και τα συστήματα ψυχαγωγίας SYNC που χρησιμοποιούνται σε ορισμένα οχήματα της Ford.


Και καθώς η Google και η Apple συνεχίζουν να βρίσκουν νέες χρήσεις για τις τεχνολογίες αναγνώρισης φωνής, είναι πιθανό ότι θα μιλάμε ολοένα και περισσότερο σε κάθε είδους μηχανές καθημερινής χρήσης, από τις τηλεοράσεις έως τους τοστιέρες μας. Και, για άλλη μια φορά, φαίνεται ότι η επιστημονική φαντασία ήταν σωστή. Απλά πρέπει να ελπίζουμε ότι αυτοί οι έξυπνοι συγγραφείς δεν έκαναν τίποτα για ένα πράγμα. Εάν τα μηχανήματα αυτά αναλάβουν, θα μπορούσατε να είστε σε πολλά προβλήματα τη επόμενη φορά που θα ζητήσετε από τη Siri να "ανοίξει τις πόρτες του κόλπου της πόλεως".

Τεχνολογία αναγνώρισης φωνής: χρήσιμη ή επώδυνη;