Σπίτι Ήχος Ποια είναι η διαφορά μεταξύ ομιλίας σε κείμενο και chatbots;

Ποια είναι η διαφορά μεταξύ ομιλίας σε κείμενο και chatbots;

Anonim

Ερ:

Ποια είναι η διαφορά μεταξύ ομιλίας σε κείμενο και chatbots;

ΕΝΑ:

Οι πολυάριθμες σημαντικές διαφορές μεταξύ των τεχνολογιών ομιλίας σε κείμενο και των chatbots αποτελούν μέρος αυτού που εξετάζεται στην ταχεία εξέλιξη των έργων chatbot και voicebot.

Μια τεχνολογία ομιλίας σε κείμενο είναι απλά αυτή που μετατρέπει τη λεκτική ομιλία σε κείμενο σε μια ψηφιακή σελίδα. Αυτή είναι η πλήρης λειτουργία του, αλλά δεν είναι ένα απλό σχεδιασμό. Προκειμένου να μετατραπεί ο λεκτικός λόγος σε κείμενο, η τεχνολογία πρέπει να σπάσει λέξεις και προτάσεις σε ατομικά φωνήματα και να συνεργαστεί μαζί τους σύμφωνα με σύνθετους αλγορίθμους για να δημιουργήσει κείμενο που είναι ακριβές και αντιπροσωπεύει αυτό που είπε ο ομιλητής.

Οι Chatbots, από την άλλη πλευρά, είναι τεχνολογίες που επιτυγχάνουν το στόχο της επικοινωνίας με έναν άνθρωπο. Υπάρχουν δύο τύποι chatbots: chatbots κειμένου και φωνητικές εντολές. Τα chatbots κειμένου ήταν γύρω από πολύ περισσότερο, επειδή δεν χρειάζονται το στοιχείο ομιλίας σε κείμενο που χρησιμοποιούν οι φωνητικές εντολές.

Η κύρια διαφορά μεταξύ των τεχνολογιών ομιλίας σε κείμενο και chatbots είναι πεδίο εφαρμογής. Όπως αναφέρθηκε, όλη η τεχνολογία ομιλίας σε κείμενο πρέπει να κάνει είναι να μεταγράψει τη λεκτική ομιλία. Το chatbot, από την άλλη πλευρά, πρέπει να πάρει ομιλία σε οποιαδήποτε μορφή έχει δημιουργηθεί, να το καταλάβει και να δώσει απαντήσεις που επιδιώκουν να περάσουν τη δοκιμή Turing - τη δοκιμασία αν μια τεχνολογία μπορεί να ξεγελάσει έναν άνθρωπο να σκέφτεται ότι αυτός ή αυτή είναι μιλώντας με άλλο άτομο.

Με αυτό το μυαλό, οι chatbots είναι πολύ πιο εύκολο να δημιουργηθούν από τις φωνητικές εντολές. Το chatbot παίρνει το κείμενο του ανθρώπου και παρέχει μια απάντηση κειμένου. Ακόμα και σχετικά απλά chatbots ήταν σε θέση να παρέχουν ενδιαφέροντα και ευχάριστα αποτελέσματα για τον άνθρωπο από τα τέλη της δεκαετίας του 1980 και τις αρχές της δεκαετίας του 1990.

Η φωνητική εντολή, από την άλλη πλευρά, πρέπει να πάρει λεκτική ομιλία, να την μετατρέψει σε κείμενο, να την ελέγξει για ακρίβεια, να παράγει μια απάντηση και να δημιουργήσει αυτή την απάντηση από τη γλώσσα της μηχανής σε ακουστική ομιλία. Αυτός ο μεγάλος αριθμός αρκετά σημαντικών εργασιών σημαίνει ότι η φωνητική εντολή παίρνει πολλή υπολογιστική ισχύ και πολλά σχέδια για την κατασκευή.

Έργα όπως η Siri, η Cortana και η Alexa αποδεικνύουν μέρος της πρωτοπορίας των τεχνολογιών φωνητικής επικοινωνίας. Παρουσιάζουν επίσης ότι αυτή η τεχνολογία είναι ακόμη στα σπάργανα. Αν και η Alexa και άλλες τεχνολογίες μπορούν να ανταποκριθούν προφορικά στην ανθρώπινη ομιλία, δεν είναι εξαιρετικά ικανές υπό την έννοια ότι συσχετίζουμε γενικά με τη λεκτική ανθρώπινη ομιλία. Με άλλα λόγια, υπάρχει αρκετός περιορισμός στις απαντήσεις που αυτές οι τεχνολογίες μπορούν να προσφέρουν. Υπάρχει ακόμη και μια περιορισμένη ικανότητα της σημερινής γενιάς προσωπικών βοηθών να παράγουν πραγματικά λόγια σε κείμενο, για παράδειγμα, για τους σκοπούς της μεταγραφής ενός μηνύματος ηλεκτρονικού ταχυδρομείου ή για να βοηθήσουν κάποιον να γράψει ένα δοκίμιο χωρίς να χρησιμοποιήσει τα χέρια του. Ορισμένα από τα συγκεκριμένα προγράμματα ομιλίας-κειμένου στην αγορά το κάνουν καλύτερα από το Siri ή το Cortana, πιθανώς λόγω της κατανομής πόρων. Ωστόσο, υπάρχουν ενδείξεις ότι η πρόοδος της φωνητικής επικοινωνίας πρόκειται σύντομα να απογειωθεί - όπως η πλατφόρμα Lex του Amazon που επιτρέπει στο περιβάλλον στούντιο για την κατασκευή αυτών των τύπων τεχνολογιών.

Σε ένα έξυπνο και διδακτικό δοκίμιο για το θέμα, ο Tobias Goebel μιλάει για τη διαφορά μεταξύ αυτών των τεχνολογιών, σε αντίθεση με τη διαδικασία της "μεταγραφής", την οποία ο λόγος στο κείμενο κάνει, στη δουλειά της κατανόησης, τις υποθέσεις που πρέπει να κάνουν.

"Ενώ η εξάλειψη της ανάγκης για αναγνώριση ομιλίας κάνει τα πράγματα ευκολότερα για ένα chatbot, η κύρια πρόκληση για την κατασκευή λειτουργικών bots έγκειται στην κατανόηση της φυσικής γλώσσας", γράφει ο Goebel.

Η Goebel αναγνωρίζει επίσης πολλούς από τους σημερινούς παίκτες του κλάδου:

Ο ηγέτης της αγοράς για την αναγνώριση ομιλίας είναι η Nuance, η οποία είναι πίσω από γνωστά συστήματα όπως το Dragon NaturallySpeaking για υπαγόρευση σε υπολογιστή, το οποίο ήταν γύρω από τη δεκαετία του ενενήντα, αλλά και το Siri: η εργασία αναγνώρισης / μεταγραφής λόγου που πραγματοποιήθηκε στο cloud της Apple χρησιμοποιεί Τεχνολογία Nuance πίσω από τις σκηνές. Άλλοι είναι οι LumenVox, Verbio ή οι αλληλεπιδράσεις, αλλά η αναγνώριση ομιλίας προσφέρεται τώρα και ως υπηρεσία cloud μέσω API από όσους αρέσουν οι Amazon, Google, Microsoft και IBM.

Καθώς αναπτύσσονται τα chatbots, υποθέτουμε ότι η κατανόησή τους θα συνεχίσει να αυξάνεται σε κάποια τροχιά - και πιστεύουμε επίσης ότι η περισσότερη τεχνολογία bot θα περάσει από διεπαφές κειμένου σε λεκτικές διεπαφές, απαιτώντας επιπλέον ποσά υπολογιστικής ισχύος.

Ποια είναι η διαφορά μεταξύ ομιλίας σε κείμενο και chatbots;