Πίνακας περιεχομένων:
- Μεγάλες αλλαγές στο NLP
- Συναρπαστικές δημιουργίες "Κείμενο σε φωνή" στο VivoText
- Τεχνητή φωνή στο μάρκετινγκ
- Η φωνή σας ζει
- Στο Έτος 2525
Αυτές τις μέρες, οι περισσότερες φωνές ηλεκτρονικών υπολογιστών είναι passé. Πιθανότατα δεν πάρετε πάρα πολύ amped επάνω για cyborgs και ρομπότ όταν ακούτε το "droid" στο τηλέφωνό σας που σας βοηθά με μια πληρωμή λογαριασμών ή να σας ρωτήσω τι τμήμα που θέλετε. Τι γίνεται όμως αν ξαφνικά άκουσε τον Kurt Cobain να σας προειδοποιεί για πληροφορίες σχετικά με την κάρτα; Ή ο John F. Kennedy σας λέει για τα θαύματα της πρόωρης ψηφοφορίας; Ή ο Elvis παίρνει το όνομά σας και τη διεύθυνσή σας πριν να σπάσει σε "ένα hunk, ένα κουβά της καυτής αγάπης;"
Όλα αυτά θα ήταν … κάπως περίεργα, αλλά αυτό που είναι ακόμη πιο συναρπαστικό είναι ότι η τεχνολογία είναι βασικά ήδη εδώ. Μόλις πριν από μια δεκαετία, ήμασταν έκπληκτοι από την ικανότητα ενός υπολογιστή να μιλάει καθόλου. Τώρα, πρόκειται να φτιαχτούμε από φωνές ελεύθερης εμβέλειας, δημιουργούμενες από υπολογιστή, που ακούγονται ακριβώς όπως οι λαοί που ξέρουμε.
Μεγάλες αλλαγές στο NLP
Αν δίνετε προσοχή στο πεδίο της επεξεργασίας φυσικής γλώσσας (NLP), ίσως έχετε ακούσει για μερικές πρόσφατες εξελίξεις που ξεπερνούν τα είδη κονσερβοποιημένων εικονικών βοηθητικών φωνών που ακούμε τώρα στα παγκόσμια συστήματα εντοπισμού θέσης (GPS) και στις αυτοματοποιημένες επιχειρήσεις τηλεφωνικές γραμμές.
Η αρχή του NLP απαιτούσε μια μεγάλη έρευνα για τη γενική μηχανική της ανθρώπινης ομιλίας. Οι ερευνητές και οι μηχανικοί έπρεπε να αναγνωρίσουν την μεμονωμένη φωνητική, να τις διπλώσουν σε μεγαλύτερους αλγόριθμους για τη δημιουργία φράσεων και προτάσεων και στη συνέχεια να προσπαθήσουν να το διαχειριστούν σε επίπεδο meta για να δημιουργήσουν κάτι που ακούγεται πραγματικό. Με την πάροδο του χρόνου οι ηγέτες των NLP κατέκτησαν αυτό το μάθημα και άρχισαν να χτίζουν προηγμένους αλγόριθμους για να καταλάβουν τι λένε οι άνθρωποι Κάνοντας αυτά τα δύο μαζί, οι εταιρείες έρχονται με τους οδηγούς για τους σημερινούς εικονικούς βοηθούς και τους πλήρως ψηφιακούς υπαλλήλους που πληρώνουν τα χαρτονομίσματα, των οποίων οι τρόποι - αν και ενοχλητικοί - εξακολουθούν να είναι καταπληκτικοί όταν σταματάτε να σκεφτείτε το έργο που τους πήγε.
Τώρα, ορισμένες εταιρείες πηγαίνουν πέρα από τη γενική εικονική φωνή για να βάλουν μαζί ένα πιο συγκεκριμένο εξατομικευμένο αποτέλεσμα. Αυτό απαιτεί να περάσετε από το λεξικό ενός συγκεκριμένου ατόμου και να συλλέξετε μεγάλες ποσότητες μοναδικού φωνητικού βίντεο, εφαρμόζοντας αυτό το αρχείο στους περίπλοκους ρυθμούς της φωνητικής, της έμφασης, του ρυθμού και όλων των άλλων μικροσκοπικών συνθηκών που οι γλωσσολόγοι συχνά συγκεντρώνονται κάτω από το ευρύ έμβλημα της «προζωίας».
Αυτό που βγαίνει είναι μια φωνή που οι ακροατές θεωρούν ότι ανήκουν σε ένα συγκεκριμένο άτομο - είτε κάποιον με τον οποίο γνωρίζουν και με τον οποίο έχει μιλήσει, ή κάποιον που η φωνή του αναγνωρίζει ως αποτέλεσμα της φήμης του ατόμου.
Από τον Elvis μέχρι τον Martin Luther King, η φωνή κάποιου μπορεί τώρα να "κλωνοποιηθεί" με τον τρόπο αυτό - υπό την προϋπόθεση ότι υπάρχει μια ουσιαστική προκαταρκτική εγγραφή της ομιλίας τους. Εφαρμόζοντας ακόμα πιο λεπτομερείς αναλύσεις και χειρισμούς σε μεμονωμένους μικρούς ήχους, οι εταιρείες είναι σε θέση να δημιουργήσουν ένα εικονικό αντιγραφικό αντίγραφο της φωνής κάποιου που ακούγεται πολύ σαν το πραγματικό πράγμα.
Συναρπαστικές δημιουργίες "Κείμενο σε φωνή" στο VivoText
Το VivoText, για παράδειγμα, είναι μια εταιρεία που προσπαθεί να φέρει επανάσταση στη χρήση τεχνητών ανθρώπινων φωνών για όλα τα είδη εκστρατειών, από τα ακουστικά βιβλία έως τη διαδραστική φωνητική απόκριση (IVR). Στο VivoText, οι ερευνητικές και παραγωγικές ομάδες εργάζονται σε διαδικασίες οι οποίες, θεωρητικά, θα μπορούσαν να αναπαράγουν συγκεκριμένα τις φωνές των νεκρών διασημοτήτων, όπως ο ίδιος ο Ol 'Blue Eyes.
"Για να κλωνοποιήσουμε τη φωνή του Frank Sinatra, θα περάσαμε στην πραγματικότητα την καταγεγραμμένη κληρονομιά του", λέει ο γενικός διευθυντής της VivoText Gershon Silbert, μιλώντας για το πώς θα μπορούσε να λειτουργήσει αυτό το είδος τεχνολογίας.
Αυτή τη στιγμή, το VivoText εργάζεται για την αρχειοθέτηση των φωνών εκείνων που είναι ακόμα μαζί μας, όπως ο ανταποκριτής NPR Neal Conan, ο οποίος έχει εγγραφεί ως πρότυπο για αυτό το είδος πρωτοποριακού έργου ΤΠ. Ένα διαφημιστικό βίντεο δείχνει ότι οι εργαζόμενοι του VivoText δημιουργούν με προσοχή μονάδες φωνητικού κώδικα χρησιμοποιώντας την παρεχόμενη φωνητική είσοδο από τη Conan. Στη συνέχεια, δημιουργούν τα μοντέλα για εργαλεία κειμένου σε λόγο (TTS) που προκαλούν ένα δραματικά ανθρώπινο και προσωποποιημένο αποτέλεσμα.
Σύμφωνα με τον Ben Feibleman, αντιπρόεδρο στρατηγικής και επιχειρηματικής ανάπτυξης στο VivoText, ο υπολογιστής λειτουργεί σε επίπεδο φωνημάτων (χρησιμοποιώντας τα μικρότερα μοναδικά τμήματα της ομιλίας) για να συμμορφώνεται με ένα προσοδιτικό μοντέλο για μια μεμονωμένη ανθρώπινη φωνή.
«Γνωρίζει πώς η φωνή μιλάει», λέει ο Feibleman, προσθέτοντας ότι χρησιμοποιώντας τη "επιλογή μονάδας", ο υπολογιστής επιλέγει ένα κομμάτι για να βάλει μαζί μια μικρή λέξη, όπως εκεί όπου η λέξη "Παρασκευή" έχει πέντε συστατικά που βοηθούν στην ανάπτυξη ιδιαίτερη έμφαση και ηχητικό αποτέλεσμα.
Τεχνητή φωνή στο μάρκετινγκ
Λοιπόν, πώς λειτουργεί αυτό στο μάρκετινγκ; Τα προϊόντα του VivoText θα μπορούσαν να είναι εξαιρετικά χρήσιμα στη δημιουργία προϊόντων, όπως τα ηχητικά βιβλία, που θα μπορούσαν να προσεγγίσουν το κοινό-στόχο. Για παράδειγμα, πόσο αποτελεσματικότερη θα ήταν μια φωνή του Elvis να συγκριθεί με μια από τις σημερινές γενικές, ανωμαλίες, αυτοματοποιημένες φωνές, εάν χρησιμοποιήθηκαν για την πώληση προϊόντων που σχετίζονται με την ψυχαγωγία;
Ή, τι γίνεται στην πολιτική; Ο Feibleman εργάζεται σε διάφορες ιδέες για τη χρήση σχεδίων όπως αυτά για να ενισχύσει το μάρκετινγκ για εταιρείες ή άλλα μέρη που χρειάζονται πιο αποτελεσματικά μηνύματα.
"Αν γνωρίζετε πολιτικούς που εκλέγονται για πρόεδρο, αυτό θα μπορούσε να έχει 10 εκατομμύρια ψηφοφόρους κρατών-μελών να πάρουν μια προσωπική κλήση από έναν υποψήφιο, ευχαριστώντας τους για την υποστήριξή τους, λέγοντας τους πού πρέπει να πάνε για να ψηφίσουν, τον καιρό και όλα τα διακοσμητικά νύχτα πριν από τις εκλογές ", δήλωσε ο Feibleman.
Η φωνή σας ζει
Υπάρχει μια άλλη προφανής εφαρμογή σε όλη αυτή την τεχνολογία. Οι εταιρείες φυσικής γλώσσας, όπως το VivoText, θα μπορούσαν να δημιουργήσουν μια προσωπική υπηρεσία που θα μεταφέρει όλα τα φωνητικά δεδομένα ενός πελάτη σε ένα προϊόν που θα του επέτρεπε να "μιλήσει για πάντα".
Η πρακτική εφαρμογή θα δημιουργούσε πιθανώς ορισμένες ερωτήσεις σχετικά με το πώς ακούμε και εσωτερικεύουμε φωνές ομιλίας. Για παράδειγμα, τι χρειάζεται για να φτιάξετε ένα ηχητικό ρεύμα ήχο ακριβώς όπως κάποιος; Πόσο καλά πρέπει να γνωρίζουμε ένα άτομο να αναγνωρίσει μια συγκεκριμένη φωνή; Και, ενδιαφέρον, τι συμβαίνει εάν μια υπηρεσία φυσικής γλώσσας παράγει μια ακατέργαστη καρικατούρα, παρά μια συναρπαστική μιμητική;
Η αξιολόγηση των αποτελεσμάτων, λέει ο Feibleman, συχνά εξαρτάται από την εξέταση του πλαισίου. Για παράδειγμα, λέει ότι τα παιδιά συνήθως δεν κάνουν ερωτήσεις για το ποιος μιλάει όταν ακούν μια ιστορία. Απλώς θέλουν περισσότερα. Αλλά, επίσης, πολλοί ενήλικες μπορεί να μην σκέφτονται ποιος μιλάει μαζί τους, δεδομένου ενός συγκεκριμένου σεναρίου, όπως ένα παθητικό ραδιοφωνικό ή τηλεφωνικό μήνυμα. Επίσης, είναι ευκολότερο να ξεγελιέστε από έναν υπολογιστή μέσω του τηλεφώνου, επειδή ο ήχος με σίγαση μπορεί να καλύψει δυσλειτουργίες ή άλλες ασυμφωνίες μεταξύ των αποτελεσμάτων του υπολογιστή και μιας ανθρώπινης φωνής.
"Δεν σας προκαλεί να αμφισβητήσετε την αυθεντικότητα της φωνής", λέει ο Feibleman.
Στο Έτος 2525
Καθώς οι εταιρείες προχωρούν στην ανάπτυξη προϊόντων και υπηρεσιών και απαντώντας σε αυτές τις ερωτήσεις, οι τεχνολογίες «ζωντανής ομιλίας» θα μπορούσαν να μας προωθήσουν προς αυτή τη σύγκλιση της τεχνολογίας και του ανθρώπινου νου, το οποίο κλασικά ονομάστηκε τεχνητή νοημοσύνη.
Αν οι υπολογιστές μπορούν να μιλούν σαν εμάς, ίσως μπορέσουν να παραπλανήσουν τους άλλους χρήστες να σκεφτούν ότι σκέφτονται σαν εμάς, τροφοδοτώντας την ευρύτερη αρχή της ιδιοτυπίας, όπως προωθήθηκε στο λεξικό μας από τον John von Neumann, έναν πρωτοπόρο τεχνολογίας της δεκαετίας του '50 που ευαγγελίστηκε από συγγραφείς και στοχαστές όπως ο Ray Kurzweil. Το βιβλίο του Kurzweil του 2005, "Η μοναδικότητα είναι κοντά, " ενθουσιάζει μερικούς και φοβίζει τους άλλους. Ο κ. Kurzweil προέβλεψε ότι μέχρι το 2045 η "νοημοσύνη" ως φαινόμενο θα γίνει πολύ αμόλυντη από τον ανθρώπινο εγκέφαλο και θα μεταναστεύσει στην τεχνολογία, θα θολώσει τις γραμμές ανάμεσα στις μηχανές και τους ανθρώπινους πλοιάρχους τους.
Αθανατίστηκαν στους στίχους του Zager & Evans '"Το έτος 2525" (κανείς δεν κάνει ανατριχιαστικές μπαλάντες sci-fi όπως αυτά τα παιδιά) …
Στο έτος 4545
Δεν θα χρειαστείτε τα δόντια σας, δεν θα χρειαστείτε
τα μάτια σου
Δεν θα βρείτε κάτι που να μασάτε
Κανείς δεν θα σε κοιτάξει
Στο έτος 5555
Τα χέρια σου κρέμονται στα χέρια σου
Τα πόδια σου δεν πήγαιναν
Ορισμένα μηχανήματα το κάνουν για εσάς
Είναι οι φωνές του υπολογιστή ένα βήμα προς αυτή την κατεύθυνση; Ως ένας νέος τρόπος να αναθέσουμε σε εξωτερικούς συνεργάτες ορισμένες από τις λειτουργίες του ανθρώπινου σώματος (ή πιο συχνά, για να τις προσομοιώσουμε), αυτή η τεχνολογική πρόοδος είναι μία από τις μεγαλύτερες - και μάλλον ανεπαρκώς - προόδους στον ορίζοντα καθώς εξετάζουμε ένα ξεχωριστό μέλλον . (για την "ιδιαιτερότητα" στην Will Computers μπορεί να μιμηθεί το ανθρώπινο μυαλό;)