Σπίτι Λογισμικό Τι είναι η σύνθεση ομιλίας; - ορισμός από την τεχνολογία

Τι είναι η σύνθεση ομιλίας; - ορισμός από την τεχνολογία

Πίνακας περιεχομένων:

Anonim

Ορισμός - Τι σημαίνει Σύνθεση ομιλίας;

Η σύνθεση του λόγου είναι τεχνητή προσομοίωση της ανθρώπινης ομιλίας με υπολογιστή ή άλλη συσκευή. Το αντίστοιχο της φωνητικής αναγνώρισης, η σύνθεση ομιλίας χρησιμοποιείται κυρίως για τη μετάφραση πληροφοριών κειμένου σε πληροφορίες ήχου και σε εφαρμογές όπως υπηρεσίες φωνητικής επικοινωνίας και κινητές εφαρμογές. Εκτός από αυτό, χρησιμοποιείται επίσης σε βοηθητική τεχνολογία για να βοηθήσει άτομα με προβλήματα όρασης στην ανάγνωση περιεχομένου κειμένου.

Η Techopedia εξηγεί τη Σύνθεση Ομιλίας

Το VODER του Homer Dudley, το οποίο βασίστηκε στον φωνοκωδικοποιητή των Bell Laboratories, θεωρείται το πρώτο πλήρως λειτουργικό φωνητικό συνθεσάιζερ. Ο υπολογιστής που χρησιμοποιείται στη σύνθεση ομιλίας είναι γνωστός ως συνθέτης ομιλίας ή υπολογιστής ομιλίας. Η ποιότητα του υπολογιστή ομιλίας συχνά κρίνεται από την ομοιότητά του με την ανθρώπινη φωνή. Τα περισσότερα λειτουργικά συστήματα ηλεκτρονικών υπολογιστών έχουν ενσωματώσει τους συνθέτες ομιλίας από τις αρχές της δεκαετίας του 1990. Η σύνθετη ομιλία παράγεται συνήθως με τη βοήθεια της συγκόλλησης κομμάτων εγγεγραμμένου λόγου, τα οποία περιέχονται σε μια βάση δεδομένων.

Το αρχικό στάδιο της σύνθεσης ομιλίας είναι η προεπεξεργασία, η οποία εξαλείφει την αμφισημία γύρω από τον τρόπο με τον οποίο χρειάζεται να διαβάσει η συγκεκριμένη λέξη και η οποία περιλαμβάνει επίσης χειρισμούς ομογραφιών. Στο επόμενο στάδιο σύνθεσης ομιλίας, ο υπολογιστής λαμβάνει τη βοήθεια των φωνημάτων για να μετατρέψει το κείμενο σε ακολουθία ήχων. Το τελευταίο στάδιο περιλαμβάνει τη χρήση ανθρώπινων ηχογραφήσεων ή βασικών τεχνικών παραγωγής ήχου για τη μίμηση του μηχανισμού ανθρώπινης φωνής και την ανάγνωση του συνόλου του κειμένου. Ένας από τους δημοφιλείς κλάδους της σύνθεσης ομιλίας είναι η οπτικοακουστική σύνθεση ομιλίας ή η σύνθετη ομιλία multimodal ομιλίας που κάνει χρήση ενός κινούμενου προσώπου ερμητικά συγχρονισμένου για να συμπληρώσει την συνθετική ομιλία. Η σύνθετη ομιλία multimodal ενσωματώνει επίσης πρόσθετα χαρακτηριστικά, όπως μη λεκτικές υποδείξεις στην ομιλία, για να βοηθήσει στην επικοινωνία των λέξεων του χρήστη με περισσότερη ακρίβεια. Πολλά συστήματα σύνθεσης ομιλίας επιτρέπουν στους χρήστες να επιλέγουν τον τύπο φωνής όπως η φωνή των ανδρών ή των γυναικών.

Τα περισσότερα συστήματα σύνθεσης ομιλίας είναι ικανά να διαβάζουν κείμενα και να τα εκπέμπουν με πολύ έξυπνο τρόπο, αν και η φωνή μπορεί μερικές φορές να είναι θαμπή. Η σύνθεση του λόγου, ωστόσο, δεν έχει ακόμη αναπτύξει την ικανότητα να μιμείται πλήρως το ευρύ φάσμα των ανθρώπινων οτονισμών και προσφορών.

Τι είναι η σύνθεση ομιλίας; - ορισμός από την τεχνολογία