Αναγνώριση φωνής ομιλίας για το βοηθητικό πρόγραμμα. Κατανόηση των σύγχρονων συστημάτων αναγνώρισης ομιλίας στο Linux

Στον σύγχρονο, γεμάτο γεγονότα κόσμο μας, η ταχύτητα εργασίας με πληροφορίες είναι ένας από τους ακρογωνιαίους λίθους της επιτυχίας. Το πόσο γρήγορα λαμβάνουμε, δημιουργούμε, επεξεργαζόμαστε πληροφορίες εξαρτάται από την εργασιακή μας παραγωγικότητα και παραγωγικότητα, και ως εκ τούτου τον άμεσο υλικό μας πλούτο. Μεταξύ των εργαλείων που μπορούν να αυξήσουν τις δυνατότητες εργασίας μας, σημαντική θέση καταλαμβάνουν τα προγράμματα μετάφρασης του λόγου σε κείμενο, τα οποία μπορούν να αυξήσουν σημαντικά την ταχύτητα πληκτρολόγησης των κειμένων που χρειαζόμαστε. Σε αυτό το άρθρο θα σας πω ποια είναι τα δημοφιλή προγράμματα για τη μετάφραση ήχου φωνής σε κείμενο και ποια είναι τα χαρακτηριστικά τους.

Εφαρμογή μεταφραστή ήχου σε κείμενο - Απαιτήσεις συστήματος

Τα περισσότερα από τα ήδη υπάρχοντα προγράμματα για τη μετάφραση φωνής σε κείμενο είναι πληρωμένης φύσης, παρουσιάζοντας μια σειρά από απαιτήσεις για μικρόφωνο (στην περίπτωση που το πρόγραμμα προορίζεται για υπολογιστή). Δεν συνιστάται ιδιαίτερα η εργασία με μικρόφωνο ενσωματωμένο σε κάμερα web, καθώς και τοποθετημένο σε τυπική θήκη φορητού υπολογιστή (η ποιότητα της αναγνώρισης ομιλίας από τέτοιες συσκευές είναι σε αρκετά χαμηλό επίπεδο). Επιπλέον, είναι αρκετά σημαντικό να έχετε ένα ήσυχο περιβάλλον, χωρίς περιττό θόρυβο που μπορεί να επηρεάσει άμεσα το επίπεδο αναγνώρισης της ομιλίας σας.

Ταυτόχρονα, τα περισσότερα από αυτά τα προγράμματα έχουν τη δυνατότητα όχι μόνο να μετατρέπουν την ομιλία σε κείμενο στην οθόνη του υπολογιστή, αλλά και να χρησιμοποιούν φωνητικές εντολές για τον έλεγχο του υπολογιστή σας (εκκίνηση προγραμμάτων και κλείσιμο, λήψη και αποστολή e-mail, άνοιγμα και κλείσιμο ιστοσελίδων , και ούτω καθεξής).

Το πρόγραμμα ομιλία σε κείμενο

Ας προχωρήσουμε σε μια άμεση περιγραφή προγραμμάτων που μπορούν να βοηθήσουν στη μετάφραση του λόγου σε κείμενο.

Πρόγραμμα "Λαϊτης"

Το δωρεάν ρωσόφωνο πρόγραμμα αναγνώρισης φωνής "Laitis". καλής ποιότηταςκατανόηση της ομιλίας και, σύμφωνα με τους δημιουργούς του, είναι σε θέση να αντικαταστήσει σχεδόν πλήρως το οικείο πληκτρολόγιο του χρήστη. Το πρόγραμμα λειτουργεί επίσης καλά με φωνητικές εντολές, επιτρέποντάς σας να εκτελέσετε πολλές ενέργειες για να διαχειριστείτε τον υπολογιστή σας με τη βοήθειά τους.

Για τη λειτουργία του, το πρόγραμμα απαιτεί την υποχρεωτική διαθεσιμότητα Διαδικτύου υψηλής ταχύτητας στον υπολογιστή (το πρόγραμμα χρησιμοποιεί υπηρεσίες δικτύου αναγνώρισης φωνής από την Google και το Yandex). Οι δυνατότητες του προγράμματος σάς επιτρέπουν επίσης να ελέγχετε το πρόγραμμα περιήγησής σας χρησιμοποιώντας φωνητικές εντολές, για τις οποίες πρέπει να εγκαταστήσετε μια ειδική επέκταση από το Laitis (Chrome, Mozilla, Opera) στο web navigator σας.

"Dragon Professional" - μεταγραφή ηχογραφήσεων σε κείμενο

Τη στιγμή που γράφονται αυτές οι γραμμές, ένα ψηφιακό αγγλόφωνο προϊόν « Ο Dragon Professional Individual «είναι ένας από τους παγκόσμιους ηγέτες στην ποιότητα των αναγνωρισμένων κειμένων. Το πρόγραμμα καταλαβαίνει επτά γλώσσες (μέχρι στιγμής μόνο η εφαρμογή για κινητά Dragon Anywhere λειτουργεί με ρωσικά και), έχει υψηλή ποιότητα φωνητικής αναγνώρισης και μπορεί να εκτελέσει πολλές φωνητικές εντολές. Ταυτόχρονα, αυτό το προϊόν έχει αποκλειστικά πληρωμένο χαρακτήρα (η τιμή για το κύριο πρόγραμμα είναι 300 δολάρια ΗΠΑ και για την "οικιακή" έκδοση του προϊόντος Dragon Home, ο αγοραστής θα πρέπει να πληρώσει 75 δολάρια ΗΠΑ).

Για τη λειτουργία του, αυτό το προϊόν της Nuance Communications απαιτεί τη δημιουργία του δικού του προφίλ, το οποίο έχει σχεδιαστεί για να προσαρμόζει τις δυνατότητες του προγράμματος στις ιδιαιτερότητες της φωνής σας. Εκτός από την άμεση υπαγόρευση κειμένου, μπορείτε να εκπαιδεύσετε το πρόγραμμα ώστε να εκτελεί έναν αριθμό εντολών, κάνοντας έτσι την αλληλεπίδρασή σας με τον υπολογιστή ακόμα πιο ομοιογενή και βολική.

"RealSpeaker" - εξαιρετικά ακριβής αναγνώρισης ομιλίας

Το πρόγραμμα για τη μετατροπή της φωνής σε κείμενο " RealSpeaker", εκτός από τις τυπικές λειτουργίες για προγράμματα αυτού του είδους, σας επιτρέπει να χρησιμοποιήσετε τις δυνατότητες της κάμερας web του υπολογιστή σας. Τώρα το πρόγραμμα όχι μόνο διαβάζει το στοιχείο ήχου του ήχου, αλλά καταγράφει επίσης την κίνηση των γωνιών των χειλιών του ομιλητή, αναγνωρίζοντας έτσι πιο σωστά τις λέξεις που προφέρει.


Το "RealSpeaker" διαβάζει όχι μόνο τον ήχο, αλλά και το οπτικό στοιχείο της διαδικασίας ομιλίας

Η εφαρμογή υποστηρίζει περισσότερες από δέκα γλώσσες (συμπεριλαμβανομένων των ρωσικών), σας επιτρέπει να αναγνωρίζετε την ομιλία, λαμβάνοντας υπόψη προφορές και διαλέκτους, σας επιτρέπει να μεταγράψετε ήχο και βίντεο, σας δίνει πρόσβαση στο cloud και πολλά άλλα. Το πρόγραμμα είναι shareware, για την πληρωμένη έκδοση θα πρέπει να πληρώσετε αρκετά πραγματικά χρήματα.

"Voco" - το πρόγραμμα θα μεταφράσει γρήγορα τη φωνή σε έγγραφο κειμένου

Ένας άλλος μετατροπέας φωνής σε κείμενο είναι το επί πληρωμή ψηφιακό προϊόν Voco, η τιμή της "οικιακής" έκδοσης του οποίου είναι τώρα περίπου 1.700 ρούβλια. Οι πιο προηγμένες και ακριβές εκδόσεις αυτού του προγράμματος - "Voco.Professional" και "Voco.Enterprise" έχουν μια σειρά από πρόσθετες λειτουργίες, μία από τις οποίες είναι η αναγνώριση ομιλίας από ηχογραφήσεις που είναι διαθέσιμες στον χρήστη.

Μεταξύ των χαρακτηριστικών του "Voco" σημειώνω τη δυνατότητα συμπλήρωσης του λεξιλογίου του προγράμματος (τώρα λεξιλόγιοΤο πρόγραμμα περιλαμβάνει περισσότερες από 85 χιλιάδες λέξεις), καθώς και τη λειτουργία του εκτός σύνδεσης από το δίκτυο, επιτρέποντάς σας να μην εξαρτάστε από τη σύνδεσή σας στο Διαδίκτυο.


Ανάμεσα στα πλεονεκτήματα του "Voco" είναι η υψηλή ικανότητα εκμάθησης του προγράμματος

Η εφαρμογή ενεργοποιείται πολύ απλά - απλώς κάντε διπλό κλικ στο πλήκτρο "Ctrl". Για να ενεργοποιήσετε τη φωνητική εισαγωγή στο Gboard, απλώς πατήστε παρατεταμένα το πλήκτρο διαστήματος

Η εφαρμογή είναι απολύτως δωρεάν, υποστηρίζει πολλές δεκάδες γλώσσες, συμπεριλαμβανομένων των ρωσικών.

συμπέρασμα

Παραπάνω, έχω παραθέσει προγράμματα για τη μετάφραση της ηχογράφησης της φωνής σας σε κείμενο, περιέγραψα τη γενική τους λειτουργικότητα και Χαρακτηριστικά. Τα περισσότερα από αυτά τα προϊόντα έχουν συνήθως πληρωμένο χαρακτήρα, ενώ η γκάμα και η ποιότητα των προγραμμάτων στη ρωσική γλώσσα είναι κατώτερα από τα αντίστοιχα της αγγλικής γλώσσας. Όταν εργάζεστε με τέτοιες εφαρμογές, συνιστώ να δίνετε ιδιαίτερη προσοχή στο μικρόφωνό σας και τις ρυθμίσεις του - αυτό είναι σημαντικό στη διαδικασία αναγνώρισης ομιλίας, επειδή ένα κακό μικρόφωνο μπορεί να ακυρώσει ακόμη και το λογισμικό υψηλότερης ποιότητας του τύπου που έχω εξετάσει.

Προς την αναγνωρίζουν την ομιλίακαι μεταφράστε το από ήχο ή βίντεο σε κείμενο, υπάρχουν προγράμματα και επεκτάσεις (πρόσθετα) για προγράμματα περιήγησης. Ωστόσο, γιατί όλα αυτά, αν υπάρχουν διαδικτυακές υπηρεσίες; Τα προγράμματα πρέπει να εγκατασταθούν σε υπολογιστή, επιπλέον, τα περισσότερα προγράμματα αναγνώρισης ομιλίας δεν είναι καθόλου δωρεάν.


Ένας μεγάλος αριθμός πρόσθετων εγκατεστημένων στο πρόγραμμα περιήγησης επιβραδύνει σημαντικά τη δουλειά του και την ταχύτητα περιήγησης στο Διαδίκτυο. Και οι υπηρεσίες που θα συζητηθούν σήμερα είναι εντελώς δωρεάν και δεν απαιτούν εγκατάσταση - μπήκες, το χρησιμοποίησες και έφυγες!

Σε αυτό το άρθρο, θα εξετάσουμε δύο διαδικτυακές υπηρεσίες μετάφρασης ομιλίας σε κείμενο. Και οι δύο λειτουργούν με την ίδια αρχή: ξεκινάτε την εγγραφή (επιτρέπετε στο πρόγραμμα περιήγησης να έχει πρόσβαση στο μικρόφωνο ενώ χρησιμοποιείτε την υπηρεσία), μιλάτε στο μικρόφωνο (υπαγόρευση) και στην έξοδο λαμβάνετε κείμενο που μπορεί να αντιγραφεί σε οποιοδήποτε έγγραφο του υπολογιστή.

Speechpad.ru

Ρωσική διαδικτυακή υπηρεσία αναγνώρισης ομιλίας. Εχει αναλυτικές οδηγίεςγια δουλειά στα ρωσικά.

  • υποστήριξη για 7 γλώσσες (Ρωσικά, Ουκρανικά, Αγγλικά, Γερμανικά, Γαλλικά, Ισπανικά, Ιταλικά)
  • λήψη για μεταγραφή ενός αρχείου ήχου ή βίντεο (υποστηρίζονται βίντεο YouTube)
  • ταυτόχρονη μετάφραση σε άλλη γλώσσα
  • υποστήριξη για φωνητική εισαγωγή σημείων στίξης και τροφοδοσίας γραμμής
  • γραμμή κουμπιών (αλλαγή πεζών-κεφαλαίων, νέα γραμμή, εισαγωγικά, αγκύλες κ.λπ.)
  • διαθεσιμότητα προσωπικού λογαριασμού με ιστορικό αρχείων (η επιλογή είναι διαθέσιμη μετά την εγγραφή)
  • την παρουσία μιας προσθήκης για το Google Chrome για την εισαγωγή κειμένου μέσω φωνής στο πεδίο κειμένου των τοποθεσιών (που ονομάζεται "Εισαγωγή φωνητικού κειμένου - Speechpad.ru")

Υπαγόρευση.io

Η δεύτερη διαδικτυακή υπηρεσία μετάφρασης ομιλίας σε κείμενο. Μια ξένη υπηρεσία, η οποία, εν τω μεταξύ, λειτουργεί υπέροχα με τη ρωσική γλώσσα, κάτι που προκαλεί έκπληξη. Η ποιότητα της αναγνώρισης ομιλίας δεν είναι κατώτερη από το Speechpad, αλλά περισσότερο σε αυτό αργότερα.

Η κύρια λειτουργικότητα της υπηρεσίας:

  • υποστήριξη για 30 γλώσσες, μεταξύ των οποίων υπάρχουν ακόμη και ουγγρικά, τουρκικά, αραβικά, κινέζικα, μαλαισιανά κ.λπ.
  • αυτόματη αναγνώριση της προφοράς των σημείων στίξης, διαλείμματα γραμμής κ.λπ.
  • τη δυνατότητα ενσωμάτωσης με τις σελίδες οποιουδήποτε ιστότοπου
  • την παρουσία μιας προσθήκης για το Google Chrome (που ονομάζεται "VoiceRecognition")

Στην αναγνώριση ομιλίας, το πιο σημαντικό πράγμα είναι η ακρίβεια ποιότητα μετάφρασηςομιλία σε κείμενο. Ευχάριστα "ψωμάκια" και ευκαιρίες - τίποτα περισσότερο από ένα καλό συν. Τι μπορούν λοιπόν να καυχηθούν και οι δύο υπηρεσίες από αυτή την άποψη;

Συγκριτικός έλεγχος υπηρεσιών

Για τη δοκιμή, θα επιλέξουμε δύο δύσκολα αναγνωρίσιμα θραύσματα που περιέχουν λέξεις και φράσεις που χρησιμοποιούνται σπάνια στη σημερινή ομιλία. Ξεκινώντας διαβάζουμε ένα απόσπασμα από το ποίημα «Παιδιά αγροτών» του Ν. Νεκράσοφ.

Παρακάτω είναι αποτέλεσμα μετάφρασης ομιλίας σε κείμενοκάθε υπηρεσία (τα σφάλματα επισημαίνονται με κόκκινο):

Όπως μπορείτε να δείτε, και οι δύο υπηρεσίες αντιμετώπισαν την αναγνώριση ομιλίας με σχεδόν τα ίδια σφάλματα. Το αποτέλεσμα είναι αρκετά καλό!

Τώρα, για τη δοκιμή, ας πάρουμε ένα απόσπασμα από την επιστολή του στρατιώτη του Κόκκινου Στρατού Sukhov (ταινία "White Sun of the Desert"):

Εξαιρετικό αποτέλεσμα!

Όπως μπορείτε να δείτε, και οι δύο υπηρεσίες αντιμετωπίζουν επαρκώς την αναγνώριση ομιλίας - επιλέξτε οποιαδήποτε! Φαίνεται ότι χρησιμοποιούν ακόμη και τον ίδιο κινητήρα - είχαν πολύ παρόμοια σφάλματα σύμφωνα με τα αποτελέσματα των δοκιμών). Αλλά αν χρειάζεστε πρόσθετες δυνατότητες, όπως η μεταφόρτωση ενός αρχείου ήχου/βίντεο και η μετάφρασή του σε κείμενο (μεταγραφή) ή η ταυτόχρονη μετάφραση φωνηθέντος κειμένου σε άλλη γλώσσα, τότε το Speechpad θα είναι η καλύτερη επιλογή!


Παρεμπιπτόντως, ορίστε πώς εκτέλεσε μια ταυτόχρονη μετάφραση ενός τμήματος του ποιήματος του Nekrasov στα αγγλικά:

Λοιπόν, αυτό σύντομο βίντεοοδηγίες για την εργασία με το Speechpad, γραμμένες από τον συγγραφέα του έργου:

Φίλοι, σας άρεσε αυτή η υπηρεσία; Ξέρεις καλύτερα ανάλογα; Μοιραστείτε τις εντυπώσεις σας στα σχόλια.


Γνωρίζατε ότι η τεχνολογία αναγνώρισης φωνής υπάρχει εδώ και 50 χρόνια; Οι επιστήμονες λύνουν αυτό το πρόβλημα εδώ και μισό αιώνα και μόνο τις τελευταίες δεκαετίες εταιρείες πληροφορικής έχουν συμμετάσχει στην επίλυσή του. Το αποτέλεσμα του τελευταίου έτους εργασίας ήταν ένα νέο επίπεδο ακρίβειας αναγνώρισης και η μαζική χρήση της τεχνολογίας στην καθημερινή και επαγγελματική ζωή.

Η τεχνολογία στη ζωή

Χρησιμοποιούμε μηχανές αναζήτησης καθημερινά. Ψάχνουμε πού να γευματίσουμε, πώς να φτάσουμε στο σωστό μέρος ή προσπαθούμε να βρούμε την έννοια ενός άγνωστου όρου. Η τεχνολογία αναγνώρισης φωνής, η οποία χρησιμοποιείται, για παράδειγμα, από την Google ή το Yandex.Navigator, μας βοηθά να αφιερώνουμε ελάχιστο χρόνο στην αναζήτηση. Είναι απλό και βολικό.

Σε ένα επαγγελματικό περιβάλλον, η τεχνολογία βοηθά στην απλοποίηση της εργασίας αρκετές φορές. Για παράδειγμα, στην ιατρική, η ομιλία ενός γιατρού μετατρέπεται σε κείμενο ιατρικού ιστορικού και συνταγή αμέσως στο ραντεβού. Αυτό εξοικονομεί χρόνο κατά την εισαγωγή πληροφοριών ασθενούς στα έγγραφα. Το ενσωματωμένο σύστημα στον υπολογιστή οχήματος του αυτοκινήτου ανταποκρίνεται στα αιτήματα του οδηγού, για παράδειγμα, βοηθά στην εύρεση του πλησιέστερου βενζινάδικου. Για άτομα με ανάπηροςπραγματική υλοποίηση συστημάτων σε λογισμικό οικιακές συσκευέςνα τα ελέγχεις με τη φωνή σου.

Ανάπτυξη συστημάτων αναγνώρισης φωνής

Η ιδέα της αναγνώρισης ομιλίας φαινόταν πολλά υποσχόμενη ανά πάσα στιγμή. Αλλά ήδη στο στάδιο της αναγνώρισης αριθμών και των περισσότερων απλές λέξειςοι ερευνητές αντιμετωπίζουν ένα πρόβλημα. Η ουσία της αναγνώρισης περιορίστηκε στην κατασκευή ενός ακουστικού μοντέλου, όταν ο λόγος παρουσιάστηκε ως στατιστικό μοντέλο, το οποίο συγκρίθηκε με έτοιμα πρότυπα. Εάν το μοντέλο ταίριαζε με το πρότυπο, τότε το σύστημα αποφάσισε ότι η εντολή ή ο αριθμός αναγνωρίστηκε. Η ανάπτυξη των λεξικών που το σύστημα μπορούσε να αναγνωρίσει απαιτούσε αύξηση της ισχύος των υπολογιστικών συστημάτων.

σολΔιαγράμματα ανάπτυξης της απόδοσης του υπολογιστή και μείωση των σφαλμάτων αναγνώρισης στα αγγλικά συστήματα αναγνώρισης φωνής
Πηγές:
Herb Sutter. Το δωρεάν μεσημεριανό γεύμα τελείωσε: Μια θεμελιώδης στροφή προς την ταυτόχρονη χρήση του λογισμικού
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Σήμερα, οι αλγόριθμοι αναγνώρισης έχουν συμπληρωθεί με γλωσσικά μοντέλα που περιγράφουν τη δομή μιας γλώσσας, για παράδειγμα, μια τυπική ακολουθία λέξεων. Το σύστημα εκπαιδεύεται σε πραγματικό υλικό ομιλίας.

Ένα νέο στάδιο στην ανάπτυξη της τεχνολογίας ήταν η χρήση των νευρωνικών δικτύων. Το σύστημα αναγνώρισης είναι σχεδιασμένο με τέτοιο τρόπο ώστε κάθε νέα αναγνώριση να επηρεάζει την ακρίβεια της αναγνώρισης στο μέλλον. Το σύστημα γίνεται μαθησιακό.


Η ποιότητα των συστημάτων αναγνώρισης φωνής

Η κατάσταση στην ανάπτυξη της τεχνολογίας σήμερα εκφράζεται με τον στόχο: από την αναγνώριση ομιλίας στην κατανόηση. Για το σκοπό αυτό, επιλέχθηκε επίσης ένας βασικός δείκτης - το ποσοστό των σφαλμάτων στην αναγνώριση. Αξίζει να πούμε ότι ένας τέτοιος δείκτης χρησιμοποιείται επίσης για την αναγνώριση της ομιλίας ενός ατόμου από ένα άλλο. Παραλείπουμε ορισμένες από τις λέξεις, λαμβάνοντας υπόψη άλλους παράγοντες, όπως το πλαίσιο. Αυτό μας επιτρέπει να κατανοούμε την ομιλία ακόμη και χωρίς να κατανοούμε τις έννοιες μεμονωμένων λέξεων. Για έναν άνθρωπο, το ποσοστό σφάλματος αναγνώρισης είναι 5,1%.

Άλλες δυσκολίες στη διδασκαλία ενός συστήματος αναγνώρισης ομιλίας για την κατανόηση μιας γλώσσας θα είναι τα συναισθήματα, μια απροσδόκητη αλλαγή στο θέμα της συνομιλίας, η χρήση της αργκό και τα ατομικά χαρακτηριστικά του ομιλητή: ρυθμός ομιλίας, χροιά, προφορά ήχων.


παίκτες της παγκόσμιας αγοράς

Αρκετοί παγκόσμιοι παίκτες στην αγορά της πλατφόρμας αναγνώρισης φωνής είναι γνωστοί. Αυτές είναι οι Apple, Google, Microsoft, IBM. Αυτές οι εταιρείες διαθέτουν επαρκείς πόρους για έρευνα και εκτεταμένη βάση για την εκπαίδευση των δικών τους συστημάτων. Για παράδειγμα, η Google χρησιμοποιεί εκατομμύρια ερωτήματα αναζήτησης για εκμάθηση, τα οποία οι χρήστες είναι πρόθυμοι να ρωτήσουν οι ίδιοι. Αφενός, αυτό αυξάνει την ακρίβεια της αναγνώρισης και, αφετέρου, επιβάλλει περιορισμούς: το σύστημα αναγνωρίζει την ομιλία σε τμήματα των 15 δευτερολέπτων και υπολογίζει σε μια «ερώτηση ευρέος προφίλ». Σφάλμα αναγνώρισης συστήματος Google - 4,9%. Για την IBM, το ποσοστό αυτό είναι 5,5% και για τη Microsoft - 6,3% στο τέλος του 2016.

Την πλατφόρμα για χρήση σε επαγγελματικούς χώρους αναπτύσσει η αμερικανική εταιρεία Nuance. Μεταξύ των τομέων εφαρμογής: ιατρική, νομική, οικονομικά, δημοσιογραφία, κατασκευές, ασφάλεια, αυτοκινητοβιομηχανία.

Στη Ρωσία, το Κέντρο Τεχνολογιών Λόγου - μεγαλύτερος κατασκευαστής επαγγελματικά εργαλείααναγνώριση φωνής και σύνθεση ομιλίας. Οι λύσεις της εταιρείας υλοποιούνται σε 67 χώρες σε όλο τον κόσμο. Κύριοι τομείς εργασίας: βιομετρία φωνής - αναγνώριση μέσω φωνής. Συστήματα αυτοεξυπηρέτησης φωνής - IVR, που χρησιμοποιούνται σε τηλεφωνικά κέντρα. συνθέτες ομιλίας. Στις ΗΠΑ, η ρωσική εταιρεία δραστηριοποιείται με την επωνυμία SpeechPro και διεξάγει έρευνα για την αναγνώριση αγγλικής ομιλίας. Τα αποτελέσματα αναγνώρισης περιλαμβάνονται στα TOP-5 αποτελέσματα όσον αφορά το σφάλμα.


Η αξία της αναγνώρισης φωνής στο μάρκετινγκ

Στόχος του μάρκετινγκ είναι η μελέτη των αναγκών της αγοράς και η οργάνωση της επιχείρησης σύμφωνα με αυτές προκειμένου να αυξηθεί η κερδοφορία και η αποτελεσματικότητα. Το Voice ενδιαφέρει τους επαγγελματίες του μάρκετινγκ σε δύο περιπτώσεις: αν μιλάει ο πελάτης και αν μιλάει ο υπάλληλος. Επομένως, αντικείμενο μελέτης για τους marketers και το εύρος της τεχνολογίας είναι οι τηλεφωνικές κλήσεις.

Σήμερα, η ανάλυση των τηλεφωνικών συνομιλιών είναι ελάχιστα ανεπτυγμένη. Οι κλήσεις όχι μόνο πρέπει να ηχογραφούνται, αλλά και να ακούγονται, να αξιολογούνται και μόνο τότε να αναλύονται. Εάν δεν είναι δύσκολο να οργανώσετε μια εγγραφή - μπορεί να είναι οποιοδήποτε εικονικό PBX ή υπηρεσία παρακολούθησης κλήσεων - τότε είναι πιο δύσκολο να οργανώσετε την ακρόαση κλήσεων. Αυτή η εργασία επιλύεται είτε από άτομο στην εταιρεία, είτε από τον επικεφαλής του τηλεφωνικού κέντρου. Η ακρόαση κλήσεων ανατίθεται επίσης σε εξωτερικούς συνεργάτες. Σε κάθε περίπτωση, το σφάλμα στην εκτίμηση της κλήσης είναι ένα πρόβλημα που θέτει υπό αμφισβήτηση τα αποτελέσματα των αναλυτικών στοιχείων και τις αποφάσεις που λαμβάνονται στη βάση τους.

Λεζάντα τηλεφώνου για κωφούς και βαρήκοους

Μετατρέψτε την οθόνη σας σε μια εκπληκτική κεφαλίδα τηλεφώνου. Είναι πλήρως αυτόματο, χωρίς ανθρώπινη δακτυλογράφος να πληκτρολογεί τις συνομιλίες σας. Βρίσκετε τους παππούδες και τις γιαγιάδες που δύσκολα ακούνε την οικογένεια και τους φίλους στο τηλέφωνο; Ενεργοποιήστε το Speechlogger για αυτούς και σταματήστε να ουρλιάζετε στο τηλέφωνο. Απλώς συνδέστε την έξοδο ήχου του τηλεφώνου σας στην είσοδο ήχου του υπολογιστή σας και εκτελέστε το Speechlogger. Είναι επίσης χρήσιμο σε αλληλεπιδράσεις πρόσωπο με πρόσωπο.

Αυτόματη μεταγραφή

Ηχογραφήσατε τη συνέντευξη; Εξοικονομήστε λίγο χρόνο γράφοντάς το ξανά, από την αυτόματη ομιλία της Google, στο κείμενο που μεταφέρεται στο πρόγραμμα περιήγησής σας από το Speechlogger. Παίξτε την ηχογραφημένη συνέντευξη στο μικρόφωνο (ή γραμμή) του υπολογιστή σας και αφήστε το speaklogger να κάνει τη μεταγραφή. Το Speechlogger αποθηκεύει τη μεταγραφή του κειμένου μαζί με την ημερομηνία, την ώρα και τα σχόλιά σας. Σας επιτρέπει επίσης να επεξεργαστείτε κείμενο. τηλεφωνικές συνομιλίεςμπορεί να αποκρυπτογραφηθεί χρησιμοποιώντας την ίδια μέθοδο. Μπορείτε επίσης να εγγράψετε αρχεία ήχου απευθείας από τον υπολογιστή σας, όπως περιγράφεται παρακάτω.

Αυτόματος διερμηνέας και μεταφραστής

Συνάντηση με ξένους καλεσμένους; Φέρτε ένα φορητό υπολογιστή (ή δύο) με καταγραφικό και μικρόφωνο. Κάθε πλευρά θα δει τα λόγια του άλλου να μεταφράζονται στα δικά τους μητρική γλώσσασε πραγματικό χρόνο. Είναι επίσης χρήσιμο να κάνετε ένα τηλεφώνημα σε μια ξένη γλώσσα για να βεβαιωθείτε ότι κατανοείτε πλήρως την άλλη πλευρά. Συνδέστε την έξοδο ήχου του τηλεφώνου σας στη γραμμή εισόδου του υπολογιστή σας και ξεκινήστε το Speechlogger.

Μάθετε ξένες γλώσσες και βελτιώστε τις προφορικές σας δεξιότητες

Το Speechlogger είναι ένα εξαιρετικό εργαλείο εκμάθησης γλωσσών και μπορεί να χρησιμοποιηθεί με διάφορους τρόπους. Μπορείτε να το χρησιμοποιήσετε για να μάθετε λεξιλόγιο μιλώντας τη μητρική σας γλώσσα και αφήνοντας το λογισμικό να το μεταφράσει. Μπορείτε να μάθετε και να εξασκηθείτε στη σωστή προφορά μιλώντας μια ξένη γλώσσα και βλέποντας εάν το Speechlogger καταλαβαίνει ή όχι. Εάν το κείμενο μεταγράφεται με μαύρη γραμματοσειρά σημαίνει ότι το έχετε προφέρει καλά.

Γενιά υποτίτλων ταινίας

Το Speechlogger μπορεί να εγγράψει αυτόματα ταινίες ή άλλα αρχεία ήχου. Στη συνέχεια, πάρτε το αρχείο και μεταφράστε το αυτόματα σε οποιαδήποτε γλώσσα για να δημιουργήσετε διεθνείς υπότιτλους.

Υπαγόρευση αντί για πληκτρολόγηση

Γράφοντας ένα γράμμα? Τα έγγραφα? Τόπος αγώνων? Περίληψη? Οτιδήποτε θέλετε να πληκτρολογήσετε, δοκιμάστε να το υπαγορεύσετε στο Speechlogger. Το Speechlogger θα το αποθηκεύσει αυτόματα για εσάς και θα σας επιτρέψει να το εξαγάγετε σε ένα έγγραφο.

Αστείο παιχνίδι :)

Μπορείτε να μιμηθείτε τον κινέζικο ομιλητή; Γαλλική γλώσσα? Τι γίνεται με τα ρωσικά; Προσπαθήστε να μιμηθείτε ξένη γλώσσακαι δείτε τι μόλις είπατε με το Speechlogger. Χρησιμοποιήστε την ταυτόχρονη μετάφραση του Speechlogger για να κατανοήσετε αυτό που μόλις είπατε. Λάβετε εκπληκτικά αποτελέσματα - είναι πολύ διασκεδαστικό!

Ακολουθούν τέσσερις τρόποι για να μετατρέψετε την ομιλία σε κείμενο χρησιμοποιώντας δωρεάν προγράμματα και εφαρμογές.

Μετατροπή ομιλίας σε κείμενο απευθείας στο Word

Με το Microsoft Dictate, μπορείτε να υπαγορεύσετε, ακόμη και να μεταφράσετε κείμενο απευθείας στο Word.

  • Κατεβάστε και εγκαταστήστε το δωρεάν πρόγραμμα Microsoft Dictate.
  • Στη συνέχεια, ανοίξτε το - η καρτέλα Υπαγόρευση θα εμφανιστεί σε αυτήν. Κάνοντας κλικ πάνω του, θα δείτε ένα εικονίδιο μικροφώνου με την εντολή Έναρξη.
  • Κοντά είναι η επιλογή της γλώσσας. Επιλέξτε Ρωσική γλώσσα και ξεκινήστε την εγγραφή. Προσπαθήστε να προφέρετε τις λέξεις όσο πιο καθαρά γίνεται και θα εμφανιστούν ακριβώς στο έγγραφο.

Μετατροπή της ομιλίας σε κείμενο με το Speak a Message

Δωρεάν πρόγραμμαΤο Speak A Message καταγράφει εκφωνούμενο κείμενο και στη συνέχεια το μεταγράφει. Οι κύριες γλώσσες του προγράμματος είναι τα αγγλικά, τα γερμανικά, τα ισπανικά και τα γαλλικά, αλλά υπάρχει και μια πολύγλωσση έκδοση.

  • Εγκαταστήστε το πρόγραμμα και κάντε κλικ στο κουμπί "Εγγραφή". Εκφωνήστε ολόκληρο το κείμενο και, στη συνέχεια, κάντε κλικ στο Διακοπή.
  • Κάτω από το κουμπί εγγραφής, δίπλα στα εγγεγραμμένα αρχεία, θα βρείτε τη λειτουργία "Μεταγραφή" - "Ομιλία σε κείμενο".
  • Αντιγράψτε το έτοιμο κείμενο και επικολλήστε το στο επιθυμητό πρόγραμμα επεξεργασίας κειμένου. Αλλά μην ξεχάσετε να ελέγξετε τι έγραψε το πρόγραμμα - μερικές φορές κάνει λάθη.

Μετατροπή ομιλίας σε κείμενο χωρίς ειδικό λογισμικό

ΣΤΟ λειτουργικό σύστημα Windows 8 και 10 δεν χρειάζεστε επιπλέον λογισμικό φωνής σε κείμενο.

  • Πατήστε το πλήκτρο Windows και πληκτρολογήστε "Αναγνώριση ομιλίας". Στη συνέχεια, ανοίξτε το αποτέλεσμα που ταιριάζει με το ερώτημα και ακολουθήστε τις οδηγίες του προγράμματος.
  • Μόλις ολοκληρωθεί η εγκατάσταση, εκκινήστε τις εφαρμογές και υπαγορεύστε απευθείας σε ένα έγγραφο του Word. Για να το κάνετε αυτό, απλώς πατήστε το κουμπί του μικροφώνου και αρχίστε να μιλάτε.

Μετατροπή ομιλίας σε κείμενο μέσω της εφαρμογής

Εάν θέλετε να υπαγορεύετε κείμενα και να τα λαμβάνετε σε έντυπη μορφή εν κινήσει, χρησιμοποιήστε ειδικές εφαρμογές.

  • Το Android και το iOS έχουν ήδη ενσωματώσει την αναγνώριση ομιλίας στα συστήματά τους. Όταν ανοίξετε την εφαρμογή λήψης σημειώσεων και αρχίσετε να πληκτρολογείτε, χρησιμοποιήστε το εικονίδιο του μικροφώνου για να ξεκινήσετε τη φωνητική αναγνώριση.
  • Υπάρχουν και άλλες εφαρμογές για παρόμοιο σκοπό, όπως το Dragon Dictation που διατίθενται για Android και iOS.