सहायक कार्यक्रम के लिए भाषण की आवाज पहचान। Linux में आधुनिक वाक् पहचान प्रणाली को समझना

हमारी आधुनिक, घटनापूर्ण दुनिया में, सूचना के साथ काम करने की गति सफलता की आधारशिलाओं में से एक है। हम कितनी जल्दी जानकारी प्राप्त करते हैं, बनाते हैं, प्रक्रिया करते हैं, यह हमारी कार्यशील उत्पादकता और उत्पादकता पर निर्भर करता है, और इसलिए हमारी तत्काल भौतिक संपदा। उन उपकरणों में जो हमारी कार्य क्षमताओं को बढ़ा सकते हैं, भाषण को पाठ में अनुवाद करने के कार्यक्रमों द्वारा एक महत्वपूर्ण स्थान पर कब्जा कर लिया गया है, जो हमें आवश्यक ग्रंथों को टाइप करने की गति में काफी वृद्धि कर सकता है। इस लेख में मैं आपको बताऊंगा कि ऑडियो वॉयस को टेक्स्ट में अनुवाद करने के लिए लोकप्रिय कार्यक्रम क्या हैं, और उनकी विशेषताएं क्या हैं।

ऑडियो वॉयस टू टेक्स्ट ट्रांसलेटर एप्लीकेशन - सिस्टम आवश्यकताएँ

आवाज को पाठ में अनुवाद करने के लिए वर्तमान में मौजूद अधिकांश कार्यक्रम एक भुगतान प्रकृति के हैं, जो एक माइक्रोफोन के लिए कई आवश्यकताओं को प्रस्तुत करते हैं (उस मामले में जब प्रोग्राम कंप्यूटर के लिए अभिप्रेत है)। वेबकैम में निर्मित माइक्रोफ़ोन के साथ काम करने की दृढ़ता से अनुशंसा नहीं की जाती है, साथ ही एक मानक लैपटॉप केस में रखा जाता है (ऐसे उपकरणों से वाक् पहचान की गुणवत्ता काफी निम्न स्तर पर होती है)। इसके अलावा, अनावश्यक शोर के बिना एक शांत वातावरण होना काफी महत्वपूर्ण है जो सीधे आपके भाषण की मान्यता के स्तर को प्रभावित कर सकता है।

साथ ही, इनमें से अधिकांश प्रोग्राम न केवल कंप्यूटर स्क्रीन पर भाषण को टेक्स्ट में बदलने में सक्षम हैं, बल्कि आपके कंप्यूटर को नियंत्रित करने के लिए वॉयस कमांड का उपयोग करने में भी सक्षम हैं (प्रोग्राम लॉन्च करना और उन्हें बंद करना, ई-मेल प्राप्त करना और भेजना, वेबसाइट खोलना और बंद करना) , और इसी तरह)।

पाठ कार्यक्रम के लिए भाषण

आइए उन कार्यक्रमों के प्रत्यक्ष विवरण पर चलते हैं जो भाषण को पाठ में अनुवाद करने में मदद कर सकते हैं।

कार्यक्रम "लाइटिस"

आवाज पहचान के लिए मुफ्त रूसी भाषा का कार्यक्रम "लाइटिस" है अच्छी गुणवत्ताभाषण की समझ, और, इसके रचनाकारों के अनुसार, उपयोगकर्ता के परिचित कीबोर्ड को लगभग पूरी तरह से बदलने में सक्षम है। प्रोग्राम वॉयस कमांड के साथ भी अच्छी तरह से काम करता है, जिससे आप उनकी मदद से अपने कंप्यूटर को प्रबंधित करने के लिए कई कार्य कर सकते हैं।

इसके संचालन के लिए, कार्यक्रम को पीसी पर हाई-स्पीड इंटरनेट की अनिवार्य उपलब्धता की आवश्यकता होती है (कार्यक्रम Google और यांडेक्स से आवाज पहचान नेटवर्क सेवाओं का उपयोग करता है)। कार्यक्रम की क्षमताएं आपको वॉयस कमांड का उपयोग करके अपने ब्राउज़र को नियंत्रित करने की अनुमति देती हैं, जिसके लिए आपको अपने वेब नेविगेटर पर Laitis (क्रोम, मोज़िला, ओपेरा) से एक विशेष एक्सटेंशन स्थापित करने की आवश्यकता होती है।

"ड्रैगन प्रोफेशनल" - ऑडियो रिकॉर्डिंग का टेक्स्ट में ट्रांसक्रिप्शन

इस लेखन के समय, एक डिजिटल अंग्रेजी-भाषा उत्पाद « ड्रैगन प्रोफेशनल इंडिविजुअल "मान्यता प्राप्त ग्रंथों की गुणवत्ता में विश्व के नेताओं में से एक है। कार्यक्रम सात भाषाओं को समझता है (अब तक केवल ड्रैगन कहीं भी मोबाइल एप्लिकेशन रूसी के साथ काम करता है और), उच्च गुणवत्ता वाली आवाज पहचान है, और कई आवाज आदेशों का प्रदर्शन कर सकता है। साथ ही, इस उत्पाद में एक विशेष रूप से भुगतान किया गया चरित्र है (मुख्य कार्यक्रम की कीमत 300 यूएस डॉलर है, और ड्रैगन होम उत्पाद के "होम" संस्करण के लिए, खरीदार को 75 यूएस डॉलर का भुगतान करना होगा)।

इसके संचालन के लिए, Nuance Communications के इस उत्पाद को अपने स्वयं के प्रोफ़ाइल के निर्माण की आवश्यकता होती है, जिसे कार्यक्रम की क्षमताओं को आपकी आवाज़ की बारीकियों के अनुकूल बनाने के लिए डिज़ाइन किया गया है। टेक्स्ट को सीधे डिक्टेट करने के अलावा, आप प्रोग्राम को कई कमांड निष्पादित करने के लिए प्रशिक्षित कर सकते हैं, जिससे कंप्यूटर के साथ आपकी बातचीत और भी अनुकूल और सुविधाजनक हो जाती है।

"रियलस्पीकर" - अति-सटीक भाषण पहचानकर्ता

आवाज को पाठ में बदलने का कार्यक्रम " RealSpeaker ", इस तरह के कार्यक्रमों के लिए मानक कार्यों के अलावा, आपको अपने पीसी के वेबकैम की क्षमताओं का उपयोग करने की अनुमति देता है। अब कार्यक्रम न केवल ध्वनि के ऑडियो घटक को पढ़ता है, बल्कि स्पीकर के होठों के कोनों की गति को भी पकड़ लेता है, जिससे उसके द्वारा उच्चारण किए गए शब्दों को और अधिक सही ढंग से पहचाना जा सके।


"रियलस्पीकर" न केवल ऑडियो पढ़ता है, बल्कि भाषण प्रक्रिया का दृश्य घटक भी पढ़ता है

एप्लिकेशन दस से अधिक भाषाओं (रूसी सहित) का समर्थन करता है, आपको भाषण को पहचानने की अनुमति देता है, उच्चारण और बोलियों को ध्यान में रखते हुए, आपको ऑडियो और वीडियो को स्थानांतरित करने की अनुमति देता है, आपको क्लाउड तक पहुंच प्रदान करता है, और बहुत कुछ। कार्यक्रम शेयरवेयर है, भुगतान किए गए संस्करण के लिए आपको काफी वास्तविक पैसा देना होगा।

"वोको" - प्रोग्राम जल्दी से आवाज को टेक्स्ट डॉक्यूमेंट में ट्रांसलेट करेगा

एक अन्य वॉयस-टू-टेक्स्ट कनवर्टर सशुल्क वोको डिजिटल उत्पाद है, जिसके "होम" संस्करण की कीमत अब लगभग 1,700 रूबल है। इस कार्यक्रम के अधिक उन्नत और महंगे संस्करण - "Voco.Professional" और "Voco.Enterprise" में कई अतिरिक्त विशेषताएं हैं, जिनमें से एक उपयोगकर्ता के लिए उपलब्ध ऑडियो रिकॉर्डिंग से वाक् पहचान है।

"वोको" की विशेषताओं के बीच मैं कार्यक्रम की शब्दावली को पूरक करने की संभावना पर ध्यान देता हूं (अब शब्दकोशकार्यक्रम में 85 हजार से अधिक शब्द शामिल हैं), साथ ही साथ नेटवर्क से इसका ऑफ़लाइन संचालन, जिससे आप अपने इंटरनेट कनेक्शन पर निर्भर नहीं रह सकते।


"वोको" के फायदों में कार्यक्रम की उच्च सीखने की क्षमता है

एप्लिकेशन को काफी सरलता से चालू किया गया है - बस "Ctrl" कुंजी पर डबल-क्लिक करें। Gboard में ध्वनि इनपुट सक्रिय करने के लिए, बस स्पेसबार को दबाकर रखें

आवेदन बिल्कुल मुफ्त है, रूसी सहित कई दर्जन भाषाओं का समर्थन करता है।

निष्कर्ष

ऊपर, मैंने आपके ऑडियो वॉयस रिकॉर्डिंग को टेक्स्ट में अनुवाद करने के लिए प्रोग्राम सूचीबद्ध किए हैं, उनकी सामान्य कार्यक्षमता का वर्णन किया है और विशेषताएँ. इनमें से अधिकांश उत्पादों में आमतौर पर एक भुगतान प्रकृति होती है, जबकि रूसी भाषा के कार्यक्रमों की श्रेणी और गुणवत्ता उनके अंग्रेजी भाषा के समकक्षों से गुणात्मक रूप से हीन होती है। ऐसे अनुप्रयोगों के साथ काम करते समय, मैं आपके माइक्रोफ़ोन और इसकी सेटिंग्स पर विशेष ध्यान देने की सलाह देता हूं - यह वाक् पहचान की प्रक्रिया में महत्वपूर्ण है, क्योंकि एक खराब माइक्रोफ़ोन मेरे द्वारा विचार किए गए प्रकार के उच्चतम गुणवत्ता वाले सॉफ़्टवेयर को भी नकार सकता है।

के लिए भाषण को पहचानेंऔर इसका अनुवाद करें ऑडियो या वीडियो से टेक्स्ट तक, ब्राउज़र के लिए प्रोग्राम और एक्सटेंशन (प्लगइन्स) हैं। हालाँकि, यह सब क्यों, अगर ऑनलाइन सेवाएँ हैं? प्रोग्राम कंप्यूटर पर स्थापित होने चाहिए, इसके अलावा, अधिकांश वाक् पहचान कार्यक्रम मुफ्त से दूर हैं।


ब्राउज़र में स्थापित बड़ी संख्या में प्लग-इन इसके काम और इंटरनेट पर सर्फिंग की गति को बहुत धीमा कर देते हैं। और जिन सेवाओं पर आज चर्चा की जाएगी वे पूरी तरह से निःशुल्क हैं और स्थापना की आवश्यकता नहीं है - आप अंदर गए, इसका इस्तेमाल किया और चले गए!

इस लेख में, हम देखेंगे दो ऑनलाइन वाक्-से-पाठ अनुवाद सेवाएं. वे दोनों एक समान सिद्धांत पर काम करते हैं: आप रिकॉर्डिंग शुरू करते हैं (सेवा का उपयोग करते समय ब्राउज़र को माइक्रोफ़ोन तक पहुंचने की अनुमति दें), माइक्रोफ़ोन में बोलें (डिक्टेट करें), और आउटपुट पर आपको टेक्स्ट मिलता है जिसे आपके किसी भी दस्तावेज़ में कॉपी किया जा सकता है। संगणक।

स्पीचपैड.रू

रूसी भाषा की ऑनलाइन वाक् पहचान सेवा। यह है विस्तृत निर्देशरूसी में काम के लिए।

  • 7 भाषाओं के लिए समर्थन (रूसी, यूक्रेनी, अंग्रेजी, जर्मन, फ्रेंच, स्पेनिश, इतालवी)
  • किसी ऑडियो या वीडियो फ़ाइल को ट्रांसक्राइब करने के लिए डाउनलोड करें (YouTube वीडियो समर्थित हैं)
  • दूसरी भाषा में एक साथ अनुवाद
  • विराम चिह्न और लाइन फीड के आवाज इनपुट के लिए समर्थन
  • बटन बार (केस चेंज, न्यूलाइन, कोट्स, ब्रैकेट्स, आदि)
  • रिकॉर्ड के इतिहास के साथ एक व्यक्तिगत खाते की उपलब्धता (पंजीकरण के बाद उपलब्ध विकल्प)
  • साइटों के पाठ क्षेत्र में आवाज द्वारा पाठ दर्ज करने के लिए Google क्रोम के लिए प्लग-इन की उपस्थिति (जिसे "वॉयस टेक्स्ट इनपुट - स्पीचपैड.आरयू" कहा जाता है)

डिक्टेशन.io

दूसरी ऑनलाइन वाक्-से-पाठ अनुवाद सेवा। एक विदेशी सेवा, जो इस बीच, रूसी भाषा के साथ बढ़िया काम करती है, जो बेहद आश्चर्यजनक है। वाक् पहचान की गुणवत्ता स्पीचपैड से नीच नहीं है, लेकिन बाद में उस पर और अधिक।

सेवा की मुख्य कार्यक्षमता:

  • 30 भाषाओं के लिए समर्थन, जिनमें हंगेरियन, तुर्की, अरबी, चीनी, मलय आदि भी हैं।
  • विराम चिह्नों, लाइन ब्रेक आदि के उच्चारण की स्वतः पहचान।
  • किसी भी साइट के पृष्ठों के साथ एकीकृत करने की क्षमता
  • Google क्रोम के लिए एक प्लगइन की उपस्थिति (जिसे "वॉयस रिकॉग्निशन" कहा जाता है)

वाक् पहचान में, सबसे महत्वपूर्ण बात ठीक है अनुवाद गुणवत्तापाठ के लिए भाषण। सुखद "बन्स" और अवसर - एक अच्छे प्लस से ज्यादा कुछ नहीं। तो इस संबंध में दोनों सेवाएं क्या दावा कर सकती हैं?

सेवाओं का तुलनात्मक परीक्षण

परीक्षण के लिए, हम दो मुश्किल-से-पहचानने वाले अंशों का चयन करेंगे जिनमें ऐसे शब्द और वाक्यांश शामिल हैं जो आज के भाषण में शायद ही कभी उपयोग किए जाते हैं। शुरू करने के लिए, हम एन नेक्रासोव की कविता "किसान बच्चे" का एक अंश पढ़ते हैं।

नीचे है भाषण से पाठ अनुवाद परिणामप्रत्येक सेवा (त्रुटियों को लाल रंग में चिह्नित किया गया है):

जैसा कि आप देख सकते हैं, दोनों सेवाओं ने लगभग समान त्रुटियों के साथ वाक् पहचान का मुकाबला किया। परिणाम काफी अच्छा है!

अब, परीक्षण के लिए, आइए लाल सेना के सैनिक सुखोव (फिल्म "व्हाइट सन ऑफ द डेजर्ट") के पत्र का एक अंश लें:

उत्कृष्ट परिणाम!

जैसा कि आप देख सकते हैं, दोनों सेवाएं वाक् पहचान के साथ पर्याप्त रूप से सामना करती हैं - कोई भी चुनें! ऐसा लगता है कि वे भी एक ही इंजन का उपयोग करते हैं - परीक्षण के परिणामों के अनुसार उनके पास भी समान त्रुटियां थीं)। लेकिन अगर आपको ऑडियो / वीडियो फ़ाइल अपलोड करने और इसे टेक्स्ट (ट्रांसक्रिप्शन) में अनुवाद करने या किसी अन्य भाषा में वॉयस टेक्स्ट का एक साथ अनुवाद करने जैसी अतिरिक्त सुविधाओं की आवश्यकता है, तो स्पीचपैड सबसे अच्छा विकल्प होगा!


वैसे, उन्होंने नेक्रासोव की कविता के एक अंश का अंग्रेजी में एक साथ अनुवाद कैसे किया:

अच्छा तो यह लघु वीडियोपरियोजना के लेखक द्वारा लिखित स्पीचपैड के साथ काम करने के निर्देश:

दोस्तों क्या आपको यह सेवा पसंद आई? क्या आप बेहतर एनालॉग्स जानते हैं? टिप्पणियों में अपने इंप्रेशन साझा करें।


क्या आप जानते हैं कि वॉयस रिकग्निशन तकनीक लगभग 50 वर्षों से है? वैज्ञानिक इस समस्या को आधी सदी से हल कर रहे हैं, और पिछले कुछ दशकों में ही आईटी कंपनियां इसे सुलझाने में शामिल हुई हैं। काम के अंतिम वर्ष का परिणाम मान्यता सटीकता का एक नया स्तर और रोजमर्रा और पेशेवर जीवन में प्रौद्योगिकी का व्यापक उपयोग रहा है।

जीवन में प्रौद्योगिकी

हम हर दिन सर्च इंजन का इस्तेमाल करते हैं। हम इस बात की तलाश कर रहे हैं कि दोपहर का भोजन कहाँ किया जाए, सही जगह पर कैसे पहुँचा जाए, या किसी अज्ञात शब्द का अर्थ खोजने की कोशिश की जाए। ध्वनि पहचान तकनीक, जिसका उपयोग, उदाहरण के लिए, Google या Yandex.Navigator द्वारा किया जाता है, हमें खोज में कम से कम समय बिताने में मदद करती है। यह सरल और सुविधाजनक है।

पेशेवर माहौल में, तकनीक कई बार काम को आसान बनाने में मदद करती है। उदाहरण के लिए, चिकित्सा में, डॉक्टर के भाषण को चिकित्सा इतिहास के पाठ और नियुक्ति के तुरंत बाद एक नुस्खे में बदल दिया जाता है। इससे दस्तावेजों में रोगी की जानकारी दर्ज करने में समय की बचत होती है। कार के ऑन-बोर्ड कंप्यूटर में निर्मित सिस्टम ड्राइवर के अनुरोधों का जवाब देता है, उदाहरण के लिए, निकटतम गैस स्टेशन को खोजने में मदद करता है। वाले लोगों के लिए विकलांगसॉफ्टवेयर में सिस्टम का वास्तविक कार्यान्वयन घरेलू उपकरणउन्हें अपनी आवाज से नियंत्रित करने के लिए।

आवाज पहचान प्रणाली का विकास

वाक् पहचान का विचार हर समय आशाजनक लगा है। लेकिन पहले से ही संख्याओं और सबसे अधिक को पहचानने के स्तर पर सरल शब्दशोधार्थियों को समस्या का सामना करना पड़ रहा है। मान्यता का सार एक ध्वनिक मॉडल के निर्माण के लिए कम हो गया था, जब भाषण को एक सांख्यिकीय मॉडल के रूप में प्रस्तुत किया गया था, जिसकी तुलना तैयार किए गए टेम्पलेट्स से की गई थी। यदि मॉडल टेम्पलेट से मेल खाता है, तो सिस्टम ने फैसला किया कि कमांड या नंबर को मान्यता दी गई थी। शब्दकोशों का विकास जिसे सिस्टम पहचान सकता है, कंप्यूटिंग सिस्टम की शक्ति में वृद्धि की आवश्यकता है।

जीकंप्यूटर के प्रदर्शन में वृद्धि और अंग्रेजी आवाज पहचान प्रणाली में पहचान त्रुटि में कमी
स्रोत:
जड़ी बूटी सटर। नि: शुल्क दोपहर का भोजन खत्म हो गया है: सॉफ्टवेयर में समेकन की ओर एक मौलिक मोड़
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



आज, मान्यता एल्गोरिदम को भाषा मॉडल द्वारा पूरक किया गया है जो किसी भाषा की संरचना का वर्णन करते हैं, उदाहरण के लिए, शब्दों का एक विशिष्ट अनुक्रम। प्रणाली को वास्तविक भाषण सामग्री पर प्रशिक्षित किया जाता है।

प्रौद्योगिकी के विकास में एक नया चरण तंत्रिका नेटवर्क का उपयोग था। मान्यता प्रणाली को इस तरह से डिज़ाइन किया गया है कि प्रत्येक नई मान्यता भविष्य में मान्यता सटीकता को प्रभावित करती है। प्रणाली सीखने योग्य हो जाती है।


आवाज पहचान प्रणाली की गुणवत्ता

प्रौद्योगिकी के विकास में मामलों की स्थिति आज लक्ष्य द्वारा व्यक्त की जाती है: भाषण मान्यता से समझ तक। इस उद्देश्य के लिए, एक प्रमुख संकेतक भी चुना गया था - मान्यता में त्रुटियों का प्रतिशत। गौरतलब है कि इस तरह के एक संकेतक का उपयोग एक व्यक्ति के दूसरे व्यक्ति के भाषण को पहचानने में भी किया जाता है। हम संदर्भ जैसे अन्य कारकों को ध्यान में रखते हुए कुछ शब्दों को छोड़ देते हैं। यह हमें व्यक्तिगत शब्दों के अर्थों को समझे बिना भी भाषण को समझने की अनुमति देता है। मानव के लिए, मान्यता त्रुटि दर 5.1% है।

किसी भाषा को समझने के लिए वाक् पहचान प्रणाली को सिखाने में अन्य कठिनाइयाँ भावनाएँ होंगी, बातचीत के विषय में अप्रत्याशित परिवर्तन, कठबोली का उपयोग और वक्ता की व्यक्तिगत विशेषताएं: भाषण दर, समय, ध्वनियों का उच्चारण।


विश्व बाजार के खिलाड़ी

वॉयस रिकग्निशन प्लेटफॉर्म मार्केट में कई वैश्विक खिलाड़ी जाने-माने हैं। ये हैं ऐप्पल, गूगल, माइक्रोसॉफ्ट, आईबीएम। इन कंपनियों के पास अनुसंधान के लिए पर्याप्त संसाधन हैं और अपने स्वयं के सिस्टम के प्रशिक्षण के लिए एक व्यापक आधार है। उदाहरण के लिए, Google सीखने के लिए लाखों खोज क्वेरी का उपयोग करता है, जिसे उपयोगकर्ता खुद से पूछकर खुश होते हैं। एक ओर, यह मान्यता की सटीकता को बढ़ाता है, और दूसरी ओर, यह सीमाएं लगाता है: सिस्टम 15 सेकंड के खंडों में भाषण को पहचानता है और "व्यापक-प्रोफ़ाइल प्रश्न" पर गिना जाता है। गूगल सिस्टम पहचान त्रुटि - 4.9%। आईबीएम के लिए, यह आंकड़ा 5.5% है, और माइक्रोसॉफ्ट के लिए - 2016 के अंत में 6.3%।

पेशेवर क्षेत्रों में उपयोग के लिए मंच अमेरिकी कंपनी Nuance द्वारा विकसित किया जा रहा है। आवेदन के क्षेत्रों में: चिकित्सा, कानून, वित्त, पत्रकारिता, निर्माण, सुरक्षा, मोटर वाहन उद्योग।

रूस में, सेंटर फॉर स्पीच टेक्नोलॉजीज - सबसे बड़ा निर्माता पेशेवर उपकरणआवाज पहचान और भाषण संश्लेषण। कंपनी के समाधान दुनिया भर के 67 देशों में लागू किए गए हैं। काम के मुख्य क्षेत्र: आवाज बायोमेट्रिक्स - आवाज से पहचान; वॉयस सेल्फ-सर्विस सिस्टम - आईवीआर, कॉल सेंटर में इस्तेमाल किया जाता है; भाषण सिंथेसाइज़र। अमेरिका में, रूसी कंपनी स्पीचप्रो ब्रांड के तहत काम करती है और अंग्रेजी भाषण मान्यता पर शोध करती है। त्रुटि के संदर्भ में मान्यता परिणाम TOP-5 परिणामों में शामिल हैं।


विपणन में आवाज पहचान का मूल्य

मार्केटिंग का लक्ष्य बाजार की जरूरतों का अध्ययन करना और उनके अनुसार व्यवसाय को व्यवस्थित करना है ताकि लाभप्रदता और दक्षता में वृद्धि हो सके। विपणक के लिए आवाज दो मामलों में रुचिकर है: यदि ग्राहक बोलता है और यदि कर्मचारी बोलता है। इसलिए, विपणक के लिए अध्ययन का उद्देश्य और प्रौद्योगिकी का दायरा टेलीफोन कॉल है।

आज, टेलीफोन वार्तालापों का विश्लेषण खराब रूप से विकसित है। कॉल को न केवल रिकॉर्ड करने की जरूरत है, बल्कि सुनने, मूल्यांकन करने और उसके बाद ही विश्लेषण करने की भी जरूरत है। यदि रिकॉर्डिंग को व्यवस्थित करना मुश्किल नहीं है - यह कोई वर्चुअल पीबीएक्स या कॉल ट्रैकिंग सेवा हो सकती है - तो कॉल सुनने को व्यवस्थित करना अधिक कठिन होता है। यह कार्य या तो कंपनी में एक व्यक्ति द्वारा, या कॉल सेंटर के प्रमुख द्वारा हल किया जाता है। कॉल्स सुनना भी आउटसोर्स किया जाता है। किसी भी मामले में, कॉल अनुमान में त्रुटि एक समस्या है जो विश्लेषिकी के परिणामों और उनके आधार पर किए गए निर्णयों पर सवाल उठाती है।

बधिरों और सुनने में कठिन के लिए फोन कैप्शनर

अपनी स्क्रीन को एक शानदार फ़ोन हेडर में बदलें। यह पूरी तरह से स्वचालित है, कोई भी मानव श्रवण-टाइपिस्ट आपकी बातचीत को टाइप नहीं कर रहा है। दादा-दादी को फोन पर परिवार और दोस्तों को सुनने में कठिनाई होती है? उनके लिए स्पीचलॉगर चालू करें और फोन पर चीखना बंद करें। बस अपने फोन के ऑडियो आउटपुट को अपने कंप्यूटर के ऑडियो इनपुट से कनेक्ट करें और स्पीचलॉगर चलाएं। यह आमने-सामने बातचीत में भी उपयोगी है।

स्वचालित प्रतिलेखन

क्या आपने साक्षात्कार रिकॉर्ड किया? स्पीचलॉगर द्वारा आपके ब्राउज़र में लाए गए टेक्स्ट में, Google के स्वचालित भाषण के साथ इसे फिर से लिखकर कुछ समय बचाएं। रिकॉर्ड किए गए इंटरव्यू को अपने कंप्यूटर के माइक्रोफ़ोन (या लाइन) में चलाएं और स्पीचलॉगर को ट्रांसक्रिप्शन करने दें। स्पीचलॉगर टेक्स्ट के ट्रांसक्रिप्शन को दिनांक, समय और आपकी टिप्पणियों के साथ सहेजता है। यह आपको टेक्स्ट संपादित करने की भी अनुमति देता है। टेलीफोन पर बातचीतउसी विधि का उपयोग करके डिक्रिप्ट किया जा सकता है। जैसा कि नीचे बताया गया है, आप सीधे अपने कंप्यूटर से ऑडियो फ़ाइलें भी रिकॉर्ड कर सकते हैं।

स्वचालित दुभाषिया और अनुवादक

विदेशी मेहमानों के साथ बैठक? एक स्पीचलॉगर और माइक्रोफ़ोन के साथ एक लैपटॉप (या दो) लाओ। प्रत्येक पक्ष दूसरे के बोले गए शब्दों को उनके में अनुवादित देखेगा मातृ भाषावास्तविक समय में। यह सुनिश्चित करने के लिए कि आप दूसरे पक्ष को पूरी तरह से समझते हैं, एक विदेशी भाषा में फोन कॉल करना भी सहायक होता है। अपने फोन के ऑडियो आउटपुट को अपने कंप्यूटर के लाइन-इन से कनेक्ट करें और स्पीचलॉगर शुरू करें।

विदेशी भाषाएं सीखें और अपने उच्चारण कौशल में सुधार करें

स्पीचलॉगर एक बेहतरीन भाषा सीखने का उपकरण है और इसे कई तरह से इस्तेमाल किया जा सकता है। आप अपनी मूल भाषा बोलकर और सॉफ़्टवेयर को इसका अनुवाद करने देकर शब्दावली सीखने के लिए इसका उपयोग कर सकते हैं। आप विदेशी भाषा में बोलकर और स्पीचलॉगर को समझ में आता है या नहीं यह देखकर सही उच्चारण सीख और अभ्यास कर सकते हैं। यदि पाठ काले रंग में लिखा गया है, तो इसका मतलब है कि आपने इसे अच्छी तरह से उच्चारण किया है।

मूवी उपशीर्षक पीढ़ी

स्पीचलॉगर स्वचालित रूप से फिल्में या अन्य रिकॉर्ड कर सकता है ध्वनि फ़ाइलें. फिर फ़ाइल लें और अंतरराष्ट्रीय उपशीर्षक बनाने के लिए स्वचालित रूप से किसी भी भाषा में इसका अनुवाद करें।

टाइप करने के बजाय डिक्टेट करें

एक पत्र लिख रहा हूँ? दस्तावेज़? सूचियाँ? सारांश? आपको जो कुछ भी टाइप करने की आवश्यकता है, उसे इसके बजाय स्पीचलॉगर को निर्देशित करने का प्रयास करें। स्पीचलॉगर इसे स्वचालित रूप से आपके लिए सहेज लेगा और आपको इसे एक दस्तावेज़ में निर्यात करने देगा।

मज़ाकिया खेल :)

क्या आप चीनी वक्ता की नकल कर सकते हैं? फ्रेंच? रूसी के बारे में क्या? नकल करने की कोशिश करें विदेशी भाषाऔर देखें कि आपने अभी-अभी स्पीचलॉगर के साथ क्या कहा है। आपने अभी जो कहा है उसे समझने के लिए स्पीचलॉगर के युगपत अनुवाद का उपयोग करें। आश्चर्यजनक परिणाम प्राप्त करें - यह बहुत मज़ेदार है!

यहां मुफ्त प्रोग्राम और एप्लिकेशन का उपयोग करके भाषण को टेक्स्ट में बदलने के चार तरीके दिए गए हैं।

भाषण को सीधे वर्ड में टेक्स्ट में बदलें

माइक्रोसॉफ्ट डिक्टेट के साथ, आप सीधे वर्ड में टेक्स्ट को डिक्टेट और ट्रांसलेट भी कर सकते हैं।

  • मुफ्त माइक्रोसॉफ्ट डिक्टेट प्रोग्राम डाउनलोड और इंस्टॉल करें।
  • फिर इसे ओपन करें - इसमें डिक्टेशन टैब दिखाई देगा। इस पर क्लिक करने पर आपको स्टार्ट कमांड वाला एक माइक्रोफोन आइकन दिखाई देगा।
  • पास ही भाषा का चुनाव है। रूसी भाषा चुनें और रिकॉर्डिंग शुरू करें। शब्दों को यथासंभव स्पष्ट रूप से उच्चारण करने का प्रयास करें, और वे दस्तावेज़ में सही दिखाई देंगे।

एक संदेश बोलो के साथ भाषण को पाठ में बदलना

मुफ्त कार्यक्रमस्पीक ए मैसेज बोले गए टेक्स्ट को रिकॉर्ड करता है और फिर उसे ट्रांसक्रिप्ट करता है। कार्यक्रम की मुख्य भाषाएं अंग्रेजी, जर्मन, स्पेनिश और फ्रेंच हैं, लेकिन एक बहुभाषी संस्करण भी है।

  • प्रोग्राम इंस्टॉल करें और "रिकॉर्ड" बटन पर क्लिक करें। संपूर्ण पाठ बोलें, और तब रोकें क्लिक करें।
  • रिकॉर्ड बटन के नीचे, रिकॉर्ड की गई फाइलों के बगल में, आपको "ट्रांसक्रिप्शन" - "स्पीच टू टेक्स्ट" फ़ंक्शन मिलेगा।
  • तैयार टेक्स्ट को कॉपी करें और वांछित टेक्स्ट एडिटर में पेस्ट करें। लेकिन यह जांचना न भूलें कि कार्यक्रम ने क्या लिखा है - कभी-कभी यह गलतियाँ करता है।

विशेष सॉफ्टवेयर के बिना भाषण को टेक्स्ट में बदलें

में ऑपरेटिंग सिस्टमविंडोज 8 और 10 आपको टेक्स्ट सॉफ्टवेयर के लिए किसी अतिरिक्त आवाज की जरूरत नहीं है।

  • विंडोज की दबाएं और "स्पीच रिकग्निशन" टाइप करें। फिर क्वेरी से मेल खाने वाले परिणाम को खोलें और प्रोग्राम के निर्देशों का पालन करें।
  • एक बार सेटअप पूरा हो जाने के बाद, एप्लिकेशन लॉन्च करें और सीधे वर्ड दस्तावेज़ में निर्देशित करें। ऐसा करने के लिए, बस माइक्रोफ़ोन बटन दबाएं और बोलना शुरू करें।

ऐप के माध्यम से भाषण को टेक्स्ट में बदलें

यदि आप ग्रंथों को निर्देशित करना चाहते हैं और उन्हें मुद्रित रूप में प्राप्त करना चाहते हैं, तो विशेष अनुप्रयोगों का उपयोग करें।

  • Android और iOS ने पहले ही वाक् पहचान को अपने सिस्टम में एकीकृत कर दिया है। जब आप नोट लेने वाला ऐप खोलते हैं और टाइप करना शुरू करते हैं, तो ध्वनि पहचान शुरू करने के लिए माइक्रोफ़ोन आइकन का उपयोग करें।
  • इसी तरह के उद्देश्य के लिए अन्य ऐप भी हैं, जैसे कि ड्रैगन डिक्टेशन एंड्रॉइड और आईओएस के लिए उपलब्ध है।