Голосове розпізнавання мови програми асистент. Розбираємось із сучасними системами розпізнавання мови в Linux

У нашому сучасному, насиченому подіями світі швидкість роботи з інформацією є одним з наріжних каменів досягнення успіху. Від того як швидко ми отримуємо, створюємо, переробляємо інформацію залежить наша робоча продуктивність і продуктивність, а значить і наш безпосередній матеріальний достаток. Серед інструментів, здатних підвищити наші робочі можливості, важливе місце займають програми для перекладу мови в текст, що дозволяють істотно збільшити швидкість набору текстів, які нам потрібні. У цьому матеріалі я розповім, які існують популярні програми для перекладу аудіо голосу в текст, і які особливості.

Додаток для перекладу аудіо голосу до тексту – вимоги до системи

Більшість існуючих програм для перекладу голосу в текст мають платний характер, пред'являючи ряд вимог до мікрофона (у випадку, коли програма призначена для комп'ютера). Надзвичайно не рекомендується працювати з мікрофоном, вбудованим у веб-камеру, а також розміщеним у корпусі стандартного ноутбука (якість розпізнавання мови з таких пристроїв знаходиться на досить низькому рівні). Крім того, досить важливо мати тихе навколишнє оточення, без зайвих шумів, здатних безпосередньо вплинути на рівень розпізнавання вашої мови.

При цьому більшість таких програм здатні не тільки трансформувати мову в текст на екрані комп'ютера, але й використовувати голосові команди для керування вашим комп'ютером (запуск програм та їх закриття, прийом та відправлення електронної пошти, відкриття та закриття сайтів тощо).

Програма перетворення мови на текст

Перейдемо до безпосереднього опису програм, які можуть допомогти у перекладі мови в текст.

Програма "Laitis"

Безкоштовна російськомовна програма для розпізнавання голосу «Laitis» має гарною якістюрозуміння мови, і, на думку її творців, здатна практично повністю замінити користувачеві звичну клавіатуру. Програма добре працює і з голосовими командами, дозволяючи з їх допомогою виконувати безліч дій з керування комп'ютером.

Для своєї роботи програма вимагає обов'язкової наявності на ПК швидкісного інтернету (у роботі програми використовуються мережеві сервіси розпізнавання голосу від Google і Yandex). Можливості програми дозволяють також управляти за допомогою голосових команд і вашим браузером, для чого необхідна установка на веб-навігатор спеціального розширення від Laitis (Chrome, Mozilla, Opera).

"Dragon Professional" - розшифровка аудіозаписів у текст

На момент написання цього матеріалу цифровий англомовний продукт « Dragon Professional Individual » є одним із світових лідерів за якістю розпізнаваних текстів. Програма розуміє сім мов (з російською поки що працює лише мобільний додаток «Dragon Anywhere» на і ), має високу якість розпізнавання голосу, вміє виконувати ряд голосових команд. При цьому цей продукт має виключно платний характер (ціна за основну програму становить 300 доларів США, а за «домашню» версія продукту «Dragon Home» покупцеві доведеться викласти 75 доларів США).

Для своєї роботи цей продукт від Nuance Communications вимагає створення свого профілю, який покликаний адаптувати можливості програми під специфіку вашого голосу. Крім безпосереднього диктування тексту, ви можете навчити програму виконувати ряд команд, тим самим роблячи свою взаємодію з комп'ютером ще більш конгруентним та зручним.

"RealSpeaker" - надточний розпізнавач мови

Програма для трансформації голосу в текст RealSpeaker крім стандартних для програм такого роду функцій, дозволяє задіяти можливості веб-камери вашого ПК. Тепер програма не тільки зчитує аудіо складову звуку, але й фіксує рух куточків губ, що говорить, тим самим коректніше розпізнаючи висловлювані ним слова.


«RealSpeaker» зчитує не тільки аудіо, а й візуальну складову процесу мовлення

Додаток підтримує більше десяти мов (у тому числі і російську), дозволяє розпізнавати мову з урахуванням акцентів та діалектів, дозволяє транскрибувати аудіо та відео, дає доступ до хмари та багато іншого. Програма умовно безкоштовна, за платну версію доведеться заплатити цілком реальні гроші.

Voco — програма швидко переведе голос у текстовий документ

Ще один перетворювач голосу в текст - це платний цифровий продукт "Voco", ціна "домашньої" версії якого нині становить близько 1700 рублів. Більш просунуті і дорогі варіанти даної програми - Voco.Professional і Voco.Enterprise мають ряд додаткових можливостей, однією з яких є розпізнавання мови з аудіозаписів, що є у користувача.

Серед особливостей Voco відзначу можливість доповнення словникового запасу програми (нині словниковий запаспрограми включає більше 85 тисяч слів), а також її автономну роботу від мережі, що дозволяє не залежати від підключення до Інтернету.


Серед плюсів "Voco" - висока навчання програми

Програма включається досить просто - достатньо двічі натиснути клавішу Ctrl. Для активації голосового введення в Gboard достатньо натиснути і утримувати пробіл

Додаток абсолютно безкоштовний, підтримує кілька десятків мов, серед яких і російська.

Висновок

Вище мною були перераховані програми для перекладу аудіо запису голосу в текст, описаний їх загальний функціонал і характерні особливості. Більшість подібних продуктів зазвичай має платний характер, при цьому асортимент та якість російськомовних програм якісно поступається англомовним аналогам. Особливу увагу при роботі з подібними програмами рекомендую приділити вашому мікрофону та його налаштуванням – це має важливе значення в процесі розпізнавання мови, адже поганий мікрофон може звести нанівець навіть найякісніший софт розглянутого мною типу.

Для того щоб розпізнати мовленнята перевести її з аудіо або відео до тексту, існують програми та розширення (плагіни) для браузерів. Однак навіщо все це, якщо є онлайн-сервіси? Програми треба встановлювати на комп'ютер, більш того, більшість програм розпізнавання мови далеко не безкоштовні.


Велика кількість встановлених у браузері плагінів сильно гальмує його роботу та швидкість серфінгу в інтернеті. А послуги, про які сьогодні йтиметься, повністю безкоштовні і не вимагають установки - зайшов, користувався і пішов!

У цій статті ми розглянемо два сервіси перекладу мови в текст онлайн. Обидва вони працюють за подібним принципом: Ви запускаєте запис (дозволяєте браузеру доступ до мікрофона на час користування сервісом), говорите в мікрофон (диктуєте), а на виході отримуєте текст, який можна скопіювати в будь-який документ на комп'ютері.

Speechpad.ru

Російськомовний онлайн сервіс розпізнавання мови. Має докладну інструкціюпо роботі російською.

  • підтримку 7 мов (російська, українська, англійська, німецька, французька, іспанська, італійська)
  • завантаження для транскрибації аудіо або відео файлу (підтримуються ролики з YouTube)
  • синхронний переклад іншою мовою
  • підтримку голосового введення розділових знаків та перекладу рядка
  • панель кнопок (зміна регістру, переклад на новий рядок, лапки, дужки тощо)
  • наявність персонального кабінету з історією записів (опція доступна після реєстрації)
  • наявність плагіна до Google Chrome для введення тексту голосом у текстовому полі сайтів (називається «Голосове введення тексту — Speechpad.ru»)

Dictation.io

Другий онлайн сервіс перекладу мови до тексту. Іноземний сервіс, який, тим часом, чудово працює з російською мовою, що вкрай дивно. За якістю розпізнавання мови не поступається Speechpad, але про це трохи пізніше.

Основний функціонал сервісу:

  • підтримка 30 мов, серед яких присутні навіть угорська, турецька, арабська, китайська, малайська та ін.
  • авторопознання вимови розділових знаків, перекладу рядка та ін.
  • можливість інтеграції зі сторінками будь-якого сайту
  • наявність плагіна для Google Chrome (називається "VoiceRecognition")

У справі розпізнавання мови найважливіше значення має саме якість перекладумовлення в тексті. Приємні «плюшки» та похвоти – не більше ніж добрий плюс. То чим же можуть похвалитися в цьому плані обидва сервіси?

Порівняльний тест сервісів

Для тесту виберемо два непростих для розпізнавання фрагмента, які містять нечасто вживані у мові слова і мовні звороти. Спочатку читаємо фрагмент поеми «Селянські діти» М. Некрасова.

Нижче представлений результат перекладу мови у тексткожним сервісом (помилки позначені червоним кольором):

Як бачимо, обидва сервіси практично з однаковими помилками впоралися з розпізнаванням мови. Результат дуже непоганий!

Тепер для тесту візьмемо уривок із листа червоноармійця Сухова (к/ф «Біле сонце пустелі»):

Відмінний результат!

Як бачимо, обидва сервіси дуже гідно справляються з розпізнаванням мови – вибирайте будь-хто! Схоже, що вони навіть використовують один і той же двигун - вже схожі у них виявилися допущені помилки за результатами тестів). Але якщо Вам потрібні додаткові функції типу підвантаження аудіо/відео файлу та перекладу його в текст (транскрибація) або синхронного перекладу озвученого тексту іншою мовою, то Speechpad буде найкращим вибором!


До речі, ось як він виконав синхронний переклад фрагмента поеми Некрасова англійською мовою:

Ну а це коротка відеоінструкція з роботи зі Speechpad, записана самим автором проекту:

Друзі, чи Вам сподобався даний сервіс? Чи знаєте Ви якісніші аналоги? Діліться своїми враженнями у коментарях.


Чи знали ви, що технології розпізнавання голосу існують уже 50 років? Півстоліття це завдання вирішують вчені і лише в останні кілька десятиліть до його вирішення підключилися IT-компанії. Результатом останнього року роботи став новий рівень точності розпізнавання та масове використання технології у повсякденному та професійному житті.

Технологія у житті

Щодня ми користуємося пошуковими системами. Ми шукаємо де пообідати, як дістатися до потрібного місця або намагаємося знайти значення невідомого терміну. Технологія розпізнавання голосу, яку використовують, наприклад, Google або Яндекс.Навігатор, допомагає нам витрачати на пошук мінімум часу. Це просто та зручно.

У професійному середовищі технологія допомагає спростити роботу кілька разів. Наприклад, у медицині мова лікаря перетворюється на текст історії хвороби та рецепт відразу на прийомі. Це заощаджує час на занесення інформації про пацієнта до документів. Вбудована в бортовий комп'ютер автомобіля система реагує на запити водія, наприклад допомагає знайти найближчу заправку. Для людей з обмеженими можливостямиактуальне впровадження систем у програмне забезпечення побутових приладівдля керування ними за допомогою голосу.

Розвиток систем розпізнавання голосу

Ідея розпізнавання мови виглядала багатообіцяюче за всіх часів. Але вже на етапі розпізнавання чисел і самих простих слівдослідники зіштовхнулися із проблемою. Суть розпізнавання полягала у побудові акустичної моделі, коли мова представлялася як статистична модель, яка порівнювалася з готовими шаблонами. Якщо модель відповідала шаблону, система приймала рішення про те, що команда або число розпізнане. Зростання словників, які могла розпізнати система, вимагало збільшення потужностей обчислювальних систем.

Графіки зростання продуктивності комп'ютерів та зниження помилки розпізнавання в системах розпізнавання голосу англомовної мови
Джерела:
Herb Sutter. The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Сьогодні алгоритми розпізнавання доповнилися мовними моделями, що описують структуру мови, наприклад, типову послідовність слів. Навчання системи відбувається реальному мовному матеріалі.

Новим етапом у розвитку технології стало застосування нейронних мереж. Система розпізнавання влаштована в такий спосіб, що кожне нове розпізнавання впливає точність розпізнавання у майбутньому. Система стає навчальною.


Якість систем розпізнавання голосу

Стан справ у розвитку технології сьогодні виражається метою: від розпізнавання мови до розуміння. Для цієї мети обрано і ключовий показник – відсоток помилок у розпізнаванні. Варто сказати, що такий показник застосовується й у розпізнаванні мови однієї людини іншою. Ми пропускаємо частину слів, зважаючи на інші фактори, наприклад, контекст. Це дозволяє нам розуміти навіть без розуміння значень окремих слів. Для людини показник помилки розпізнавання дорівнює 5,1%.

Іншими складнощами у навчанні системи розпізнавання мови розуміння мови будуть емоції, несподівана зміна теми розмови, використання сленгу та індивідуальні особливості того, хто говорить: темп мовлення, тембр, вимова звуків.


Світові гравці ринку

Декілька світових гравців ринку платформ розпізнавання голосу добре відомі. Це Apple, Google, Microsoft, IBM. Ці підприємства мають достатні ресурси для досліджень і великою базою для навчання власних систем. Наприклад, Google використовує мільйони пошукових запитів, які користувачі із задоволенням задають самі. З одного боку, це підвищує точність розпізнавання, а з іншого – накладає обмеження: система розпізнає мовлення відрізками по 15 секунд і розраховує на «питання широкого профілю». Помилка розпізнавання Google – 4,9 %. IBM цей показник дорівнює 5,5%, а у Microsoft - 6,3% на кінець 2016 року.

Платформу для застосування у професійних галузях розробляє американська компанія Nuance. Серед сфер застосування: медицина, юриспруденція, фінанси, журналістика, будівництво, безпека, автомобільна сфера.

У Росії Центр мовних технологій – найбільший виробник професійних засобіврозпізнавання голосу та синтезування мови. Рішення компанії запроваджено у 67 країнах світу. Основні напрямки роботи: голосова біометрія – ідентифікація голосу; мовні системи самообслуговування – IVR, що застосовуються у кол-центрах; синтезатори мови. У російська компанія працює під брендом SpeechPro і проводить дослідження з розпізнавання англомовної мови. Результати розпізнавання входять до ТОП-5 результатів за величиною помилки.


Цінність розпізнавання голосу у маркетингу

Мета маркетингу – вивчення потреб ринку України та організація бізнесу відповідно до ними збільшення прибутковості та ефективності. Голос цікавить маркетологів у двох випадках: якщо говорить клієнт та якщо говорить співробітник. Тому об'єкт вивчення для маркетологів та сфера застосування технології – телефонні дзвінки.

Сьогодні аналітика телефонних переговорів розвинена погано. Дзвінки не тільки потрібно записувати, а й прослуховувати, оцінювати і потім аналізувати. Якщо організувати запис нескладно – це може будь-яка віртуальна АТС або сервіс коллтрекінгу – організувати прослуховування дзвінків складніше. Це завдання вирішує або окрема людина у компанії, або керівник кол-центру. Прослуховування дзвінків також дають на аутсорсинг. У будь-якому разі похибка в оцінці дзвінків – проблема, яка ставить під сумнів результати аналітики та прийняті на їх основі рішення.

Титрувальник телефону для глухих і слабочуючих

Перетворіть ваш екран на дивовижний заголовок телефону. Це повністю автоматичний, без людського слуху-машиністки ваші розмови. Знаходять бабусі та дідусі важко почути сім'ю та друзів по телефону? Увімкніть Speechlogger для них та зупинити кричати по телефону. Просто підключіть аудіовиход телефону до аудіо входу комп'ютера та запустити Speechlogger. Це також корисно в віч-на-віч взаємодії.

Автоматична транскрипція

Ви занотували інтерв'ю? Зберегти деякий час на переписування його, з автоматичним мовленням Google, до тексту, принесла у ваш браузер по Speechlogger. Відтворення записаного інтерв'ю в мікрофон вашого комп'ютера (або лінії) в-і нехай speechlogger зробити транскрипцію. Speechlogger зберігає транскрипції тексту разом з датою, часом і ваші коментарі. Вона також дає змогу редагувати текст. Телефонних розмовможуть бути розшифровані за допомогою того ж таки методу. Ви також можете записати аудіофайли безпосередньо з комп'ютера, як описано нижче.

Автоматичний усний та письмовий перекладач

Зустріч із іноземними гостями? Принесіть ноутбук (або два) з speechlogger і мікрофон. Кожна сторона бачитиме друга вимовлені слова, перекладені на них рідною мовоюв режимі реального часу. Це також корисно на телефонний дзвінок іноземною мовою, щоб переконатися, що ви повністю зрозуміти інший бік. Підключіть аудіовиход вашого телефону, щоб лінійний вхід вашого комп'ютера та почати Speechlogger.

Вивчайте іноземні мови та покращуйте навички вимови

Speechlogger є відмінним інструментом для вивчення мов і може бути використаний u200b u200Bin кілька способів. Ви можете використовувати його, щоб дізнатися словниковий запас, говорячи рідною мовою і даючи програмного забезпечення перекласти його. Ви можете навчатися та практикувати правильну вимову, розмовляючи іноземною мовою і, бачачи, чи розуміє Speechlogger чи ні. Якщо розшифрувати текст в чорний шрифт це означає, що ви вимовив це добре.

Генерування субтитрів для фільмів

Speechlogger може автоматично записати фільми чи інші звукові файли. Потім візьміть файл і автоматично перекласти його будь-якою мовою, щоб зробити міжнародні субтитри.

Диктуйте замість введення

Написання листа? Документи? Списки? Резюме? Незалежно від того, вам потрібно ввести, спробуйте диктувати його Speechlogger замість цього. Speechlogger буде автоматично зберігати його для вас і дозволить експортувати його в документ.

Забавна гра:)

Чи можете ви імітувати китайську динамік? Французька? Що про російську мову? Спробуйте імітувати іноземна моваі побачити те, що ви тільки що сказали зі Speechlogger. Використовуйте синхронний переклад Speechlogger, щоб зрозуміти, що ви щойно сказали. Отримати дивовижні результати – це дуже весело!

Представляємо чотири способи перетворити мову на текст, використовуючи безкоштовні програми та програми.

Перетворення мови на текст безпосередньо в Word

За допомогою Microsoft Dictate можна диктувати і навіть перекладати текст прямо в Word.

  • Завантажте та встановіть безкоштовну програму Microsoft Dictate.
  • Потім відкрийте – у ньому з'явиться вкладка Dictation. Натиснувши на неї, ви побачите значок мікрофона з командою Start.
  • Поруч знаходиться вибір мови. Виберіть російську мову та почніть запис. Намагайтеся вимовляти слова максимально чітко, і вони з'являться у документі.

Перетворюємо мову на текст за допомогою Speak a Message

Безкоштовна програма Speak A Message записує вимовлений текст, а потім розшифровує його. Основні мови програми – англійська, німецька, іспанська та французька, але є й мультимовна версія.

  • Встановіть програму та натисніть кнопку «Запис». Вимовте весь текст, а потім натисніть «Стоп».
  • Під кнопкою запису поруч із записаними файлами ви знайдете функцію "Транскрипція" - "Мова в текст".
  • Скопіюйте готовий текст та вставте його у потрібний текстовий редактор. Але не забудьте перевірити те, що записала програма — іноді вона припускається помилок.

Перетворюємо мову на текст без спеціальних програм

В операційній системі Windows 8 і 10 вам не потрібне додаткове програмне забезпечення для перетворення голосу на текст.

  • Натисніть клавішу Windows та введіть «Розпізнавання мовлення». Потім відкрийте відповідний запит і дотримуйтесь вказівок програми.
  • Після завершення установки запустіть програми та диктуйте прямо в документі Word. Для цього просто натисніть кнопку мікрофона і почніть говорити.

Перетворення мови на текст через програму

Якщо ви хочете диктувати тексти та отримувати їх у надрукованому вигляді прямо на ходу, використовуйте спеціальні програми.

  • Android та iOS вже інтегрували у свої системи функцію розпізнавання мови. Коли ви відкриваєте програму для створення нотаток і починаєте набирати текст, використовуйте піктограму мікрофона, щоб запустити розпізнавання голосу.
  • Є й інші програми для аналогічної мети, наприклад Dragon Dictation, доступне для Android та iOS.