Обработка и анализ звуковых сигналов

Автор:Константинов В.С.

Введение

Для обработки и анализа звуковых сигналов необходимо напомнить как работает преобразование из аналогового сигнала в дискретный. Первым делом необходимо выполнить дискретезацию сигнала и квантование.[1].

Преобразование аналогового сигнала в дискретный

Дискретизация – представления аналогового непрерывного сигнала совокупностью его значений.[1]. Пример представлен на рис.1.

Рисунок 1 — Дискретизированный сигнал

Квантование – разбиение диапазона отсчётных значений сигнала на конечное число уровней и округление этих значений до одного из двух ближайших к ним уровней. При этом значение сигнала может округляться либо до ближайшего уровня, либо до меньшего или большего из ближайших уровней в зависимости от способа кодирования. Такое квантование называется скалярным. Существует также векторное квантование — разбиение пространства возможных значений векторной величины на конечное число областей и замена этих значений идентификатором одной из этих областей.[1, 2]. Пример представлен на рис.2.

Рисунок 2 — Квантованный сигнал

Распознование речи с использованием нейронной сети

Рисунок 3 — Обобщенная структура распознования речи

Далее рассмотри обобщенную структуру распознования речи на рис.3. Наиболее популярный и эффективный способ на данный момент – использование нейронной сети.

Погрешность распознования речи

Рисунок 4 — Тенденция уменьшения процента погрешности распознования речи

На рис.4 можно увидеть тенденцию уменьшения процента погрешности распознования речи. На май 2017 погрешность распознования составляет 4.9%, что является более высоким показателем чем у человека.

Рост объема рынка распознования речи

Рисунок 5 — Экспоненциальный рост объема рынка распознования речи

На рис.5[4] видно экспоненциальное увеличение мирового рынка распознования речи. На основе этих данных можно сделать прогноз на 10 лет и узнать примерные показатели на 2024 год. На 2024 год, по прогнозу, доля рынка составит 7150 млн $.

Глубокое обучение

Рисунок 6 — Рост использования глубокого обучения в Google

На рис.6 можно увидеть экспоненциальный рост использования глубокого обучения в Google. Компания внедряет глубокое обучение во все отрасли своих разработок и успешно добивается результатов.

Рисунок 7 — Динамика поисковых запросов Deep learning

На рис.7 также можно увидеть экспоненциальный рост количества запросов по теме глубокого обучения в поисковой системе Google. Значительный рост можно наблюдать с марта 2013 года, это как раз то время, когда во всю стали изучать и использовать глубокое обучение.

Выводы

Основные приложения использующие глубокое обучение: Gmail, YouTube, GoogleMaps. Глубокое обучение получилось внедрить во многие области с большой скоростью. Был построен прогноз роста мирового рынка распознования речи на 10 лет, основываясь на предыдущих данных.

Список литературы

Квантование [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Квантование_(обработка_сигналов)/. – Заглавие с экрана.
Исследование параметров аналого-цифрового и цифро-аналогового преобразователей [Электронный ресурс]. – Режим доступа: https://studfiles.net/preview/1715632/. – Заглавие с экрана.
Machine Learning is Fun Part 6: How to do Speech Recognition with Deep Learning [Электронный ресурс]. – Режим доступа: https://medium.com/@ageitgey/machine-learning-is-fun-part-6-how-to-do-speech-recognition-with-deep-learning-28293c162f7a. – Заглавие с экрана.
Voice and speech recognition technology revenue worldwide 2015-2024 [Электронный ресурс]. – Режим доступа: https://www.statista.com/statistics/608523/worldwide-voice-speech-recognition-software-market/. – Заглавие с экрана.
Voice Recognition Market To Reach $127.58 Billion By 2024 [Электронный ресурс]. – Режим доступа: http://www.abnewswire.com/pressreleases/voice-recognition-market-to-reach-12758-billion-by-2024-grand-view-research-inc_77180.html. – Заглавие с экрана.