UA   EN

Реферат

  1. Введение
  2. 1. Актуальность темы
  3. 2. Цель и задачи исследования, планируемые результаты
  4. 3. Обзор исследований и разработок
  5. 4. Анализ методов распознавания звуковых сигналов
  6. Выводы
  7. Список литературы

Введение

Сегодня много кто решает повседневные задачи на ходу — с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки — это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов.

1. АКТУАЛЬНОСТЬ ТЕМЫ

На текущий момент существует множество различных методов и алгоритмов, которые позволяют обработать человеческую речь и получить информацию о характеристиках звукового сигнала. Для выбора оптимального решения, в условиях решаемой задачи распознавания звуковых сигналов, необходимо рассмотреть несколько вариантов решения

Распознавание речи — задача, которую человек выполняет без особых усилий несколько раз в день. Это одна из ключевых биометрических технологий. Распознавание речи имеет ряд преимуществ перед другими биометрическими технологиями: это естественность, доступность и простота в использовании. Исходя из этого, вопрос улучшения и модернизации данного типа систем распознавания является актуальным.

2. ЦЕЛЬ И ЗАДАЧИ ИССЛЕДОВАНИЯ

Цель данной работы — оптимизация существующего метода распознования речи на базе нейронных сетей.

Для этого необходимо: исследовать предметную область, проанализировать существующие методы решения подобных задач, выделить их достоинства и недостатки, выбрать наиболее перспективные методы решения для данной задачи, проанализировать результаты их применения и выбрать наилучший из них.

Сформированный ряд задач для достижения поставленной цели:

  1. Обзор существующих методов распознования звука.
  2. Обзор реализаций нейронных сетей на FPGA.
  3. Анализ архитектуры систем распознования звука.
  4. Реализация распознования звука на базе FPGA.

3. АНАЛИЗ РАБОТ

Задача системы распознавания речи — восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.[1].

3.1 Глобальный обзор

Смартфоны изначально были единственным местом обитания для цифровых помощников, таких как Siri и Cortana, но эта концепция была децентрализована за последние несколько лет.

В настоящее время основное внимание уделяется главным образом голосоактивируемым домашним приложениям, но это, по сути, стратегия троянских коней. Захватывая главенствующее место в доме потребителя, эти системы являются воротами для распространения умных(следящих) устройств, которые можно классифицировать под широким понятием Интернет вещей. Google Home или Amazon Echo уже могут использоваться для управления широким набором устройств с поддержкой Интернета, и к 2020 году в их список можно будет добавить еще больше изобретений: интеллектуальные холодильники, наушники, зеркала и пожарные системы, а также растущий молниеносно список побочных инноваций.

[9].

Недавнее исследование Google показало, что более 50% пользователей поддерживают наличие системы, активируемой голосом в своей гостиной, причем значительное число также сообщает, что у них есть одна в спальне или на кухне.

И в этом, собственно и суть; Google (и его конкуренты) хотят, чтобы мы купили более чем одно из этих домашних устройств. А чем более удобны они, тем больше людей будут продолжать использовать их.

Их амбициям в значительной степени помогает тот факт, что технология в настоящее время действительно полезна для выполнения повседневных задач. Спросите Alexa, Siri, Cortana или Google, какая погода будет завтра, и она предоставит вполне внятный, устный отчёт. Устройство по–прежнему несовершенно, но распознавание речи достигло сейчас приемлемого уровня точности для большинства людей, причем все основные платформы сообщают о частоте ошибок менее 5%.

В результате, эти компании стараются «водрузить свой флаг» в наших домах как можно раньше. Аппаратное обеспечение, например, в форме домашней акустической системы, не является чем–то, часто покупаемым большинством. Например, если потребители покупают GoogleHome, то представляется вероятным, что они дополнят это устройствами, поддерживающими Google, вместо того, чтобы покупать у конкурирующей компании и создавать под их крышей несвязанные цифровые экосистемы. Намного легче искать устройства, которые обеспечат стабильность и удобство.

По этой простой причине у Amazon есть смысл продавать Echo Dot всего за $ 29,99. Это эквивалентно краткосрочным финансовым убыткам для Amazon на каждом продаваемом устройстве, но долгосрочная прибыль будет более чем компенсировать это.

По сегодняшним оценкам, уже установлено около 33 миллионов смарт–устройств (отчет Voice Labs, 2017), и как молодые, так и пожилые поколения быстро внедряют эту технологию.[9].

3.2 Национальный обзор

В России, направление систем распознавания речи действительно развито довольно слабо. Google давно анонсировала систему записи и распознавания телефонных разговоров… Про системы похожего масштаба и качества распознавания на русском языке, к сожалению, пока не существует.

Но не нужно думать, что за рубежом все уже все давно открыли и нам их никогда не догнать. При поиске материала для єтого раздела, пришлось проанализировать большое количество зарубежной литературы и диссертаций. Причем статьи и диссертации эти были замечательных американских ученых Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk и др.

В России удалось найти только одну толковую компанию, которой удалось вывести отечественные системы распознавания речи на коммерческий уровень: Центр речевых технологий. Но, возможно, ближайшее время к разработчикам придет в голову, что заняться разработкой таких систем можно и нужно. Тем более, что в плане алгоритмов и мат. аппарата мы практически не отстали. [9].

3.3 Локальный обзор

Среди магистерских работ ДонНТУ можно выделить работу Костенко А.В.Новые подходы к проблемам конца речевого сигнала [8]. В этой работе описана разработка новых подходов по применению существующих алгоритмов по обработке речевого сигнала и их совершенствование по отношению к проблемам связанных с распознаванием в конце речевого сигнала.

4. Анализ методов распознавания звуковых сигналов.

Все современные системы распознавания речи основаны на статистических методах, позволяющих использовать мощный аппарат математической статистики и теории вероятностей, что, в свою очередь, существенно повышает качество распознавания.

Основными методами автоматического распознавания речи являются скрытые марковские модели (СММ) и искусственные нейронные сети (ИНС) [2, 3].

В современных системах очень широко используются нейронные сети, т.к. лишены многих ограничений, характерных для гауссовых смесей, и обладают лучшей обобщающей способностью. Кроме того, акустические модели на нейронных сетях более устойчивы к шуму и обладают лучшим быстродействием

Этими методами получают на вход данные для анализа, которые преобразуются в нужный для нас результат. Естественно, что сырой звук – амплитуда колебаний по времени – не самая информативная форма представления акустического сигнала для анализа. Спектр этого сигнала – уже гораздо лучше. Но на практике обычно используется логарифмированный и отмасштабированный спектр, что соответствует закономерностям человеческого слухового восприятия (мeл–преобразование).

Чтобы получить спектр исходного сигнала, обычно нарезают звук участками (фреймы) определенной длины с шагом, который позволял бы фреймам на половину пересекаться. [4].

Нарезка на фреймы необходима для представления сигнала в статистически стационарной форме. Обычно размер фрейма равен 20-40 мс, так как если он будет короче, то в нем будет недостаточно информации для качественного анализа, если больше, то сигнал изменяется слишком сильно и качество опять пострадает. Для каждого фрейма используют дискретное преобразование Фурье.

Теперь полученные результаты располагают на мел-шкале (рис. 1).

Мел-шкала

Рисунок 1 – Мел-шкала

Далее находится спектральная плотность мощности получившегося сигнала и применяется банк фильтров (рис. 2).

Банк фильтров

Рисунок 2 – Банк фильтров

Вначале задаются количество фильтров P, а также начальная и конечная частоты. Далее они переводятся в мелы. Получившийся отрезок разбивается на P+1 равных непересекающихся подотрезков, находятся их центры и переводятся в герцы. Получившиеся центры переводятся из герц в номера отсчетов, и каждый отсчет умножается на соответствующий фильтр.

В результате получаем некоторый набор коэффициентов. На последнем шаге возводим их в квадрат и логарифмируем. Это мотивировано тем, что наш слух воспринимает громкость не в линейном масштабе, и операция необходима для приближения данных к человеческому восприятию. Далее полученные величины подвергаются дискретному косинусному преобразованию (DCT), и в результате получается MFCC – Mel Frequency Cepstral Coefficients, которые и подаются на вход моделей [7].

Такие системы довольно качественно выполняют свою работу, но в большинстве своем они рассчитаны для работы в помещениях без сильных шумов, дикторами с четкой речью, качественным микрофоном и достаточно мощным компьютером для обработки сигналов.

Для примера рассмотрим работу Google Voice Search. Можно написать программу, которая будет делать POST-запрос на адрес www.google.com/speech-api/v1/recognize со звуковыми данными в формате FLAC. Данный сервис, получая запрос, обрабатывает сигнал с помощью мel-преобразования, далее полученные коэффициенты поступают в нейронную сеть, которая, обрабатывая их, выдает нам результат.

Попробуем распознать цифру 1. Для этого с помощью программы GoldWave запишем звук и сохраним в нужном нам формате. И с помощью программы отправляем данные на обработку. В результате получаем ответ: {"status":0,"id": "","hypotheses":[{"utterance": "1", "confidence":0.59936875}]}. Слово распознано с вероятностью 60 %. Если продолжить экспериментировать с другими словами, вероятность совпадения не превысит 70 %. Но слова распознаются точно. Если продиктовать фразу, она тоже распознается качественно, примерно в том же диапазоне вероятностей. [7].

Теперь усложним задачу и создадим помехи. Для этого возьмем диктофон, запишем на него слово, а уже с него будем записывать данные для передачи на сервис. В результате на записи появился шум.

И данный сервис уже не справляется с поставленной задачей {"status":5,"id":"","hypotheses":[]}. Если передать для распознания довольно большое предложение, то качество значительно уменьшается.

Следовательно, на данном этапе, сколько бы методов и алгоритмов не существовало, практически все из них способны работать в условиях с минимумом помех, четкой речью диктора и сравнительно небольшими предложениями. Для уменьшения влияния шумов можно на стадии получения сигнала использовать фильтры (вейвлет фильтры), что, в свою очередь, увеличит время распознавания. Проблему с дефектами в речи диктора можно решить использованием дикторозависимых систем. Если рассматривать дикторозависимые системы, то на стадии обучения система подстраивается под особенности речи диктора и в момент распознавания можно по ряду признаков выделить речь диктора из шумов, помех, что увеличит вероятность получения правильного результата.

ВЫВОДЫ

На основе вышесказанного можно сделать вывод о том, что с использованием систем распознавания речи сделан очень большой шаг вперед, но эти системы не идеальны и имеют большой потенциал для дальнейшего развития.

Не решены проблемы фильтрации шумов, четкости речи, распознавания больших объемов информации. И задача создания качественно работающей системы, способной подстраиваться под разные условия и различных дикторов, на данный момент не утратила своей актуальности.

ЗАМЕЧАНИЯ

На момент написания данного реферата магистерская работа еще не завершена. Предполагаемая дата завершения: май 2019 г. Полный текст работы, а также материалы по теме могут быть получены у автора или его руководителя после указанной даты.

ИСТОЧНИКИ

  1. Блог Яндекса. Как это работает? Распознавание речи [Электронный ресурс]. — Режим доступа: https://yandex.ru/blog/company/72171
  2. Маковкин К.А. Гибридные модели: скрытые марковские модели и нейронные сети, их применение в системах распознавания речи // Модели, методы, алгоритмы и архитектуры систем распознавания речи. М.: Издво «Вычислительный центр им. А.А. Дородницына РАН», 2006.
  3. Гефке Д.А., Зацепин П.М. Применение скрытых марковских моделей для распознавания звуковых последовательностей [Электронный ресурс]. — Режим доступа: http://docplayer.ru/34318860-Udk-d-a-gefke-p-m-zacepin-primenenie-skrytyh-markovskih-modeley-dlya-raspoznavaniya-zvukovyh-posledovatelnostey-a-n-1-n-s-1-s-2-s-2-s.html
  4. Geoffrey Hinton, Li Deng, Dong Yu, George Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara Sainath, and Brian Kingsbury Deep Neural Networks for Acoustic Modeling in Speech Recognition [Электронный ресурс]. — Режим доступа: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38131.pdf
  5. Обзор существующей концепции и возможностей реализации нейронных сетей / А. Б. Азаров, В. С. Константинов, Ю. Е. Зинченко, Т. А. Зинченко // Материалы студенческой секции IX Международной научно-технической конференции «Информатика, управляющие системы, математическое и компьютерное моделирование» (ИУСМКМ–2018). – Донецк: ДонНТУ, 2018. – С. 390-394.
  6. Preeti Saini, Parneet Kaur Automatic Speech Recognition: A Review - International Journal of Engineering Trends and Technology [Электронный ресурс]. — Режим доступа: http://ijettjournal.org/volume-4/issue-2/IJETT-V4I2P210.pdf
  7. А.В. Волков. Анализ существующих методов распознавания на инвариантность к фоновым помехам и дикции диктора [Электронный ресурс]. — Режим доступа: https://cyberleninka.ru/article/v/analiz-suschestvuyuschih-metodov-raspoznavaniya-na-invariantnost-k-fonovym-pomeham-i-diktsii-diktora.
  8. Костенко А.В. Новые подходы к проблемам конца речевого сигнала Персональный сайт на портале магистров ДонНТУ, 2010 г. — Режим доступа: http://masters.donntu.ru/2012/iii/kostenko/diss/index.htm.
  9. Че В. Прошлое, настоящее и будущее технологий распознавания речи [Электронный ресурс]. — Режим доступа: https://habr.com/ru/company/infopulse/blog/346928/
  10. Радченко Г. Распознавание речи. Часть 1. Классификация систем распознавания речи [Электронный ресурс]. — Режим доступа: https://habr.com/ru/post/64572/