Реферат
1. ВСТУП
Сьогодні багато хто вирішує повсякденні завдання на ходу - з телефону. З його допомогою можна перевірити пошту, відправити документи і фотографії, знайти найближчий банкомат або побудувати автомобільний маршрут. Чи не для всіх подібних задач зручно користуватися клавіатурою, тому зараз одне з найактуальніших напрямків мобільного розробки - це управління голосом.
В основі голосового управління лежить технологія розпізнавання мови. У ній задіяні досягнення різних областей: від комп'ютерної лінгвістики до цифрової обробки сигналів.
2. АКТУАЛЬНІСТЬ ТЕМИ
На поточний момент існує безліч різних методів і алгоритмів, які дозволяють обробити людську мову і отримати інформацію про характеристики звукового сигналу. Для вибору оптимального рішення, в умовах розв'язуваної задачі розпізнавання звукових сигналів, необхідно розглянути кілька варіантів рішення
Розпізнавання мови - завдання, яке людина виконує без особливих зусиль кілька разів в день. Це одна з ключових біометричних технологій. Розпізнавання мови має ряд переваг перед іншими біометричними технологіями: це природність, доступність і простота у використанні. Виходячи з цього, питання поліпшення і модернізації даного типу систем розпізнавання є актуальним.
3. МЕТА ТА НАПРЯМОК ДОСЛІДЖЕННЯ
Мета даної роботи - оптимізація існуючого методу розпізнавання мови на базі нейронних мереж.
Для цього необхідно: дослідити предметну область, проаналізувати існуючі методи вирішення подібних завдань, виділити їхні переваги і недоліки, вибрати найбільш перспективні методи вирішення для даного завдання, проаналізувати результати їх застосування і вибрати найкращий з них.
Сформований ряд завдань для досягнення поставленої мети:
- Огляд існуючих методів розпізнавання звуку.
- Огляд реалізацій нейронних мереж на FPGA.
- Аналіз архітектури систем розпізнавання звуку.
- Реалізація розпізнання звуку на базі FPGA.
4. ВИСНОВКИ
На основі вищесказаного можна зробити висновок про те, що з використанням систем розпізнавання мови зроблений дуже великий крок вперед, але ці системи не ідеальні.
Невирішені проблеми фільтрації шумів, чіткості мови, розпізнавання великих обсягів інформації. І завдання створення якісно працюючої системи, здатної підлаштовуватися під різні умови і різних дикторів, на даний момент не втратила своєї актуальності.
ЗАУВАЖЕННЯ
На момент написання даного реферату магістерська робота ще не завершена. Передбачувана дата завершення: травень 2019 р Повний текст роботи, а також матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.
Список літератури
- Как это работает? Распознавание речи [Электронный ресурс]. URL: https://yandex.ru/blog/company/72171
- Маковкин К.А. Гибридные модели: скрытые марковские модели и нейронные сети, их применение в системах распознавания речи // Модели, методы, алгоритмы и архитектуры систем распознавания речи. М.: Издво «Вычислительный центр им. А.А. Дородницына РАН», 2006.
- Гефке Д.А., Зацепин П.М. Применение скрытых марковских моделей для распознавания звуковых последовательностей [Электронный ресурс]. URL: http://docplayer.ru/34318860-Udk-d-a-gefke-p-m-zacepin-primenenie-skrytyh-markovskih-modeley-dlya-raspoznavaniya-zvukovyh-posledovatelnostey-a-n-1-n-s-1-s-2-s-2-s.html
- Geoffrey Hinton, Li Deng, Dong Yu, George Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara Sainath, and Brian Kingsbury Deep Neural Networks for Acoustic Modeling in Speech Recognition [Электронный ресурс]. URL: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38131.pdf
- Обзор существующей концепции и возможностей реализации нейронных сетей / А. Б. Азаров, В. С. Константинов, Ю. Е. Зинченко, Т. А. Зинченко // Материалы студенческой секции IX Международной научно-технической конференции «Информатика, управляющие системы, математическое и компьютерное моделирование» (ИУСМКМ–2018). – Донецк: ДонНТУ, 2018. – С. 390-394.
- Preeti Saini, Parneet Kaur Automatic Speech Recognition: A Review - International Journal of Engineering Trends and Technology [Электронный ресурс]. URL: http://ijettjournal.org/volume-4/issue-2/IJETT-V4I2P210.pdf
- TensorFlow [Электронный ресурс]. URL: https://www.tensorflow.org/
- А.В. Волков. Анализ существующих методов распознавания на инвариантность к фоновым помехам и дикции диктора [Электронный ресурс]. URL: https://cyberleninka.ru/article/v/analiz-suschestvuyuschih-metodov-raspoznavaniya-na-invariantnost-k-fonovym-pomeham-i-diktsii-diktora.
- Костенко А.В. Новые подходы к проблемам конца речевого сигнала Персональный сайт на портале магистров ДонНТУ, 2010 г. URL: http://masters.donntu.ru/2012/iii/kostenko/diss/index.htm.