Ссылки по теме выпускной работы

Материалы магистров ДонНТУ

Ворона В. В. Проблемы сегментации слитно произносимых фраз
Описание: Персональный сайт на портале магистров ДонНТУ, 2006 г.

Руководитель: проф., д. ф.–м. н. Шелепов В. Ю.
Бондаренко И. Ю. Интеграция визуального и речевого способов управления процессом ввода и редактирования текстовой информации
Описание: Персональный сайт на портале магистров ДонНТУ, 2007 г.

Руководитель: к. т. н., доц. Федяев О. И.
Веренич И. В. Анализ методов построения систем распознавания речи на основе гибрида скрытой марковской модели и нейросети
Описание: Персональный сайт на портале магистров ДонНТУ, 2008 г.

Руководитель: к. т. н., доц. Федяев О. И.
Нестеренко Д. С. Автоматическое распознавание изолированных слов русского языка на основе вейвлет-анализа
Описание: Персональный сайт на портале магистров ДонНТУ, 2009 г.

Руководитель: к. т. н., доц. Федяев О. И.
Савкова Д. Г. Речевой интерфейс для интеллектуализации ввода текста программ на языках программирования
Описание: Персональный сайт на портале магистров ДонНТУ, 2013 г.

Руководитель: к. т. н., доц. Федяев О. И.

Научные работы и статьи

Распознавание ключевых слов в потоке речи при помощи фонетического стенографа
Авторы: Пилипенко В. В.

Описание: В статье рассматривается использование фонетического стенографа для распознавания ключевых слов в потоке речи. Для моделирования фонем используются скрытые Марковские модели. Ключевое слово задается последовательностью фонем в виде транскрипции слова. Приведены результаты поиска ключевых слов в потоке речи большого количества дикторов. Предложенный подход может использоваться для поиска речевой информации в огромных массивах данных.
Integration of Speech and Action in Humanoid Robots: iCub Simulation Experiments
Авторы: Vadim Tikhanoff, Angelo Cangelos and Giorgio Metta

Описание: Статья об использовании системы распознавания речи СMU Sphinx в обучении роботов с помощью лингивстических умений и влияния окружающей среды.
Автоматизированный стенограф украинской речи
Авторы: Пилипенко В. В. , Робейко В. В.

Описание: В статье рассматривается автоматизированный стенограф для получения текста стенограммы из звукового файла на основе системы распознавания речи с участием оператора. Записанная фонограмма обрабатывается системой распознавания слитной речи многих дикторов из больших словарей (больше 10 тыс. слов). Оператор исправляет допущенные ошибки для получения текста, пригодного для дальнейшей работы. Он также вводит новые слова, не знакомые системе распознавания. На основе анализа ошибок и новых слов производится дообучение системы распознавания, что позволяет улучшать показатели надежности распознавания речи в процессе эксплуатации системы стенографирования.
Анализ методов построения систем распознавания речи на основе нейросетевых и скрытых марковских моделей
Авторы: Веренич И. В. , Федяев О. И.

Описание: Статья магистра ДонНТУ о гибридных системах распознавания речи.
Технология распознавания большого количества образов на примере распознавания речи из сверхбольших словарей
Авторы: Пилипенко В. В.

Описание: В статье рассматривается технология отбора кандидатов для распознавания изолированных слов на основе анализа результатов пофонемного распознавания речи (фонетического стенографа). Приведены результаты экспериментов с системой, содержащей практически все слова языка (около 2 млн. слов).
Использование речевых баз данных большого обьема при синтезе речи в системах искусственного интеллекта. Проблемы управления и информатики
Авторы: Людовик Т. В. , Сажок Н. Н.

Описание: В статье описывается структура синтезатора и используемый вариант конкатенативного метода синтеза речи, основанный на хранении, выборе и сглаженном склеивании предварительно записанных сегментов речи. Используются речевые БД большого объема, записанные разными дикторами. Фонетическая и просодическая информация, содержащаяся в БД, используется для поиска необходимых элементов БД.
Comparing SPHINX vs. SONIC in an Italian Children’s speech recognition system
Авторы: Mauro Nicolao, Piero Cosi

Описание: Статья о сравнении двух систем распознавания речи на примере итальянского языка, применительно к детям.
Распознавание речи в стационарных системах
Авторы: Дриленко М. В. , Луцко Н. А.

Описание: Статья студента КубГТУ об использовании распознавания речи в интерактивных системах обработки информации.
Robust speech recognition using neural networks and hidden markov model
Авторы: Dr. Casimir Kulikowski, Dr. James Flanagan (перевод с английского — Веренич И. В. )

Описание: Статья о выделении признаков из звукового сигнала и использовании скрытых марковских моделей.
Sphinx-4 — гибкая система с открытым кодом для распознавания речи
Авторы: Вилли Волкер, Пол Ламьер, Филипп Квок, Бхикша Радж, Рита Синь, Эвандро Гувеа, Питер Вульф, Джо Вьюлфель (перевод с английского — Савкова Д. Г. )

Описание: Статья об архитектуре Sphinx от ее создателей.
Распознавание речи на основе искусственных нейронных сетей
Авторы: Ле Н. В. , Панченко Д. П.

Описание: Статья об использовании искусственных нейронных сетей в распознавании речи.
Интеграция визуального и речевого способов управления текстовым редактором
Авторы: О. И. Федяев, С. А. Гладунов, И. Ю. Бондаренко.

Описание: Статья о подключении речевого интерфейса к текстовому редактору Microsoft Word.
Creating a Mexican Spanish Version of the CMU Sphinx-III Speech Recognition System
Авторы: Armando Varela, Heriberto Cuayahuitl and Juan Arturo Nolazco-Flores

Описание: Статья о создании Мексиканского Испанского CMU Sphinx-3 с обучением аккустической и N-gramm моделей языка с 23 фонемами.
Інтелектуальні голосові технології в портативних телекомунікаційних пристроях
Авторы: Р. В. Босенко, О. В. Мельничук, О. М. Овчарук, М. Є. Овчарук, В. Р. Охріменко, О. П. Рябов, М. Г. Штучка, Є. Ю. Цуркан

Описание: Статья о нескольких интеллектуальных устройствах.
Tuning a CMU Sphinx-III Speech Recognition System for Polish Language
Авторы: Marcin Plonkowski, Pavel Urbanovich

Описание: Статья о настройке системы распознавания речи CMU Sphinx для польского языка и анализ полученных результатов.
Система пофонемного автоматического распознавания команд русской речи для произвольного словаря
Авторы: Киселев В. В. , Тампель И. Б.

Описание:В статье рассматривается способ обучения контекстно-независимых и контекстно-зависимых акустических моделей для русской речи. Приводятся результаты применения полученных акустических моделей в задаче пофонемного распознавания команд.
Trainable Videorealistic Speech Animation
Авторы: Tony Ezzat, Gadi Geiger, Tomaso Poggio

Описание: Статья об обучающейся системе распознавания речи их видео с применением системы CMU Sphinx.
О перспективах создания системы автоматического распознавания слитной устной русской речи
Авторы: Д. Н. Бабин, И. Л. Мазуренко, А. Б. Холоденко

Описание:Статья о прининципиальном описании механизма автоматического распознавания речи.
Automatic Closed Caption Alignment Based on Speech Recognition Transcripts
Авторы: Chih-wei Huang

Описание: Статья об использовании системы распознавания речи СMU Sphinx во встраивании субтитров в видео.
Sphinx-4: A Flexible Open Source Framework for Speech Recognition
Авторы: Willie Walker, Paul Lamere, Philip Kwok,Bhiksha Raj, Rita Singh, Evandro Gouvea, Peter Wolf, Joe Woelfel.

Описание: Статья от разработчиков CMU Sphinx, описывающая устройство системы распознавания речи.

Техническая и справочная литература

A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition
Авторы: Lawrence R. Rabiner

Описание: Введение в скрытые марковские модели и приложения распознавания речи.
Training Acoustic Model For CMU Sphinx
Руководство о том, как собрать собственную акустическую модель.
Building Language Model For CMU Sphinx
Руководство о том, как собрать собственную языковую модель.
Sphinx-4 Application Programmer’s Guide
Руководство о работе с CMU Sphinx.
Электронный архив Донецкого национального технического университета
Материалы профессорско-преподавательского состава, сотрудников, аспирантов и магистров ДонНТУ.
Документация Sphinx4
Doxyden документация по системе Sphinx4.
Pocketsphinx. Распознавание речи и голосовое управление в Linux
Подробная инструкция как подключить Pocketsphinx в Linux.
Искусственный интеллект. Системы и модели
Cодержательный сайт об искусственном интеллекте.
Синтез и распознавание речи. Современные решения
Авторы: Фролов А. В. , Фролов Г. В. .

Описание: Обзор существующих методов распознавания речи.
Теоретические аспекты алгоритмов обработки и классификации речевых сигналов
Авторы: Аграновский А. В. , Леднов Д. А.

Описание: В книге рассматриваются методы распознавания речи и классификация речевого сигнала.
Анализ, распознавание и интерпретация речевых сигналов
Авторы: Винцюк Т. К.

Описание: В книге рассматриваются различные методы распознавания речи и проектирования системы распознавания.

Специализированные сайты и порталы

Puneet Kalra
Замечательный сайт индийского программиста о его опыте работы с CMU Sphinx.
Исходники.ру. Речевые технологии
Русскоязычный форум, где можно получить консультацию по системе Sphinx.
nsh — Speech Recognition With CMU Sphinx
Англоязычный блог Николая Шмырева об использовании CMU Sphinx.
Microsoft Tellme
Проект Microsoft, посвященный распознаванию речи.
SpeechKit SDK
Сайт, посвященный технологии распознавания речи от Яндекса.
Распознавание речи с помощью Sphinx-4
Статья о использовании Sphinx-4.
Розпізнавання та синтез мовлення в Україні
Сайт, посвященный разработке распознавателей речи в Украине.
Sakrament. Синтез и распознавание речи
Сайт одного из ведущих мировых разработчиков программного обеспечения в области обработки звука и речи.
Dragon NaturallySpeaking
Лучший продукт для набора текста голосом. Точность распознавания достигает 99%.
Цифровая обработка сигналов
Сайт российского научно-технического журнала по цифровой обработке сигналов. Издается ежеквартально с 1999 года.
Около программистский блог
Сайт содержащий подборку ссылок на книги и статьи по распознаванию речи.
Показатели эффективности внедрения системы распознавания речи Nuance Call Steering в call-центре «Аэрофлота»
Статья о внедрении в российскую авиакомпанию системы автоматического распознавания речи для бронирования билетов.
Speechblog — профессиональный блог о речевых технологиях
Блог посвященный речевым технологиям в call-центрах.
Quick Notes
Блог содержащий полезную информация о распознавании речи с помощью CMU Sphinx.
Google voice search
Сайт голосового поиска в Google.
Habrahabr
Сайт содержащий множество статей и блогов на тему распознавания речи.

Средства построения систем распознавания речи

CMU Sphinx
Официальный сайт системы CMU Sphinx.
HTK
Официальный сайт системы HTK.
Voxforge
Официальный сайт открытой аудиобазы Voxforge.
Julius
Официальный сайт инструментальной системы Julius.
TIMIT
Официальный сайт речевого корпуса TIMIT.
NIST
Официальный сайт NIST. Инструменты для построения корпуса и языковых моделей.
RWTH ASR
Официальный сайт системы распознавания речи RWTH ASR.
Simon
Официальный сайт системы распознавания речи Simon.
PAHLT
Официальный сайт системы распознавания речи Simon.
Google Web Speech API Specification
Официальная документация к API распознавания речи Google.
Yandex Speechkit
Официальная документация к API распознавания речи Yandex.
Microsoft Specch Technologies
Официальная документация к API распознавания речи Microsoft.

Вспомогательные средства для построения систем распознавания речи на базе Sphinx

SoX
Open source инструмент для преобразования звуковых файлов в различные форматы.
Java
Официальный сайт Java. Пригодится т.к. система распознавания речи написана с помощью этого ЯП.
Eclipse
Официальный сайт Eclipse. Эта среда разработки значительно упрощает разработку системы распознавания речи.
Java swing
Java для начинающих, использование swing.
Sublime Text 3
Продвинутый текстовый редактор. Всегда пригодится для быстрого редактирования кода.

Бакаленко Валерий Сергеевич

Факультет компьютерных наук и технологий

Кафедра прикладной математики и информатики

Специальность Инженерия программного обеспечения

Интеллектуализация ввода-вывода кода программы на основе речевых технологий

Научный руководитель: к. т. н., доц. Федяев Олег Иванович

Ссылки по теме выпускной работы

Материалы магистров ДонНТУ

Научные работы и статьи

Техническая и справочная литература

Специализированные сайты и порталы

Средства построения систем распознавания речи

Вспомогательные средства для построения систем распознавания речи на базе Sphinx