ГЛУБОКОЕ МАШИННОЕ ОБУЧЕНИЕ И НЕЙРОННЫЕ : ОБЗОР

Авторы: Chandrahas Mishra, D. L. Gupta

Источник (англ.): AES International Journal of Artificial Intelligence, access link: https://www.researchgate.net/publication/332578851_Deep_Machine_Learning_and_Neural_Networks_An_Overview

Автор перевода:Бершадская О.А

Чандрахас Мишра, Д. Л. Гупта

Факультет компьютерных наук и инженерии, KNIT Sultanpur2, Индия

1. ВВЕДЕНИЕ

1.1 Машинное обучение

Обучение – это процесс, в ходе которого осуществляется связь событий с последствиями. Таким образом, по сути, обучение –это способ обосновать принцип причины и следствия. Наука о проектировании интеллектуальной машины называется машинным обучением, а инструментом, используемым для проектирования такой интеллектуальной машины, являются нейронные сети. Нейронную сеть можно рассматривать как черный ящик, который выдает некоторый желаемый результат на заданные входные данные. Это достигается с помощью процесса, называемого обучением.

В отличие от большинства традиционных методов обучения, которые рассматриваются с использованием архитектур обучения с мелкой структурой, глубокое обучение относится к методам машинного обучения, которые используют контролируемые и/или неконтролируемые стратегии для автоматического изучения иерархических представлений в глубоких архитектурах для классификации. Вдохновленное биологическими наблюдениями за механизмами обработки естественных сигналов человеческим мозгом, глубокое обучение в последние годы привлекло большое внимание академического сообщества благодаря своим современным достижениям во многих областях исследований, таких как распознавание речи, коллаборативная фильтрация и компьютерное зрение. Глубокое обучение также эффективно используется в отраслевых продуктах, использующих огромный объем передовой информации. Такие компании, как Google, Apple и Facebook, которые ежедневно собирают и анализируют огромные объемы данных, активно продвигают проекты, связанные с глубоким обучением. Например, Siri от Apple, виртуальный персональный ассистент в iPhone, предлагает широкий спектр услуг, включая сводки погоды, спортивные новости, ответы на вопросы пользователей, напоминания и т.д., используя глубокое обучение и все больше данных, собираемых сервисами Apple. Google применяет алгоритмы глубокого обучения к огромным массивам запутанных данных, полученных из Интернета, для переводчика Google.

Глубокое обучение относится к классу методов ML, где многие уровни этапов обработки информации в иерархических архитектурах используются для неконтролируемого изучения признаков и классификации шаблонов. Она находится на пересечении таких областей исследований, как нейронные сети, графическое моделирование, оптимизация, распознавание образов и обработка сигналов. Двумя важными причинами популярности глубокого обучения сегодня являются значительно сниженная стоимость вычислительного оборудования и резко возросшие возможности обработки данных чипами (например, графическими процессорами). С 2006 года исследователи демонстрируют успех глубокого обучения в различных приложениях компьютерного зрения, фонетического распознавания, голосового поиска, распознавания спонтанной речи, кодирования признаков речи и изображений, семантической классификации высказываний, распознавания рукописного текста, обработки звука, поиска информации и робототехники. Прежде чем подробно рассмотреть различные парадигмы машинного обучения, приведем краткую классификацию. Мы используем четыре ключевых признака для классификации парадигм машинного обучения.

1.2.   Генеративное обучение

Генеративное обучение и дискриминативное обучение - две наиболее распространенные, антагонистически сопряженные парадигмы ML, разработанные и внедренные в ASR (автоматическое распознавание речи). Есть два ключевых фактора, которые отличают генеративное обучение от дискриминативного: природа модели (и, следовательно, функция принятия решения) и функция потерь (т.е. основной термин в цели обучения). Вкратце, генеративное обучение состоит из

Использования генеративной модели и

Принятие целевой функции обучения, основанной на совместной потере вероятности, определенной в генеративной модели. Дискриминативное обучение, с другой стороны, требует либо

Использования дискриминативной модели, либо

Применение целевой функции дискриминативного обучения к генеративной модели.

В этом и следующих разделах мы обсудим генеративное и дискриминативное обучение как с точки зрения модели, так и с точки зрения функции потерь. Хотя исторически существовала тесная связь между моделью и функцией потерь, выбранной для обучения модели, в литературе не было необходимого сочетания этих двух компонентов

1.3.   Дискретное обучение

Как обсуждалось ранее, парадигма дискриминационного обучения предполагает либо использование дискриминационной модели, либо применение дискриминационного обучения к генеративной модели. В этом разделе мы сначала приведем общее обсуждение дискриминативных моделей и функций дискриминативных потерь, используемых в обучении, за которым последует обзор использования дискриминативного обучения в приложениях ASR, включая его успешный гибрид с генеративным обучением.

Модели:

Дискриминативные модели напрямую используют условное соотношение меток, заданных входными векторами.

Одна из основных школ таких моделей называется байесовскими классификаторами минимального риска (BMR). Показано в уравнении 1.

Функции потерь:

В этом разделе представлен ряд дискриминативных функций потерь. Первая группа функций потерь основана на вероятностных моделях, в то время как вторая группа - на понятии маржи.

Потери, основанные на вероятности: Аналогично потере совместного правдоподобия, обсуждавшейся в предыдущем разделе о генеративном обучении, потеря условного правдоподобия является функцией потерь, основанной на вероятности, но определяется на основе условного отношения меток классов, заданных входными признаками. Показано в уравнении 2:

Эта функция потерь тесно связана с вероятностными дискриминационными моделями, такими как условные логарифмические линейные модели и MLP, в то время как они могут быть применены и к генеративным моделям, что приводит к школе методов дискриминационного обучения, которые будут обсуждаться вскоре. Более того, потеря условного правдоподобия может быть естественным образом распространена на прогнозирование выходных данных структуры. Например, применяясь к марковским случайным полям, мы получаем цель обучения условных случайных полей (CRFs): по уравнению 3

Обратите внимание, что в большинстве литературы по ML, а также по ASR метод обучения,

использующий приведенную выше потерю условного правдоподобия, часто называют просто оценкой максимального правдоподобия (MLE).

Обобщением потери условного правдоподобия является обучение минимальному байесовскому риску. Это согласуется с критерием классификаторов MBR, описанным в предыдущем подразделе. Функция потерь (MBR) при обучении задается уравнением 4

1.4   Полу-контролируемое и активное обучение

Предыдущий обзор генеративной и дискриминативной парадигм ML использует атрибуты функций потерь и принятия решений для организации множества методов ML. В этом разделе мы используем другой набор атрибутов, а именно природу обучающих данных по отношению к их меткам классов. В зависимости от того, как помечены обучающие выборки или иным образом, мы можем классифицировать многие существующие методы ML на несколько отдельных парадигм, большинство из которых использовались в практике ASR. Контролируемое обучение предполагает, что все обучающие образцы помечены, в то время как неконтролируемое обучение не предполагает их наличия. Обучение под наблюдением, как следует из названия, предполагает наличие как помеченных, так и немаркированных обучающих образцов. Контролируемое, неконтролируемое и полуконтролируемое обучение обычно упоминается в настройках пассивного обучения, где помеченные обучающие выборки генерируются случайным образом в соответствии с неизвестным распределением вероятностей. Напротив, активное обучение - это среда, в которой учащийся может разумно выбирать, какие образцы маркировать, что мы обсудим в конце этого раздела. В этом разделе мы сосредоточимся в основном на парадигмах полу-контролируемого и активного обучения. Это связано с тем, что контролируемое обучение достаточно хорошо изучено, а неконтролируемое обучение напрямую не направлено на прогнозирование результатов на основе входных данных (и, следовательно, выходит за рамки данной статьи). Мы лишь вкратце рассмотрим эти две темы.

1.4.1. Обучение под наблюдением

При контролируемом обучении обучающий набор состоит из пар входных и выходных данных, полученных из совместного распределения. Используя обозначения, введенные уравнением 5:t consists of pairs of inputs and outputs drawn from a joint distribution. Using notations introduced by equation 5:

Целью обучения снова является эмпирическая минимизация рисков с помощью регуляризации, т.е. когда предоставляются как входные данные, так и соответствующие выходные метки. Обратите внимание, что может существовать несколько уровней переменных меток, особенно в ASR. В этом случае мы должны различать полностью контролируемый случай, когда известны метки всех уровней, и частично контролируемый случай, когда метки на определенных уровнях отсутствуют. Например, в ASR часто бывает так, что обучающий набор состоит из сигналов и соответствующего им уровня слов транскрипции в качестве меток, в то время как транскрипции на уровне телефона и информация о временном выравнивании между сигналами и соответствующими телефонами отсутствуют.

1.4.1.   Обучение без присмотра

В ML неконтролируемое обучение в целом относится к обучению только с использованием входных данных. Эта парадигма обучения часто направлена на создание представлений входных данных, которые могут быть использованы для прогнозирования, принятия решений или классификации, а также сжатия данных. Например, оценка плотности, кластеризация, анализ основных компонентов и независимый анализ компонентов - все это важные формы обучения без присмотра. Использование векторного квантования (VQ) для обеспечения дискретных входных данных в ASR является одним из ранних успешных применений неконтролируемого обучения в ASR [8]. Совсем недавно неконтролируемое обучение было разработано как компонент поэтапной гибридной генеративно-дискриминативной парадигмы в ML. Эта новая методика, основанная на фреймворке глубокого обучения, начинает оказывать влияние на ASR. Изучение разреженных речевых репрезентаций, о которых пойдет речь, также можно рассматривать как неконтролируемое изучение признаков или изучение репрезентаций признаков в отсутствие классификационных меток.

1.4.2.   Полуконтролируемое обучение

Парадигма полуконтролируемого обучения имеет особое значение как в теории, так и в приложениях.

Во многих приложениях ML, включая ASR, имеется множество немаркированных данных, но маркировка является дорогостоящей и отнимает много времени. Возможно и часто полезно использовать информацию из немаркированных данных для влияния на процесс обучения. Обучение под наблюдением ориентировано именно на этот тип сценариев и предполагает наличие как помеченных, так и немаркированных данных, т.е. данных, заданных уравнением 6:

1.4.3. Полуконтролируемое обучение

Парадигма полуконтролируемого обучения имеет особое значение как в теории, так и в приложениях.
Во многих приложениях ML, включая ASR, имеется множество немаркированных данных, но маркировка
является дорогостоящей и отнимает много времени. Возможно и часто полезно использовать информацию из
немаркированных данных для влияния на процесс обучения. Обучение под наблюдением ориентировано
именно на этот тип сценариев и предполагает наличие как помеченных, так и немаркированных данных, т.е.
данных, заданных уравнением 6:
(6)

Цель состоит в том, чтобы использовать оба источника данных для повышения эффективности обучения. В литературе было предложено большое количество алгоритмов обучения с полууправлением и различные способы группировки этих подходов. Здесь мы классифицируем методы обучения с полууправлением на основе их индуктивной или трансдуктивной природы. Ключевым различием между индуктивным и трансдуктивным обучением является результат процесса обучения. В первом случае цель состоит в том, чтобы найти решающую функцию, которая не только правильно классифицирует выборки обучающего набора, но и обобщает на любую будущую выборку. Напротив, трансдуктивное обучение направлено на прямое предсказание выходных меток тестового набора без необходимости обобщения на другие выборки. В связи с этим прямым результатом трансдуктивного обучения под наблюдением является набор меток вместо функции принятия решения. Все представленные нами парадигмы обучения носят индуктивный характер.

1.5. Искусственная нейронная сеть

Искусственная нейронная сеть - это взаимосвязанная группа узлов, отдаленно связанная с обширной сетью нейронов в головном мозге, показанной на рис. 1. Здесь каждый круговой узел представляет искусственный нейрон, а стрелка представляет соединение от выхода одного нейрона к входу другого, которое должно (в идеале) быть в состоянии справиться с этим. Искусственная нейронная сеть состоит из трех типов слоев, а именно входного слоя, скрытого слоя и выходного слоя. Скрытый слой соединен между входным и выходным слоями.

Рис. 1. Архитектура искусственной нейронной сети

Рекомендации

Чаритонюк Виктор, Бокс Э. Дон, Ли Вэй-Джен, Мо-Шинг, Котас Чен Пол и Олинда Питер Ван, “Прогнозирование спроса на основе нейронных сетей в нерегулируемой среде”, IEEE О применении в промышленности, Том 36, № 3, май/июнь 2000 г.

Чжан Гоцян Питер, “Нейронные сети для классификации: обзор”, IEEE О системах, Человеке и Кибернетике — Часть С: Приложения и обзоры, Том 30, № 4, Ноябрь 2000 г.

Санкар К. Пал, Варун Талвар и Пабитра Митра, “Веб-майнинг в среде мягких вычислений: актуальность, современное состояние и направления на будущее”, IEEE О нейронных сетях, Том 13, № 5, сентябрь 2002 г.

Сушмита Митра, Йоичи Хаяси, “Биоинформатика с использованием мягких вычислений”, IEEE Trans. О системе, человеке и кибернетике — Часть С: Применение и обзоры, Том 36, № 5, сентябрь 2006 г.

Туи Т.Т. Нгуен и Гренвилл Армитидж, “Обзор методов классификации интернет-трафика с использованием машинного обучения”, IEEE Communications Surveys & Tutorials, Том 10, № 4, Четвертый квартал 2008 года.

Вэй-Ян Лин, Я-Хан Ху Чи-Фонг Цай, “Машинное обучение в прогнозировании финансового кризиса: обзор”, IEEE О системе, человеке и кибернетике — Часть С: Применение и обзоры, Том 42, № 4, июль 2012 г.

Марио Бкассини, Ян Ли, Судхарман К. Джаявира, “Обзор методов машинного обучения в когнитивных радиостанциях”, IEEE Communications Surveys & Tutorials, Том 15, № 3, Третий квартал 2013 года.

Ли Дэн, Сяо Ли, “Парадигмы машинного обучения для распознавания речи: обзор”, IEEE Trans по обработке аудио, речи и языка, Том 21, № 5, май

Дайчжань Чэн, Хуншенг Ци, “Анализ пространства состояний булевых сетей”, IEEE О нейронных сетях, Том 21, № 4, апрель 2010 г.

Йошуа Бенгио, Аарон Курвиль и Паскаль Винсент, “Обучение репрезентации: обзор и новые перспективы”, IEEE Об анализе паттернов и машинном интеллекте, Том 35, № 8, август 2013 г.

Сюэ-Вэнь Чен, Сяотун Лин, “Глубокое обучение большим данным: проблемы и перспективы”, идентификатор цифрового объекта 10.1109/IEEE 2014.2325029.

http://cs231n.github.io/convolutional-networks/#overview

http://image.slidesharecdn.com/deep-belief-nets1166/95/deep-belief-nets-3-jpg?cb=1272282825