Реферат по теме выпускной работы
Содержание
- Введение
- 1. Актуальность темы
- 2. Цель и задачи исследования
- 3. Планируемые результаты
- 4. Предполагаемая научная новизна
- 5. Обзор исследований и разработок
- 6. Общее описание системы сокрытия информации
- 7. Метод лингвистической стеганографии, основанный на генерировании осмысленного текста
- Выводы
- Список источников
Введение
Сегодня в сети передается огромное количество файлов различных типов: цифровые фотографии, видео, музыка и многие другие. Однако наибольшей интенсивностью потоков передачи обладает как раз таки текстовая информация. Большинство людей пользуется электронной почтой, пишет комментарии на различных форумах, огромное количество новостных статей пополняют ежедневно страницы информационных сайтов. Такое количество нескончаемой текстовой информации дает возможность для внедрения в нее и дальнейшую передачу секретного сообщения.
1. Актуальность темы
Методам скрытой передачи информации в текстовых документах посвящено такое направление в технологиях скрытой передачи информации как лингвистическая стеганография. Отличительной особенностью данного направления является то, что в качестве контейнеров используются обычные открытые тексты [1]. Причем данные тексты должны быть абсолютно «безобидны» внешне, то есть не вызывать у читающего данное сообщение подозрения о содержащемся в нем секретном послании.
Под лингвистической стеганографией надо понимать скрытое кодирование произвольной информации в произвольном несущем тексте с опорой на нетривиальные лингвистические идеи и ресурсы.
Понятно, что столь важное в небезопасном мире приложение лингвистики привлекает внимание кругов, далеких от науки: дистрибьюторов софтвера (им надо запрятать в передаваемом покупателю продукте уникальный номер продажи), брокеров (им надо сообщить тайком об изменении какого-то курса или рейтинга), дипломатов (им надо выявить источник утечки государственно важной информации), сотрудников спецслужб (здесь пояснения излишни) [2].
Основным плюсом лингвистической стеганографии (что и объясняет ее набирающую обороты актуальность в современном мире) является то, что в отличие от остальных видов стеганографии, секретное сообщение может быть передано как угодно: через электронное послание, написанное от руки или даже переданное в разговоре.
2. Цель и задачи исследования
Основной целью данной магистерской работы является разработка системы сокрытия текстовой информации на основе лингвистических ресурсов, а именно методом лингвистической стеганографии, основанном на генерировании осмысленного текста.
Для выполнения поставленной цели служат следующие задачи:
- проанализировать состояние вопроса и изучить литературные источники по методам защиты информации;
- разработать алгоритм сокрытия информации в текстовом файле с применением базы данных;
- разработать базу правил (шаблоны предложений) и базу знаний (словарь);
- создать программное приложение стеганографической системы внедрения скрытой информации;
- провести анализ эффективности метода.
Объектом исследования данной работы является моделирование системы сокрытия текстовой информации, используя метод генерирования осмысленного текста.
Предмет исследования — сокрытие сообщения в текстовом контейнере для последующей передачи этой информации.
Методы исследования и используемые технологии — реализация алгоритма сокрытия и извлечения текстовой информации средствами объектно-ориентированного языка Java.
3. Планируемые результаты
В рамках магистерской работы планируется разработать стеганографическую систему сокрытия текстовой информации, основанную на генерировании тематического осмысленного текста.
4. Предполагаемая научная новизна
В данной работе планируется создать стеганографическую систему с использованием генератора осмысленного текста. Предполагаемая научная новизна заключается в создании генератора русскоязычных текстов, который впоследствии будет модифицирован в систему сокрытия информации.
Решить поставленную задачу для текстов на русском языке в действительности значительно сложнее, нежели для текстов на английском языке. Здесь можно выделить два основных фактора, приводящих к усложнению задачи. Первым из них является неоднозначное использование слов в русском языке. В различном контексте одни и те же слова могут нести совершенно различную смысловую нагрузку. Вторым фактором является широкое использование в русском языке большого количества окончаний слов. Если при построении стеганографической системы не учитывать хотя бы один из этих факторов, результирующий текст будет носить явно несогласованный характер, что является очевидным демаскирующим признаком [1].
5. Обзор исследований и разработок
В ДонНТУ вопросами лингистической стеганографии занималась Ларионова Кристина Евгеньевна. Тема ее магистерской работы: «Методы кодирования произвольной информации в компьютерных текстах на основе лингвистических ресурсов» [3]. В работе был разработан стеганографический алгоритм использования синонимов. В нем слова заменяются своими синонимами согласно контекста. Контекстом считается набор словосочетаний, в которое входит слово, которое надо заменить.
Предложенный в работе [3] стеганографический алгоритм имеет два входа:
1) текст, предназначенный для скрытия;
2) текст-контейнер с минимальным объемом, примерно в 200 раз превосходящим объем скрываемой информации.
В настоящей работе планируется усовершенствовать алгоритм, описанный выше. В частности в модифицированном алгоритме планируется сделать только один вход, а именно, скрываемое сообщение. Текст-контейнер программа сгенерирует автоматически с использованием созданного предварительно словаря.
К сожалению, исследования в области лингвистической стеганографии в Украине носят незначительный локальный характер: в частности в некоторых сборниках встречаются лишь некоторые обзоры по данной теме.
В международном масштабе следует выделить Большакова И. А., почетного профессора Национального политехнического института Мексики, который одним из первых развил идею лингвистической стеганографии с применением словаря синонимов, представленной в работах [2, 9].
Данную идею также развивал Алиев А.Т. из г. Ростов-на-Дону. В его докладе «Стеганографический метод синонимичных преобразований для текстов на русском языке» рассматривается метод скрытой передачи информации в осмысленных текстах на основе замены синонимов. Основной задачей являлась реализация данного метода для текстов на русском языке. Для решения этой задачи проводился анализ особенностей русского языка, строились специальные словари синонимов для разных частей речи, предлагались алгоритмы сокрытия и извлечения информации с учетом частотных свойств русского языка.
Что касается готовых разработок, то реализацией метода лингвистической стеганографии на английском языке является сайт Spam mimic, зайдя на который любой пользователь может зашифровать короткое сообщение конфиденциального характера под спам-письмо — электронное послание в основном рекламного содержания [4]. Ресурс работает следующим образом: пользователь заходит на сайт, кликает на ссылку "encode" (зашифровать), вводит в небольшое окошко текст, нажимает на кнопку "Encode", и через несколько мгновений получает готовое электронное спам-послание, которое теперь можно скопировать и отправить по электронной почте. Пользователь, для которого этот текст предназначен, естественно, должен быть осведомлен, что ему прислали "шифровку". Скопировав письмо и проделав все действия в обратном порядке, получатель имеет декодированное послание. Для проверки работы программы в поле ввода было написано слово «hello». На выходе получился текст из 199 слов и 994 знаками (с пробелами). Данные результаты представлены на рисунках 1 и 2 соответственно.
Следует отметить, что на русском языке подобных программных продуктов обнаружено не было, что свидетельствует об уникальности планируемой магистерской работы. Однако, не смотря на это, было найдено несколько программ, способных генерировать русский осмысленный текст, что по сути является основой предлагаемого метода лингвистической стеганографии. Ниже представлены данные программы-генераторы текстов [5].
Russian Word Constructor (Дмитрий Кирсанов) — экспериментальная программа для генерации русскоязычных стихоподобных текстов ("инструмент поэта"). Программа способна конструировать русские неологизмы на основе заданного словаря с лексико-статистической информацией. Несмотря на свою "древность", программа интересная и может позабавить своими словесными изобретениями. Прилагается утилита для создания авторских рабочих словарей.
Письмовник (MediaLingua Ltd., 1995-2002) — автоматическое составление и перевод (русско-английский/англо-русский) деловых писем и документов.
Яндекс.Рефераты — On-line генератор текстов на различные задаваемые темы, созданный компанией Яndex [6].
Генератор стихов им. А.С. Пушкина — On-line генератор стихотворений, созданный компанией Яndex [7].
6. Общее описание системы сокрытия информации
Стеганографическая система (стегосистема) — объединение методов и средств, используемых для создания скрытого канала для передачи информации. При построении такой системы условились о следующем.
- Враг представляет работу стеганографической системы. Неизвестным для противника является ключ, с помощью которого можно узнать о факте существования и содержания тайного сообщения.
- При обнаружении противником наличия скрытого сообщения он не должен суметь извлечь сообщение до тех пор, пока он не будет владеть ключом.
- Противник не имеет технических и прочих преимуществ [8].
Схема работы системы представлена на рисунке 3.
Вначале отправитель набирает сообщение, которое он хотел бы зашифровать и передать. Затем текст сообщения преобразовывается в битовую последовательность и направляется в БД (базу данных) (1), где по созданному заранее словарю и базе правил собираются слова в предложения, относительно поставленных им в соответствие двоичного «0» или двоичной «1» скрываемого сообщения. На выходе из базы данных пользователь получает готовый зашифрованный текст (2). Этот текст отправляется получателю. Получатель, открыв письмо направляет текст в базу данных (3). Там текст сопоставляется со словарем и дешифруется. Из базы к пользователю приходит расшифрованное сообщение (4). В данном случае ключом стеганографической системы служит база данных, которая имеется только у отправителя и получателя. Это наиболее общее описание взаимодействия элементов системы.
7. Метод лингвистической стеганографии, основанный на генерировании осмысленного текста
Суть предлагаемого метода заключается в том, что чтобы максимально приблизить генерируемый текст к естественному изначально формируются шаблоны предложений и словарь. Таким образом, при шифровании потока данных вначале случайным образом выбирается шаблон предложения, а затем по нему из словаря подбираются слова согласно кодировке шифруемого сообщения.
Однако, если при формировании шаблонов особых трудностей не возникает, то при создании словаря необходимо учитывать особенности русского языка.
В русском языке слова довольно редко употребляются без соответствующих окончаний, позволяющих согласовать данное слово с его окружением в тексте. Для решения этой проблемы предлагается разбить словарь на отдельные таблицы в соответствии с частями речи, а также с падежами, родом, числом, склонением и спряжением.
Таким образом, данный метод создает бинарное дерево и составляет текст, выбирая те из листьев дерева, которые кодируют нужный бит.
К примеру, необходимо закодировать комбинацию «100».
Следует сгенерировать текст согласно шаблону предложения:
Подлежащее Сказуемое Дополнение
Имеется база к подлежащему (Мария, Ольга); база к сказуемому (Купила, Приобрела) база к дополнению (Платье, Сарафан).
0: Мария 1:Ольга
0: Купила 1:Приобрела
0: Платье 1:Сарафан
Таким образом, получается предложение: Ольга купила платье.
Безусловно, для реализации данного метода необходимо грамотно и четко составить словарь, ведь устойчивость метода, генерирующего стеготекст, подобный естественному, обеспечивается заданными правилами грамматики.
Отсутствие грамматических и орфографических ошибок в предложениях делает затруднительным поиск отличий искусственного текста от естественного. Анализ осмысленности текста можно производить только с участием человека, что не всегда возможно из-за огромного объема анализируемой информации. Наиболее эффективный метод анализа использует прогнозирование для выявления искусственной природы текста, порожденного программой Nicetext. Сначала производится анализ слов первой половины текста и составляется прогноз каждого последующего слова из второй части текста. Если в подавляющем большинстве случаев прогноз оказывается успешным, то это означает, что мы имеем дело с естественным текстом. Частые ошибки при прогнозировании могут свидетельствовать о наличии искусственного текста. Для программ Texto и Markov-Chain-Based используются методы, учитывающие корреляцию слов между предложениями. Так, считается, что предложения, содержащие слова, встречающиеся только в технических текстах, не могут стоять рядом с предложениями, содержащими слова, встречающиеся только в текстах художественной литературы [10]. Поэтому рекомендуется в изложенном выше методе разделять словари по различным темам. Это необходимо для того, чтобы при генерировании текста тематика его предложений была едина.
Выводы
Данный материал будет положен в основу разработки системы сокрытия информации, базирующейся на методе лингвистической стеганографии. Настоящий метод является усовершенствованием метода замены синонимов, описанного в работе [3]. Предложенная система может стать принципиально новой для работы с текстами на русском языке.
При написании данного реферата магистерская работа ещё не завершена. Окончательное завершение: декабрь 2014 г. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Список источников
- Алиев А.Т. Лингвистическая стеганография на основе замены синонимов для текстов на русском языке / А.Т. Алиев // Известия ЮФУ.Технические науки № 11, — 2010, — C. 163-170.
- Большаков И.А. Использование синонимов, ограниченных контекстными словосочетаниями, для целей лингвистической стеганографии / И.А. Большаков, — 2004, — C. 23-29.
- Ларионова К.Е. Методы кодирования произвольной информации в компьютерных текстах на основе лингвистических ресурсов [Электронный ресурс] — Режим доступа: http://masters.donntu.ru/2009/fvti/...
- Spam mimic маскирует тайную переписку под спам [Электронный ресурс] — Режим доступа: http://daily.sec.ru/2000/12/19/Spam-mimic...
- Каталог лингвистических программ и ресурсов в Cети [Электронный ресурс] — Режим доступа: http://www.rvb.ru/soft/...
- Яндекс.Рефераты [Электронный ресурс] — Режим доступа: http://referats.yandex.ru
- Генератор стихов им. А.С. Пушкина [Электронный ресурс] — Режим доступа: http://referats.yandex.ru/pushkin/
- Стеганография. Материал из Википедии — свободной энциклопедии [Электронный ресурс] — Режим доступа: http://ru.wikipedia.org/wiki/Стеганография
- Большаков И.А. Кросслексика: универсум связей между русскими словами / И.А. Большаков // Бизнес-информатика №3(25) — 2013, — C. 19-26.
- Нечта И.В. Разработка методов обеспечения безопасности использования информационных технологий, базирующихся на идеях стеганографии. Автореферат [Электронный ресурс] — Режим доступа: www.sibsutis.ru/...