УДК 003.26

Сравнительный анализ методов лингвистической стеганографии

Авторы: Медгаус С.В., Губенко Н.Е.

Источник: Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2016): сборник научных трудов I научно-практической конференции (студенческая секция). 16-17 ноября 2016 г. – Донецк, ГОУ ВПО «Донецкий национальный технический университет», 2016. с. 266 – 269. [ссылка на сборник]

Аннотация: В тексте данной статьи анализируются существующие методы лингвистической стеганографии и делаются выводы об эффективности каждого из методов. Предлагается выбор наиболее эффективных стеганографических методов.
Ключевые слова: стеганография, лингвистическая стеганография, скрытая передача, шифрование.

Введение

На протяжении всей истории человечества возникала необходимость в сокрытии передаваемой информации в тайне от окружающих. Эта информация могла быть стратегически важной и для её защиты применялись различные методы стеганографии и шифрования.

Шифрование скрывало содержание сообщения, то есть потенциальный враг мог перехватить сообщение и увидеть, что оно зашифровано, но для расшифровки необходимо было знание метода шифрования и ключа. Стеганография же скрывает сам факт передачи сообщения (от лат. стеганос – скрытый, графо – писать) [1]. Нужное сообщение встраивается каким-либо образом в контейнер (текст, аудио или видеофайл) таким образом, чтобы люди, незнающие, что передаваемое сообщение содержит что-то секретное, не заподозрили факт передачи.

Для повышения эффективности сокрытия данных при скрытой передаче принято использовать комбинацию криптографии и стеганографии, то есть сначала зашифровать сообщение, а потом встроить его в контейнер. Стегосистема – это совокупность средств и методов, которые используются для формирования скрытого канала передачи информации. Сообщение – это любая информация, подлежащая скрытой передаче. В качестве сообщения может использоваться любой вид информации: текст, изображение, аудио сигнал. Скрытое сообщение – это сообщение, встроенное в контейнер. Контейнер – это информация в любой форме, предназначенная для скрытия сообщения. Выбор вида контейнера оказывает существенное влияние на надёжность стегосистемы и возможность обнаружения факта передачи скрытого сообщения [2]. На рис. 1 [3] представлена известная структурная схема стегосистемы.

Структурная схема стегосистемы
Рисунок 1 – Структурная схема стегосистемы

Целью данной работы является проведение сравнительного анализа существующих методов лингвистической стеганографии, а также заключение о лучшем методе или их комбинации.

1 Анализ методов стеганографии

Существуют несколько видов стеганографии: классическая, компьютерная и лингвистическая.

Классическая стеганография представляет методы сокрытия информации, которые использовались древними людьми для сокрытия факта передачи сообщения: симпатические чернила, акростихи и решётки, которые кладут на текст сообщения.

Компьютерная стеганография получила своё развитие при появлении и использовании компьютеров для коммуникации людей. Этот тип стеганографии включает методы, которые встраивают данные в различные аудио-, видеофайлы и изображения таким образом, чтобы сам контейнер сильно не изменился.

Лингвистическая стеганография специализируется на встраивании сообщений в текстовые контейнеры. В тексте данной статьи рассматриваются, анализируются и сравниваются такие методы лингвистической стеганографии: метод произвольного интервала, метод выровненного текста, метод изменения пунктуации, метод изменения стиля и структуры текста или перефразирование, графематический метод сокрытия и жаргон [4].

1.1 Метод произвольного интервала

Данный метод заключается в добавление некоторого количества пропусков (пробелов, знаков табуляции) между словами или предложениями. [4] Алгоритм метода приведён на рис. 2. Анализ алгоритма показывает, что реализация этого метода достаточно проста, но и обнаружение факта сокрытия тоже несложное.

Алгоритм метода произвольного интервала
Рисунок 2 – Алгоритм метода произвольного интервала

1.2 Метод выровненного текста

Этот метод заключается в добавлении чётного или нечётного количества пробелов между слов в строках для получения выровненного текста, где чётное количество, например, кодируется 0, нечётное – 1. Реализация данного метода проста, но этот метод неудобно применять, так как много программ могут потерять количество пробелов во время передачи или сохранения файла. Более того, существуют текстовые редакторы, которые удаляют лишние пробелы в тексте, что тоже может плохо повлиять на правильную передачу сообщений [4].

1.3 Метод изменённой пунктуации

Данный метод заключается в замене некоторых знаков пунктуации на их словесные аналоги. Например, в перечислениях можно писать перечисляемые слова через запятую, а можно использовать союз и. Ещё можно заменять : на такие как и так далее. Такой способ тоже можно использовать для кодирования бинарных чисел [4].

1.4 Перефразирование

Этот метод частично изменяет текст, меняя местами главное и придаточное предложение. Например, предложение Я выходил из дома, когда зазвонил телефон заменяется на Когда зазвонил телефон, я выходил из дома. Смысловое наполнение предложение сильно не меняется, однако таким методом можно, как и в методах, указанных раннее, кодировать бинарные числа для передачи сообщений [4].

1.5 Графематический метод

Данный метод заключается в замене букв из одного языка на буквы из другого языка или символы. Например, о(рус.) – o(англ.), а(рус.) – a(англ.). В компьютерном представлении это будут различные символы, а на экране отображение текста не поменяется. Можно кодировать бинарные числа, если принимать, что русская буква – 0, а английская буква – 1. В данном методе можно использовать несколько языков для получения большего количества подстановок и соответственно большей возможности для кодирования. Этот метод достаточно хорош, однако он применим только для передачи электронных сообщений [4]. Алгоритм данного метода представлен на рис. 3.

Алгоритм графематического метода
Рисунок 3 – Алгоритм графематического метода

1.6 Жаргон

Этот метод может дать неоднозначные результаты при его применении, так как для его реализации нужен словарь жаргонизмов, на которые менять обычные слова. Однако этот метод легко узнаваем и слова из жаргона будет видно. Пример слов-жаргонизмов: капуста - деньги. Такой вид жаргона легко узнать, но, если заменять слова обычными синонимами, тогда факт передачи сообщения будет тяжелее обнаружить. Для такого сокрытия понадобится заранее условленный словарь синонимов [5].

1.7 Сравнение методов

После анализа приведённых выше методов лингвистической стеганографии, была составлена сравнительная таблица, учитывающая следующие характеристики: сложность реализации, сложность обнаружения, сложность внедрения и извлечения сообщения из контейнера. Каждый метод оценивается баллами от 1 до 3 в зависимости от веса соответствующего критерия в нём (см. табл. 1).

Таблица 1. Сравнительная характеристика методов лингвостеганографии

Критерии Методы лингвистической стеганографии
Произвольный интервал Выровненный текст Изменённая пунктуация Перефразирование Графематика Жаргон
Сложность реализации 1 1 2 3 1 2
Сложность внедрения и извлечения сообщения 1 1 2 3 2 3
Сложность обнаружения 1 1 2 3 3 3

Выводы

При проведении исследования были проанализированы различные методы лингвистической стеганографии, а также была построена сравнительная таблица вышеуказанных методов. Они сравнивались по сложности реализации, сложности внедрения и извлечения сообщений и сложности обнаружения. Как выяснилось, методы, которые труднее в реализации и во внедрении и извлечении сообщений, лучше защищают сообщение от обнаружения факта передачи. Можно сказать, что эффективнее всего себя покажет комбинация всех методов лингвистической стеганографии.

Литература

  1. Citforum. Стеганография [электронный ресурс]. – Режим доступа: http://citforum.ru/security/articles/min_bit
  2. Исследование метода компьютерной стеганографии для защиты информации [электронный ресурс]. – Режим доступа: http://5fan.ru/wievjob.php?id=36765
  3. Структурная схема стегосистемы [электронный ресурс]. – Режим доступа: https://goo.gl/zdr1hF
  4. Лингвистическая стеганография. ИУСМКМ – 2011: Вестник московского государственного лингвистического университета. Серия: Гуманитарные науки: – Москва: МГЛУ, 2016. – С. 66 – 73.
  5. Бабина, О.И. Лингвистическая стеганография: современные подходы. Часть 1 / О.И. Бабина // Вестник ЮУрГУ. Серия «Лингвистика». – 2015. – Т. 12, № 3. – С. 27 – 33.