Сайт ДонНТУ          Портал магистров          Факультет ВТИ          Кафедра КСМ
Метод кодирования произвольной двоичной информации в текстах на основе лингвистических ресурсов
       Ларионова К.Е., Губенко Н.Е.

Лингвистическая стеганография занимается скрытым кодированием произвольной двоичной информации в текстах, опираясь на лингвистические ресурсы. Опорными лингвистическими ресурсами оказываются тем самым специально подготовленный синонимический словарь и обширная база русских словосочетаний.

Вся лексика данного языка разбивается на множество групп разного объема. Внутри групп слова сходны как грамматически (они принадлежат одной части речи), так и семантически, вплоть до настоящей синонимии. При стеганографии очередной слог длиной в n бит кодируемого сообщения рассматривается как внутригрупповой номер i-го синонима, который должен заменить в тексте исходное слово. После этого в тексте ищется очередное слово с синонимами и производится аналогичная его замена и так вплоть до исчерпания кодируемого сообщения или несущего текста.

На приемном конце используется тот же словарь квазисинонимов [1].

Иногда при кодировании номер, задаваемый скрытой информацией, совпадает с внутригрупповым номером слова в исходном тексте, и тогда никакой замены не происходит. Но при крупных группах квазисинонимов такое происходит редко и тогда ничем не ограниченные внутригрупповые замены не только изменяют смысл текста, но и делают его семантически несвязным и тем «подозрительным», что становится заметно.

Метод, предлагаемый в данном докладе основан на замене текстовых слов их синонимами, но тестирует производимые замены относительно контекста заменяемого слова. Если данная замена контекстно допустима, что определяет пользователь, соответствующий синоним оставляется в группе потенциальных замен, в противном случае не включается в группу.

Словосочетаниями в данном случае называются синтаксически связанные и семантически совместимые пары полнозначных слов. Например, правильно выразить, успеть ответить, позеленевший от гриппа и другие, где грамматически связанные полнозначные слова подчеркнуты.

Далее предполагается, что огромное (измеряемое сотнями тысяч) количество словосочетаний данного (в рассматриваемом случае, русского) языка собрано заранее – безотносительно к их частотности и идиоматичности – в некую базу словосочетаний. Именно ней синонимы ищутся как потенциальные компоненты словосочетаний, прежде чем воспользоваться ими в стеганографических целях.

Предлагаемый стеганографический алгоритм имеет два входа [2].

- Двоично кодированную информацию, предназначенную для скрытой шифровки.

- Исходный несущий текст на русском языке с минимальным объемом, примерно в 200 раз большим объема скрываемой информации.

Алгоритм включает следующие шаги.

1. Поиск синонимичных слов.

Текст сканируется, и в нем выделяются те отдельные слова и слитые многословные выражения, которые являются статьями системного словаря и имеют синонимы.

2. Формирование объединенных синонимических групп.

Синонимические слова рассматриваются один за другим. Если соответствующая синонимическая группа включает только абсолютные синонимы, то эта группа принимается целиком и без дополнительных проверок. Если в группе есть хоть один относительный синоним, все эти синонимы берутся исходными для операции так называемого транзитивного замыкания.

3. Проверка объединенных групп на словосочетания.

Если данная группа содержит только абсолютные синонимы, она не проверяется на контекст, а для проверки на сочетаемость с ней иных слов может быть взят любой из синонимов. Если же данная группа содержит относительные синонимы, они подлежат проверке на совместимость с внешними полнозначными словами слева и справа от проверяемого.

4. Кодирование.

Последовательность профильтрованных синонимических групп сканируется слева направо. Пусть размеры всех полученных групп кратны степени двойки или сокращены до ближайшей степени двойки. Тогда для очередной группы длиной 2n из кодируемого сообщения выделяется слог длины n и его двоичное содержимое берется в качестве внутригруппового номера синонима, подставляемого в текст вместо исходного. Если имеются группы, по длине не равные степени двойки, все длины групп перемножаются и берется степень 2N, ближайшая к полученному произведению вниз. Затем от кодируемой информации отсекается слог длины N и из него путем последовательных делений и нахождений остатков находятся номера омонимов для подмены каждого синонимичного слова в предложении по отдельности.

5. Пересогласование слов по контексту

Если текстовый синоним при кодировании оказался замененным, то в общем случае нужно пересогласовать морфосинтаксические характеристики заменителя и контекста.

Стеганографический пример.

Текстовый фрагмент:

Пять подземных толчков зарегистрировано за сутки на юге Республики Алтай. Сила землятресений составляла от 2,2 до 3,1 балла по шкале Рихтера, сообщили на Акташской сейсмической станции сегодня после полудня.

Здесь одиночные слова или группы слов, имеющие синонимы подчеркнуты, а абсолютные еще и выделены.

Спрячем биграмму «по», и это будет соответствовать следующему тексту:

Пять подземных толчков зафиксировано за 24 часа на юге Республики Алтай. Сила землятресений составляла от 2,2 до 3,1 балла по шкале Рихтера, проинформировали на Акташской сейсмической станции сегодня после полудня.

Поскольку объем оригинального фрагмента равен 206 байт, а скрытой информации – 1,5 байт, последняя составляет 0,73% от несущего текста. Эта величина называется стеганографической плотностью. Она невелика, но в достаточно протяженном тексте можно скрыть вполне содержательные поселения, они должны лишь быть в 200 раз короче несущего текста.


Литература


1. http://www.viniti.ru

2. И. А. Большаков Два метода синонимического перефразирования в лингвистической стеганографии

  Автобиография   Автореферат   Библиотека   Перечень ссылок   Отчет о поиске   Индивидуальный раздел
      Сайт ДонНТУ          Портал магистров          Факультет ВТИ          Кафедра КСМ

© Ларионова К.Е. 2009