Эффективный метод обнаружения лингвистической стеганографии
Авторы: Chen Zhi-li, Huang Liu-sheng, Yu Zhen-shan, Zhao Xin-xin, Zheng Xue-ling, перевод Сипаков Д.С.
Источник: Natural Science Foundation of Jiangsu Province of China. – Anhui, University of Science and Technology of
China – 2010.
Аннотация
Лингвистическая стеганография скрывает
секретные сообщения. Она использует
свойства естественного языка, такие как
языковая структура, чтобы скрыть сообщения. В этой статье, предложен
эффективный метод для обнаружения стеганографии.
Метод был сосредоточен на обнаружение небольших размеров текстовых сегментов, до
сотни слов. Он выполняется быстро и достаточно точно. Данный метод может быть
использован в качестве общего метода для обнаружения наличия скрытых сообщений.
1 Введение
Стеганография появилась еще до появления компьютера.
В настоящее время, у нас есть огромное количество доступных
данных для использования стеганографии и более изощренные методы
для ее реализации. Большая часть последних исследований в
стеганографии, особенно языковой стеганографии была сосредоточена на том,
как скрыть секретные сообщения в обложке СМИ, важно использовать эффективные
подходы, чтобы стегоанализ, который обычно пытается обнаружить статистические
аномалии в данных обложках, не смог обнаружить скрытое сообщение. Эта статья
фокусируется на расследовании обнаружения лингвистической стеганографии в сообщениях.
В данной статье предложен метод обнаружения лингвистической стеганографии,
с помощью статистических показателей анализа текста. Для работы алгоритма
не требуются ни какие дополнительные данные, кроме самого сегмента текста.
2 Похожие работы
2.1. Лингвистическая стеганография
Самый простой метод изменения текста для встраивания сообщения –
замена слов их синонимами так, чтобы значение измененного предложения сохранилось
как можно больше. Один подход стеганографии, который основывается на синонимах, предложен Винштайном [
2].
Есть некоторые другие подходы. Среди них
NICETEXT и TEXTO являются самыми известными.
Система NICETEXT [
3], [
4] генерирует как будто естественный текст
шифрования, используя смесь замены слов и вероятностные бесконтекстные грамматики .
В системе используется таблица словаря и шаблон стиля. Шаблон стиля может быть
сгенерирован, используя вероятностные бесконтекстные грамматики или демонстрационный
текст. Словарь в произвольном порядке генерирует последовательность слов, в то время
как стиль шаблона выбирает естественные последовательности частей речи, или управляет
генерацией слов. Система NICETEXT была предназначена, чтобы защитить частную жизнь
криптограмм, чтобы избежать обнаружения цензорами.
TEXTO [
5] - текстовая программа стеганографии разработанная для
преобразования, кодируемых программой uuencode или pgp, ASCII данных
в английские предложения. Это было сделано, чтобы упростить обмен двоичными данными,
особенно зашифрованными. Работает TEXTO точно так же, как и простой шифр подстановки.
Не все слова в получающемся тексте значительные, только те существительные, глаголы,
прилагательные и наречия, которые раньше заполняли предварительно установленные структуры
предложения. Пунктуация и "соединение" слов (или любых других слов не в словарь), проигнорированы.
2.2. Лингвистический стегоанализ
В статье [
7] представлена атака против систем на основе замены синонимов,
особенно система представленная Винштеймом. Экспериментальная точность этого
метода на классификации составляла 84.9% , для неизмененного предложения – 61.4%.
Другой алгоритм обнаружения был предложенный в статье [
8], предложено использовать
измерения корреляция между предложениями. Точность обнаружение, используя этот алгоритм,
составила 76%. Кроме того, первый метод потребовал, чтобы большая партия вычисления
вычислила большое количество параметров языка модели, в то время как второй требует базы
данных правил.
Это исследование показали недостатки последних двух подходов стеганографии,
стремясь точно обнаруживать скрытое сообщение в маленьком текстовом сегменте.
Для создания нового метода использовалась подобная энтропия и информация о
статистических переменных, чтобы различить stego-текст сегменты и нормальные текстовые сегменты.
3 Предложенный метод
3.1 Определение статистических переменных
Сначала определяется измерение счета, чтобы указать вхождение слов в тексте обложки.
Пусть C общее количество вхождений всех слов в тексте обложке, слово x
одно из слов. У слова x есть n вхождений, тогда роль для слова x вычисляется с
помощью формулы на рисунке 1.
Рисунок 1 – Формула для расчета роли слова x
Уравнение подобно уравнению, которое вычисляет
частоту слова x, за исключением того, что увеличивается
счет, из-за количества вхождений x. Мы можем расценить Sx
как вероятность слова x, без рассмотрения того, в каком
диапазоне значений это находится. Статистическая переменная
об обнаружении (Detection Information, DI), вычисляется по формуле на рисунке 2.
Рисунок 2 – Формула для расчета DI
С вышеупомянутыми определениями Sx и DIx, мы можем определить функцию классификации.
Пусть текст обложки содержит слова N. "Информационная энтропия " как статистическая
переменная (Detection Entropy,DE), текста обложки определяется по формуле на рисунке 3.
Рисунок 3 – Формула для расчета DE
DE дисперсия, как статистическая переменная, вычисляется по формуле на рисунке 4.
Рисунок 4 – Формула для расчета дисперсии DE
3.2 Описание метода обнаружения
В нашем методе мы применяем следующую процедуру по каждому
обнаруженному текстовому сегменту, чтобы вычислить две функции классификации, описанные в разделе 3.1.
Во-первых, текстовый сегмент проанализирован к словам,
игнорирующим всю пунктуацию и пробелы. Тогда все найденные
отличные слова, которые могут быть различными словами первоначально
или различные формы тех же слов, и общее количество вхождений всех
слов, число вхождения каждого отличного слова вычисленный, счет
каждого отличного слова вычисляется уравнением, представленным на рисунке 1.
Во-вторых, мы расцениваем счет каждого отличного слова как его вероятность, несмотря на то, что значение не находится в диапазоне [0, 1].
Наконец, DE и Var (DE) вычисляются уравнениями на рисунках 3 и 4, используя Ss и DIs, вычисленные в первый и второй шаг.
После того, как вышеупомянутая процедура применена к обработанному
текстовому сегменту, мы получаем функции DE ,классификации и Var (DE),
эти значения мы будем использовать позже для SVM классификация. Классификация
SVM включает два процесса: обучение и тестирование. Схема SVM представлена на рисунке 5.
Рисунок 5 – Схема SVM
4. Результаты исследований
4.1. Структура экспериментальных данных
В нашем эксперименте набор экспериментальных данных содержит
обучающий набор данных и тестирующий набор данных, оба из которых
состоят из хорошего набора данных и набора неправильных данных.
Таблица 1 – Экспериментальные данные
Набор данных
|
Тип данных
|
Количество файлов
|
Обучение |
Хороший набор |
117 |
Обучение |
Плохой набор |
100 |
Тестирование |
Хороший набор |
146 |
Тестирование |
Плохой набор |
322 |
Как показано в таблице 1, набор данных обучения содержит хороший
набор со своими 117 текстовыми сегментами, и плохой набор с
его 100 текстовыми сегментами. Набор данных тестирования содержит
146 текстовых сегменты, прибывающие из S-корпуса в хорошем наборе
и 322 текстовые сегменты, прибывающие из плохого набора.
4.2. Результаты и обсуждение
Как описано в разделе 4.1, есть сотни текстовых файлов,
которые будут протестированы. В эксперименте мы стремимся обнаружить
текстовые сегменты с размером, меньшим, чем 5 КБ. Различный размер
текстовых сегментов должен быть обнаружен, когда точность обнаружения
достаточно высока. Для каждого протестированного текстового файла мы
читаем определенный размер сегмента. Результаты обнаружения из текстовых
сегментов размера 1 КБ, 2 КБ, 3 КБ, 4 КБ и 5 КБ показаны в таблице 2.
Таблица 2 – Результаты обнаружений
Размер сегмента, КБ
|
Оценка подсчитанных слов
|
Удачно
|
Неудачно
|
Доля, %
|
1 |
150-250 |
333 |
135 |
71.15 |
2 |
350-450 |
371 |
97 |
79.27 |
3 |
500-600 |
403 |
65 |
86.11 |
4 |
650-800 |
426 |
42 |
91.03 |
5 |
800-1000 |
435 |
33 |
92.95 |
В таблице 2 мы видим, что текстовый размер сегмента довольно маленький для статистического алгоритма, чтобы работать. Каждый текстовый сегмент содержит сотни слов, однако точность относительно высока, особенно когда размер сегмента не меньше, чем 3 КБ.
5 Заключение
В этой статье, был представлен статистический алгоритм для обнаружение
лингвистической стеганографии. Алгоритм использует статистические переменные
текстового сегмента. Алгоритм базируется на подобных методах NICETEXT, TEXTO.
Общая точность на обнаружение stego-текстовых сегментов и нормального текста,
90% когда сегмент размером не больше, чем 5 КБ.
Много интересных и новых проблем включены в анализ лингвистических
алгоритмов стеганографии, который известен как лингвистический стегоанализ.
Производительность методов стегоанализа строго зависит от многих факторов, таких
как длина скрытого сообщения и способ генерации текста-обложкии т.д. Наш алгоритм
центрируется при обнаружении маленького текстового сегмента.
Список литературы
- K Bennett. Linguistic steganography: Survey, analysis,
and robustness concerns for hiding information in text.
Purdue University, CERIAS Tech. Report, 2004
- Winstein, Keith. Lexical steganography through
adaptive modulation of the word choice hash.
Access:http://alumni.imsa.edu/~keithw/tlex/lsteg.ps. Ms.
-
Chapman, Mark. Hiding the Hidden: A Software System
for Concealing Ciphertext as Innocuous Text.
Access:http://www.NICETEXT.com/NICETEXT/doc/thesis.pdf.
1997.
-
Chapman, Mark, George Davida and Marc Rennhard.
A Practical and Effective Approach to Large-Scale
Automated Linguistic Steganography. Lecture Notes in
Computer Science, Volume 2200, Springer-Verlag: Berlin
Heidelberg. Jan 2001. 156-167.
-
K. Maher. TEXTO.
Access:ftp://ftp.funet.fi/pub/crypt/steganography/texto.tar.gz
-
W. Shu-feng, H. Liu-sheng. Research on
Information Hiding. Degree of master, University of Science
and Technology of China, 2003.
-
C. Taskiran, U. Topkara, M. Topkara et al. Attacks on
lexical natural language steganography systems. Proceedings
of SPIE, 2006.
-
ZHOU Ji-jun, YANG Zhu, NIU Xin-xin et al. Research
on the detecting algorithm of text document information
hiding. Journal on Communications. Dec. 2004 Vol.25, No.
12, 97-101.