Русский   English

Реферат за темою випускної роботи

Зміст

Вступ

Сьогодні в мережі передається величезна кількість файлів різних типів: цифрові фотографії, відео, музика та багато інших. Однак найбільшою інтенсивністю потоків передачі володіє як раз таки текстова інформація. Більшість людей користується електронною поштою, пише коментарі на різних форумах, величезна кількість новинних статей поповнюють щодня сторінки інформаційних сайтів. Така кількість нескінченної текстової інформації дає можливість для впровадження в неї і подальшої передачі секретного повідомлення.

1. Актуальність теми

Методам прихованої передачі інформації в текстових документах присвячено такий напрямок в технологіях прихованої передачі інформації як лінгвістична стеганографія. Відмінною особливістю даного напрямку є те, що в якості контейнерів використовуються звичайні відкриті тексти [1]. Причому ці тексти повинні бути абсолютно «нешкідливі» зовні, тобто не викликати у читача підозри про що міститься в цьому секретному посланні.

Під лінгвістичною стеганографією треба розуміти приховане кодування довільної інформації в довільному несучому тексті з опорою на нетривіальні лінгвістичні ідеї та ресурси.

Зрозуміло, що настільки важливий в небезпечному світі додаток лінгвістики привертає увагу кіл, далеких від науки: дистриб'юторів софтвера (їм треба заховати в переданому покупцю продукті унікальний номер продажу), брокерів (їм треба повідомити потайки про зміну якогось курсу або рейтингу), дипломатів (їм треба виявити джерело витоку державно важливої інформації), співробітників спецслужб (тут пояснення зайві) [2].

Основним плюсом лінгвістичної стеганографії (що і пояснює її набирачу обороти актуальність в сучасному світі) є те, що на відміну від інших видів стеганографії, секретне повідомлення може бути передано як завгодно: через електронне послання, написане від руки або навіть передане в розмові.

2. Мета і задачі дослідження

Основною метою даної магістерської роботи є розробка системи приховування текстової інформації на основі лінгвістичних ресурсів, а саме методом лінгвістичної стеганографії, заснованому на генеруванні осмисленого тексту.

Для виконання поставленої мети служать наступні завдання:

  • проаналізувати стан питання і вивчити літературні джерела з методів захисту інформації;
  • розробити алгоритм приховування інформації в текстовому файлі з застосуванням бази даних;
  • розробити базу правил (шаблони речень) і базу знань (словник);
  • створити програмний додаток стеганографічної системи впровадження прихованої інформації;
  • провести аналіз ефективності методу.

Об'єктом дослідження даної роботи є моделювання системи приховування текстової інформації, використовуючи метод генерування осмисленого тексту.

Предмет дослідження - приховування повідомлення в текстовому контейнері для подальшої передачі цієї інформації.

Методи дослідження і використовувані технології - реалізація алгоритму приховування та вилучення текстової інформації засобами об'єктно-орієнтованої мови Java.

3. Заплановані результати

У рамках магістерської роботи планується розробити стеганографічну систему приховування текстової інформації, засновану на генеруванні тематичного осмисленого тексту.

4. Передбачувана наукова новизна

У даній роботі планується створити стеганографічну систему з використанням генератора осмисленого тексту. Передбачувана наукова новизна полягає у створенні генератора російськомовних текстів, який згодом буде модифікований в систему приховування інформації.

Вирішити поставлене завдання для текстів, написаних російською мовою насправді значно складніше, ніж для текстів, написаних англійською мовою. Тут можна виділити два основних фактори, що призводять до ускладнення завдання. Першим з них є неоднозначне використання слів в російській мові. У різному контексті одні й ті ж слова можуть нести абсолютно різне смислове навантаження. Другим фактором є широке використання в російській мові великої кількості закінчень слів. Якщо при побудові стеганографічної системи не враховувати хоча б один з цих факторів, результуючий текст буде носити явно неузгоджений характер, що є очевидною демаскуючою ознакою [1].

5. Огляд досліджень і розробок

У ДонНТУ питаннями лінгістіческой стеганографії займалася Ларіонова Христина Євгеніївна. Тема її магістерської роботи: «Методи кодування довільної інформації в комп'ютерних текстах на основі лінгвістичних ресурсів» [3]. У роботі був розроблений стеганографічний алгоритм використання синонімів. У ньому слова замінюються своїми синонімами згідно контексту. Контекстом вважається набір словосполучень, в яке входить слово, що потребує заміни.

Запропонований в роботі [3] стеганографічний алгоритм має два входи:

1) текст, призначений для приховування;

2) текст-контейнер з мінімальним обсягом, що приблизно в 200 разів перевершує обсяг прихованої інформації.

У даній роботі планується удосконалити алгоритм, описаний вище. Зокрема в модифікованому алгоритмі планується зробити тільки один вхід, а саме, приховуване повідомлення. Текст-контейнер програма згенерує автоматично з використанням створеного попередньо словника.

На жаль, дослідження в області лінгвістичної стеганографії в Україні носять незначний локальний характер: зокрема в деяких збірниках зустрічаються лише деякі огляди з даної теми.

У міжнародному масштабі слід виділити Большакова І.О., почесного професора Національного політехнічного інституту Мексики, який одним з перших розвинув ідею лінгвістичної стеганографії із застосуванням словника синонімів, представленої в роботах [29].

Дану ідею також розвивав Алієв О.Т. з м. Ростов-на-Дону. У його доповіді «Стеганографічний метод синонімічних перетворень для текстів російською мовою» розглядається метод прихованої передачі інформації в осмислених текстах на основі заміни синонімів. Основним завданням була реалізація даного методу для російськомовних текстів. Для вирішення цього завдання проводився аналіз особливостей російської мови, будувалися спеціальні словники синонімів для різних частин мови, пропонувалися алгоритми приховування та вилучення інформації з урахуванням частотних властивостей російської мови.

Що стосується готових розробок, то реалізацією методу лінгвістичної стеганографії англійською мовою є сайт Spam mimic, зайшовши на який будь-який користувач може зашифрувати коротке повідомлення конфіденційного характеру під спам-лист — електронне послання в основному рекламного змісту [4]. Ресурс працює таким чином: користувач заходить на сайт, клацає на посилання "encode" (зашифрувати), вводить в невелике віконце текст, натискає на кнопку "Encode", і через кілька миттєвостей одержує готове електронне спам-послання, яке тепер можна скопіювати і відправити по електронній пошті. Користувач, для якого цей текст призначений, природно, повинен знати, що йому прислали "шифровку". Скопіювавши лист і проробивши всі дії у зворотному порядку, одержувач має декодувати послання. Для перевірки роботи програми в полі введення було написано слово «hello». На виході вийшов текст з 199 слів і 994 знаками (з пробілами). Дані результати представлені на рисунках 1 і 2 відповідно.

Кодування слова hello в програмі spammimic

Рисунок 1 – Кодування слова hello в програмі spammimic

Виведення закодованого повідомлення

Рисунок 2 – Виведення закодованого повідомлення

Слід зазначити, що російською мовою подібних програмних продуктів виявлено не було, що свідчить про унікальність планованої магістерської роботи. Однак, не дивлячись на це, було знайдено кілька програм, здатних генерувати російський осмислений текст, що по суті є основою пропонованого методу лінгвістичної стеганографії. Нижче представлені дані програми-генератори текстів [5].

Russian Word Constructor (Дмитро Кірсанов) - експериментальна програма для генерації російськомовних віршоподобних текстів ("інструмент поета"). Програма здатна конструювати російські неологізми на основі заданого словника з лексико-статистичною інформацією. Незважаючи на свою "старовину", програма цікава і може позабавити своїми словесними винаходами. Додається утиліта для створення авторських робочих словників.

Письмовник (MediaLingua Ltd., 1995-2002) - автоматичне складання та переклад (російсько-англійский/англо-російський) ділових листів і документів.

Яндекс.Реферати - On-line генератор текстів на різні теми, створений компанією Яndex [6].

Генератор віршів ім. О.С. Пушкіна - On-line генератор віршів, створений компанією Яndex [7].

6. Загальний опис системи приховування інформації

Стеганографічна система (стегосистеми) - об'єднання методів і засобів, використовуваних для створення прихованого каналу для передачі інформації. При побудові такої системи умовилися про наступне.

  1. Ворог уявляє роботу стеганографічної системи. Невідомим для противника є ключ, за допомогою якого можна дізнатися про факт існування і змісту таємного повідомлення.
  2. При виявленні противником наявності прихованого повідомлення він не повинен змогти витягти повідомлення доти, поки він не буде володіти ключем.
  3. Противник не має технічних та інших переваг [8].

Схема роботи системи представлена на рисунку 3.

Візуалізація роботи системи приховування інформації на основі лінгвістичних ресурсів

Рисунок 3 – Візуалізація роботи системи приховування інформації на основі лінгвістичних ресурсів

(анімация: 16 кадрів, 7 циклів повторення, 11,9 КБ)

Спочатку відправник набирає повідомлення, яке він хотів би зашифрувати і передати. Потім текст повідомлення перетворюється в бітову послідовність і прямує в БД (базу даних) (1), де по створеному заздалегідь словником і базі правил збираються слова в речення, щодо поставлених їм у відповідність двійкового «0» або двійкової «1» приховуваного повідомлення. На виході з бази даних користувач отримує готовий зашифрований текст (2). Цей текст відправляється одержувачу. Одержувач, відкривши лист направляє текст в базу даних (3). Там текст зіставляється зі словником і дешифрується. З бази до користувачеві приходить розшифроване повідомлення (4). В даному випадку ключем стеганографічної системи служить база даних, яка є тільки у відправника і одержувача. Це найбільш загальний опис взаємодії елементів системи.

7. Метод лінгвістичної стеганографії, заснований на генеруванні осмисленого тексту

Суть пропонованого методу полягає в тому, що щоб максимально наблизити генерований текст до природного спочатку формуються шаблони речень і словник. Таким чином, при шифруванні потоку даних спочатку випадковим чином вибирається шаблон речення, а потім згідно з ним зі словника вибираються слова.

Однак, якщо при формуванні шаблонів особливих труднощів не виникає, то при створенні словника необхідно враховувати особливості російської мови.

У російській мові слова досить рідко вживаються без відповідних закінчень, що дозволяють узгодити дане слово з його оточенням в тексті. Для вирішення цієї проблеми пропонується розбити словник на окремі таблиці відповідно з частинами мови, а також з відмінками, родом, числом, відміни і відмінювання.

Таким чином, даний метод створює бінарне дерево і становить текст, вибираючи ті з листя дерева, які кодують потрібний біт.

Наприклад, необхідно закодувати комбінацію «100».

Слід згенерувати текст згідно шаблону речення:

Підмет Присудок Додаток

Існує база до підмета (Марія, Ольга); база до присудка (Купила, Придбала) база до додатка (Плаття, Сарафан).

0: Марія 1:Ольга

0: Купила 1:Придбала

0: Плаття 1:Сарафан

Таким чином, получаєтся речення: Ольга купила плаття.

Безумовно, для реалізації даного методу необхідно грамотно і чітко скласти словник, адже стійкість методу, генеруючого стеготекст, подібний природному, забезпечується заданими правилами граматики.

Відсутність граматичних та орфографічних помилок в реченнях робить скрутним пошук відмінностей штучного тексту від природного. Аналіз осмисленості тексту можна робити тільки за участю людини, що не завжди можливо через величезний обсяг інформації, що аналізується. Найбільш ефективний метод аналізу використовує прогнозування для виявлення штучної природи тексту, породженого програмою Nicetext. Спочатку проводиться аналіз слів першої половини тексту і складається прогноз кожного наступного слова з другої частини тексту. Якщо в переважній більшості випадків прогноз виявляється успішним, то це означає, що ми маємо справу з природним текстом. Часті помилки при прогнозуванні можуть свідчити про наявність штучного тексту. Для програм Texto і Markov-Chain-Based використовуються методи, що враховують кореляцію слів між реченнями. Так, вважається, що речення, які містять слова, що зустрічаються тільки в технічних текстах, не можуть стояти поруч з реченнями, що містять слова, які зустрічаються тільки в текстах художньої літератури [10]. Тому рекомендується у викладеному вище методі розділяти словники за різними темами. Це необхідно для того, щоб при генеруванні тексту тематика його речень була єдина.

Висновки

Даний матеріал буде покладено в основу розробки системи приховування інформації, що базується на методі лінгвістичної стеганографії. Справжній метод є удосконаленням методу заміни синонімів, описаного в роботі [3]. Запропонована система може стати принципово новою для роботи з текстами російською мовою.

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: грудень 2014. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Перелік посилань

  1. Алиев А.Т. Лингвистическая стеганография на основе замены синонимов для текстов на русском языке / А.Т. Алиев // Известия ЮФУ.Технические науки  № 11, — 2010, — C. 163-170.
  2. Большаков И.А. Использование синонимов, ограниченных контекстными словосочетаниями, для целей лингвистической стеганографии / И.А. Большаков, — 2004, — C. 23-29.
  3. Ларионова К.Е. Методы кодирования произвольной информации в компьютерных текстах на основе лингвистических ресурсов [Электронный ресурс] — Режим доступа: http://masters.donntu.ru/2009/fvti/...
  4. Spam mimic маскирует тайную переписку под спам [Электронный ресурс] — Режим доступа: http://daily.sec.ru/2000/12/19/Spam-mimic...
  5. Каталог лингвистических программ и ресурсов в Cети [Электронный ресурс] — Режим доступа: http://www.rvb.ru/soft/...
  6. Яндекс.Рефераты [Электронный ресурс] — Режим доступа: http://referats.yandex.ru
  7. Генератор стихов им. А.С. Пушкина [Электронный ресурс] — Режим доступа: http://referats.yandex.ru/pushkin/
  8. Стеганография. Материал из Википедии — свободной энциклопедии [Электронный ресурс] — Режим доступа: http://ru.wikipedia.org/wiki/Стеганография
  9. Большаков И.А. Кросслексика: универсум связей между русскими словами / И.А. Большаков // Бизнес-информатика №3(25) — 2013, — C. 19-26.
  10. Нечта И.В. Разработка методов обеспечения безопасности использования информационных технологий, базирующихся на идеях стеганографии. Автореферат [Электронный ресурс] — Режим доступа: www.sibsutis.ru/...