Реферат по теме выпускной работы

Содержание


1. Введение.

2. Актуальность и мотивация темы работы.

3. Цели и задачи, которые должны решаться.

4. Предполагаемая научная новизна.

5. Планируемые практические результаты.

6. Обзор исследований и разработок по теме.

7. Математическая постановка.

8. Разработка алгоритма очистки от информационного шума.

9. Заключение, перечень основных результатов и перспектив исследования.

10. Литература.

Введение

Наступивший XXI век станет этапным для проникновения новых информационных технологий и создаваемых на их основе высокопроизводительных компьютерных систем во все сферы человеческой деятельности – управление, производство, науку, образование и т.д.

Высокая доступность огромного количества постоянно пополняющейся информации, а также растущая популярность веб-услуг среди всех категорий пользователей обострили проблему выделения значимой для пользователя части информации [9].

Особенностью представления документов в сети Интернет является наличие на странице, помимо самого текста (содержательной части web-документа) [8] определяющего предмет страницы, большого количества вспомогательных элементов, таких как навигационные ссылки, версия для печати, «дорожные знаки» (ссылки, показывающие путь от главной страницы сайта к текущей), блоки текста с рекламой других разделов сайта, контактные данные компании и т.п. (так называемая служебная информация), призванных обеспечить навигацию по страницам сайта. Часто эти элементы не имеют прямого отношения к теме страницы и поэтому могут отрицательно влиять на качество восприятия информации пользователем.

Такое многообразие данных скрывает в себе проблемы, которые могут возникнуть при анализе необходимой информации в Интернет:

  1. Проблема перегруженности веб-страниц различной не важной для пользователя информацией: спамом, рекламой, всевозможными ссылками. Зачастую при визуальной фильтрации контента и оценке его значимости пользователь теряет массу времени.
  2. Отсутствие персонализации веб-пространства – задача по созданию средств, адаптирующих свои возможности (навигация, контент, баннеры и другие рекламные предложения) под пользователя на основании собранной и проанализированной информации о пользовательских предпочтениях [6].

Актуальность и мотивация темы работы

Зачастую при визуальной фильтрации контента и оценке его значимости пользователь теряет массу времени. Для решения этой проблемы необходимо применять очистку веб-страниц от информационного шума. Обозначим несколько областей, для которых можно будет применить задачу очистки веб-страниц:

Задача очистки веб-страниц от информационного шума весьма актуальна в наше время и решение данной проблемы поможет преподносить искомую пользователем информацию в удобном для него виде, а так же положительно скажется на результатах web-поиска, классификации информации, извлечение текстовой информации и т.п.

Цели и задачи, которые должны решаться

Цель работы – создание общедоступных инструментальных средств, позволяющих очистить web страницы от информационного шума.

Для достижения поставленной цели необходимо решить основные задачи:

  1. Провести сравнительный анализ методов выделения основного контента web-страницы
  2. Разработать классификационную схему информационных блоков сайта
  3. Разработать адаптационный алгоритм оценки информационных блоков страниц
  4. Разработать инструментальные средства позволяющие обрабатывать определенные информационные блоки
  5. Провести тестирование эффективности разработанных инструментальных средств

Предполагаемая научная новизна

  1. Предложена новая классификационная схема информационных блоков сайтов, с набором значений параметров, которая учитывает структуру и специфику сайта
  2. Разработана модель очистки веб-станиц от информационного шума на основе классификационной схемы блоков

Планируемые практические результаты

Планируемая практическая значимость работы заключается в разработке инструментальных средств очистки web-страниц от информационного шума.

Применение разработанных средств позволит пользователю легко и быстро получить основной контент web-страницы не отвлекаясь на информацию не несущую смысловую нагрузку.

Разработанные инструментальные средства позволят выполнять следующие задачи:

Обзор исследований и разработок по теме

Применяемые методы анализа структуры web-страниц можно разделить на:

  1. Методы, основанные на выделении повторяющихся для всех (или части) страниц сайта фрагментов информации [1]
  2. Методы, основанные на анализе dom-деревьев страниц сайта [3]
  3. Комбинированные методы [2]
  4. Методы синтаксического и визуального анализа [5]
  5. Методы анализа страниц построенных на HTML 5 [4]

Анализ существующих методов выделения основного веб-контента показал, что методы, основанные на анализе DOM дерева эффективны и просты, а также предоставляют возможность проводить обработку единичной веб-станицы.

Существуют инструментальные средства, которые частично решают задачу выделения основного веб-контента:
NoScript– это дополнение для Firefox , которое позволяет защитить браузер от любых скриптов, которые, как известно, всегда потенциально опасны.
AdBlock Plus– является самым популярным расширением браузера Firefox, позволяющее блокировать загрузку и показ различных элементов страницы
Flash Block– Его назначение заключается в блокировки Flash-контента. Последний часто представляет собой банеры
Safari Reader– функция браузера Safari, позволяет в более удобном формате читать статьи и блоги, убирая весь мусор, который может отвлекать внимание
Readability– букмарклет (маленькая Javascript-программа, оформленная как URL и сохраняемая как закладка браузера) которая избавляет веб-страницу от рекламного мусора

Все эти средства, в основном направлены на борьбу с рекламой. Проведенный обзор существующих инструментальных средств очистки веб-страниц от информационного шума позволил выделить основные трудности, с которыми сталкиваются пользователи:


Исходя из всего вышесказанного, можно сделать вывод, что разработка инструментальных средств очистки веб-страниц от информационного шума ведется довольно активно, но пока не существует универсальных средств, которые бы могли удовлетворить все запросы пользователей.

Математическая постановка

Очищенная страница от информационного шума представляется в виде:

Где – функция очистки,

S – исходный сайт,

– параметры обработки, задающиеся пользователями. Данный параметр задается в случае когда при обработке произошло отсечение важной информации для пользователя. Пользователи отмечают блок контента который необходимо отобразить, при этом устанавливается значение для .

b – параметр блока контента, который определяется по следующей формуле:

Где g – функция определения свойств содержимого сайта

Значения параметра блока контента и определение свойств его содержимого сведем в Табл. 5.1

Таблица 1 – Признаки типов информационных блоков контента

Признаки блока Значимость блока

0

наличие большого количества изображений


маленькое количество предложений или их отсутствие


наличие большого количества stop-words, таких слов как «contact», «copyright», «advertice», «help», «sign», «All right reserved» и т.п.


наличие flash, gif, silverlight контента


наличие большого количества элементов управления, таких как текстовые блоки, кнопки, флажки, выпадающие списки

Информационный шум

1

наличие большого количества гиперссылок


наличие большого количества текста


наличие таких тегов как < ul >,< ol >,< li >

Маловажная информация

2

наличие графического, мультимедийного, видео контента


наличие большого количества предложений


большое количество слов, которые входят в предложения

Важная информация


Анализ вопроса очистки web-страниц от информационного шума дал возможность определить несколько типов сайтов исходя из соответствующих им характерным признакам и их значения. Типы сайтов и признаки характерные для них были сведены в табл.2

Таблица 2 – Признаки типов сайтов

Типы сайтов Характерные признаки

  • Фотогалереи
  • Фотосайты
  • Интернет магазины
  • Видеосайты

  • Для этих сайтов характерно высокое количество информативных изображений, т.е изображений которые будут полезны для пользователя и могут считаться полезным контентом.

  • Торренты
  • Поисковые системы и модули
  • Интернет магазины

  • Для данных сайтов характерно высокое количество ссылок, которые могут считаться полезным контентом

    Разработка алгоритма очистки от информационного шума

    Приняв во внимание все сильные и слабые стороны существующих инструментальных средств, остановим свой выбор на идеи создания букмарклета.

    Букмарклет(bookmarklet) – это javascript-код, который сохраняется как закладка в браузере. Он работает за счет использования протокола < a href="javascript:..."> [10].

    Алгоритм очистки web-страниц от информационного шума состоит из следующих этапов:

    1. Букмарклет получает адрес страницы для ее обработки.
    2. Для заданной страницы определяется структура DOM дерева из HTML-кода.
    3. Происходит проход по DOM дереву и классификация тегов(узлов) по соответствующим признакам.
    4. Далее определяются значимые узлы.
    5. Система обрабатывает информационные блоки, выделяет блок основного контента, отсекая теги, помеченные как информационный шум (медиа, навигация, ссылки и прочее).
    6. Обработанная страница отображается для пользователя.
    7. В случае, если произошло отсечение важной информации, пользователь отменяет обработку. Страница отображается ему в первичном виде с рамками вокруг различных блоков контента. Отметив нужный блок, пользователь сохраняет результат. Страница вновь проходит обработку, в ходе которой отмеченные пользователем блоки отсекаться не будут. Обработанная страница отображается для пользователя вместе с сообщением, в котором будет предложено сохранить результаты обработки страницы в системе.
    8. Адрес обрабатываемой страницы и результаты ее обработки сохраняются.



    Рис. 1 – Блок-схема алгоритма работы букмарклета

    Заключение, перечень основных результатов и перспектив исследования

    Очищение web-страниц от информационного шума является одним из перспективных направлений развития отрасли информационно – коммуникационных технологий.

    Свидетельством актуальности выделения основного контента страницы по запросам пользователей является постоянное совершенствование программного инструментария для формирования и отображения web-страниц. В условиях насыщения рынка технологических услуг все большее внимание привлекают методы и средства персонализации потоков контента.

    Литература:

    1. Агеев М.С., Добров Б.В., Лукашевич Н.В., Сидоров А.В. Экспериментальные алгоритмы поиска/классификации и сравнение с «basic line». // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) [электронный ресурс]. Режим доступа – http://romip.narod.ru/...
    2. И. Некрестьянов, Е. Павлова. Обнаружение структурного подобия HTML-документов. СПГУ, 2002 [электронный ресурс]. Режим доступа – http://meta.math.spbu.ru
    3. М.С. Агеев, И.В. Вершинников, Б.В. Добров. Извлечение значимой информации из web-страниц для задач информационного поиска. Интернет-математика 2005. Сборник работ по программам научных стипендий Яндекса. Москва, 2005.
    4. Р.Ф. Кузнецов, Н.В. Мурашов. Оценка влияния извлечения значимой информации на качество классификации web-страниц
    5. Определение понятия «информационный шум» [электронный ресурс]. Режим доступа – http://mediart.ru/...
    6. Yi, L., Liu, B., Web Page Cleaning for Web Mining through Feature Weighting, in the proceedings of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03), Acapulco, Mexico, August, 2003.
    7. Краковецкий А. Очищаем веб-страницы от информационного шума [электронный ресурс]. Режим доступа – http://msug.vn.ua/...
    8. Soumen Chakrabarti. Integrating the Document Object Model with Hyperlinks for Enhanced Topic Distillation and Information Extraction // In Proceedings of WWW10, May 1-5, 2001, Hong Kong. [электронный ресурс]. Режим доступа – http://www10.org/...
    9. Suhit Gupta, Gail E Kaiser, Peter Grimm, Michael Chiang, Justin Starren, Automating Content Extraction of HTML Documents // World Wide Web Journal, January 2005
    10. Краковецкий А. Получение основного контента веб-страниц программно [электронный ресурс]. Режим доступа – http://habrahabr.ru/...
    11. Методы и средства извлечения слабоструктурированных схем из документов в HTML и конвертирования HTML документов в их XML представление [электронный ресурс]. Режим доступа – http://www.raai.org/resurs/...