ДонНТУ | Портал магистров ДонНТУ | | | |
Сбор семантической информации из сетевых источников
Выполнил: Гордеев Андрей Георгиевич |
Автобиография | Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальный раздел |
Постановка задачиИсходными материалами для данной задачи являются шесть HTML-файлов: три с информацией о факультетах на трех языках (русском, украинском и английском) и три с информацией о группах и студентах факультета ВТ, также на трех языках. Ниже приведен список этих файлов:
В файле с информацией о факультетах, при переходе по гиперссылке с надписью «Факультет вычислительной техники и информатики (ФВТИ)» происходит переход в папку со списками групп и студентов в них. Переход происходит на страничку на том языке, на каком языке была страничка, на которой была данная ссылка. Переход по ссылке осуществляется только на факультет ВТИ, так как материалы для тестов были получены только для данного факультета. Целью данной работы является получение полезной информации из HTML-файлов, и перенесение ее в более удобный для хранения формат, которым является формат XML. Описание работыВ первую очередь в данной работе был проведен анализ входных данных, поставленной цели, и было выбрано решение писать пользовательское приложение на языке Java[1]. Т.к. HTML-файлы имеют фиксированный набор тэгов, заданных стандартом языка HTML, а типы файлов являются строго шаблонизированными, целесообразно будет выделить полезную информацию среди тэгов программным образом. Главным образом целесообразность заключается в сочетании нескольких факторов, которые повлияли на этот выбор:
Для реализации приложения была выбрана платформа Java. Java SE (Java Standard Editon) применяется для создания пользовательских приложений, в первую очередь — для настольных систем. Шестая официальная версия языка Java SE, на котором и была написана программа, является последней, на данный момент выпущенной версией этого языка, и содержит последние обновления и нововведения в технологии Java SE. В программе были использованы как последние технологии языка Java SE, так и основы, которые существовали в языке Java с самой первой версией. Ключевыми концепциями, использованными в приложении являются:
Основными причинами использования платформы Java стали:
Результатами работы программы является удобное, графическое приложении в стиле Windows, с использованием популярного Java-стиля «Metall». На рисунке 1 приведено главное окно приложения, после его запуска.
Рисунок 1 – главное окно приложения после запуска В данном окне можно увидеть стандартное меню Windows в самом верху приложения. На нем расположен стандартный ярлычок Java, при нажатии на который открывается контекстное меню в котором приложение можно закрыть, свернуть, развернуть и т.д. Правее от него находится титульная строка приложения, т.е. его рабочее пользовательское название. Так же называется и исполнимый файл, с помощью которого можно активировать приложение. В левом углу находятся три стандартные для Windows-приложения кнопки: свернуть, развернуть и закрыть приложение. В самом окне приложения находятся семь элементов:
На рисунке 2 приведено окно приложения, которое активируется по нажатию верхней кнопки приложения «открыть», которая относится к открытию файла для перевода в формат XML.
Рисунков 2 – меню выбора файла для перевода В нем необходимо выбрать папку, в которой находится файл для перевода в формат XML, выбрать файл, и нажать кнопку «Open». Фильтр расширений считываемых файлов менять нельзя, т.к. в данном приложении можно считывать и преобразовывать только формат HTML ( можно также преобразовывать файлы формата HTM, но для простоты далее будет упоминаться только формат HTML). После этого снова появится главное окно приложения, только поле для введения пути и имени файла для перевода будет заполнено (рис. 3).
Рисунок 3 – главное окно с заполненной строкой пути к файлу Заполнить строку пути к файлу можно и вручную, написав там точный путь к файлу для перевода. Следующим выбирается папка, в которой будет находится XML-файл, и указывается его имя. Осуществить это, как и в случае со входным файлом, можно двумя способами:
Разница меню выбора назначения выходного файла от входного состоит лишь в том, что вместо кнопки «Open» там находится кнопка «Save». В данном меню можно либо выбрать файл для вывода из уже имеющихся, либо ввести его вручную. Выбрать или назвать файл можно любым расширением, но для его успешного перевода и дальнейшего использования лучше присвоить ему расширение .xml. На рисунке 4 показано главное окно приложения, в которое введены входной и выходной пути к файлу.
Рисунок 4 - главное окно приложения после ввода в него входного и выходного пути к файлам Теперь остается только нажать кнопку «Генерировать», и из выбранного HTML-файла будет извлечена вся полезная информация и сохранена в XML-файле. На экран выведится сообщение показанное на рисунке 5.
Рисунок 5 – сообщение об успешности конвертирования ВыводыНаписанная программа прошла тест на выданных тестовых файлах, который показал, что программа работает успешно, а также выполняет все поставленные для нее задачи. Также программа максимально соответствует нормам проектирования ПО [2]. Пример использования программы можно проиллюстрировать приведя результаты ее работы. На рисунке 6 показан исходный тестовый HTML файл, из которого надлежит выделить необходимую информацию. На рисунке 7 показан сформированный результирующий XML файл. Вся полезная информация в нем расположена строго структурированным образом. Эта особенность является одним из самых главных преимуществ формата XML для хранения информации.
Рисунок 6 – входной тестовый файл
Рисунок 7 – выходной тестовый файл Литература
Рекомендуемые ссылки
Copyright © 2009, ДонНТУ, Гордеев Андрей Георгиевич |
Автобиография | Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальный раздел |