Магистр ДонНТУ Сероштан Сергей Юрьевич

Индивидуальный раздел

«Сбор семантической информации из сетевого источника – портала магистров ДонНТУ»

Выполнил: Сероштан Сергей Юрьевич

     Портал магистров ДонНТУ функционирует с 2000-го года. В настоящее время количество персональных страниц магистров насчитывает более 2700.

     Ежегодно магистры разрабатывают свои персональные странички, которые несут в себе полезную информацию для потенциальных работодателей, а именно:

  • автобиография;
  • реферат к магистерской работе;
  • библиотека – список источников, используемых при написании магистерской работы и их краткое описание;
  • ссылки – ссылки на различные ресурсы, используемые при написании магистерской работы;
  • отчет о поиске – результаты поисков по теме магистерской работы по различным поисковым системам в начале написания персональной странички и на этапе завершения, а также их сравнительное описание;
  • индивидуальный раздел – отображает интересы магистранта.

     Для удобства использование портала, для каждого выпуска готовится галерея магистров. Раз в несколько лет структура галереи изменялась, вследствие чего сформировалось несколько разнородных типов галерей.

     Это и стало предпосылкой формирования данного индивидуального задания. Целью которого, является программный анализ различных структур галерей, извлечения из них полезной информации и сохранение ее в переносимом формате (в качестве переносимого формата был выбран XML). В дальнейшем предполагается написание программного обеспечения, позволяющего генерировать шаблонные странички на основе XML файлов.

     В данной работе используется сбор семантической информации из двух файлов галереи 2008 года:

  1. HTML-файл галереи магистров 2008 года, в котором представлена следующая полезная информация о магистрах:
    • название факультета;
    • общая фотография выпускников данного факультета;
    • фотография каждого выпускника;
    • ФИО каждого выпускника;
    • ссылка на персональную страничку каждого выпускника.
  2. HTML-файл с темами выпускных работ магистров, в котором представлена следующая полезная информация:
    • название факультета;
    • ФИО каждого выпускника;
    • ссылка на персональную страничку каждого выпускника;
    • тема выпускной работы каждого магистра;
    • ссылка на выпускную работу каждого магистр;

     Схематично задачу, выполняемую разрабатываемым программным обеспечением (далее - конвертер), можно отобразить на следующей диаграмме (рис. 1).

Назначение конвертера

Рисунок 1 – Назначение конвертера

     Основное окно программы содержит следующие элементы управления (рис. 2):

  • поле для ввода пути к исходному файлу;
  • кнопка выбора пути к исходному файлу;
  • поле для ввода пути к выходному файлу;
  • кнопка выбора пути к выходному файлу;
  • кнопка старта конвертирования.

Основное окно конвертора

Рисунок 2 – Основное окно конвертора

     При нажатии на кнопку открытия файла, открывается стандартное окно выбора файла (рис. 3), где отображаются только HTML-файлы (*.htm, *.html).

Стандартное окно открытия файла

Рисунок 3 – Стандартное окно открытия файла

     При нажатии на кнопку выбора файла назначения, открывается стандартное окно сохранения файла (рис. 4), где отображаются только файлы XML (*.xml).

Стандартное окно сохранения файла

Рисунок 4 – Стандартное окно сохранения файла

     При нажатии на кнопку конвертирования, происходит выделение полезной информации из HTML-файла и сохранения ее в XML-файл. После чего появляется сообщение о завершении преобразования (рис. 5).

Окно сообщения о завершении конвертирования

Рисунок 5 – Окно сообщения о завершении конвертирования

     Входной HTML-файл галереи магистров 2008 года можно посмотреть здесь.

     Выходной XML-файл галереи магистров 2008 года можно посмотреть здесь.

     Входной HTML-файл с темами выпускных работ магистров 2008 года можно посмотреть здесь.

     Выходной XML-файл с темами выпускных работ магистров 2008 года можно посмотреть здесь.

Copyright © 2009, ДонНТУ, Сероштан Сергей Юрьевич