Титаренко Михаил Геннадиевич
Факультет компьютерных наук и технологий
Кафедра программной инженерии
Специальность Программная инженерия
Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы
Научный руководитель: к.ф-м.н., доцент кафедры ПИ Скворцов Анатолий Ефремович
Консультант: старший преподаватель Коломойцева Ирина Александровна

Отчет об информационном поиске

Представленный отчет позволяет оценить информационную ситуацию по теме магистерской работы. Он является основным документальным подтверждением глубины и полноты информационного поиска, а также служит для фиксации текущей ситуации в исследуемой области.

Поиск выполнен с использованием четырех поисковых систем (Google, Яндекс, Bing, Meta). Результаты сведены в таблицу. Всего произведено 20 запросов, имеющих отношение к магистерской работе. Из них четыре запроса соответствует названию магистерской работы на четырех языках, четыре запроса с ФИО руководителя, а также двенадцать запросов с ключевыми понятиями по теме магистерской работы.

Ниже приведены две таблицы с отчетами о поиске, которые разделяет временной промежуток в три месяца, а также ряд диаграмм, которые позволяют сравнить основные изменения, произошедшие за этот период.

Отчет о поиске на 14.09.2018 г.
Строка поиска
Русский язык
Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы 83000 167000000 30 39900
Коломойцева Ирина Александровна, ДонНТУ 28700 6000 10 16000
Классификация текстов 11300000 50000000 20000 5550000
Алгоритмы классификации текстов 2430000 76000000 8060 1117000
Классификация внешнеторговой информации 169000 7750 50000000 345000
Украинский язык
Дослідження методів класифікації інформації про зовнішньоторговельну діяльність держав в рамках інформаційно-пошукової системи 9100 208000000 0 3550
Коломойцева Ірина Олександрівна, ДонНТУ 2900 67000000 0 21
Класифікація текстів 3340000 52000000 12100 1710000
Алгоритми класифікації текстів 1820000 63600000 4300 928500
Класифікація зовнішньоторговельної інформації 132000 26100000 2850 65000
Английский язык
Research of information classifying methods on international trade activity of states within the framework of an information retrieval system 13200000 228000000 6490 6630000
Kolomoitseva Irina Aleksandrovna, DonNTU 31000 10000 0 14600
Text classification 343800000 81000000 7330000 150500000
Text classification algorithms 63700000 86000000 1420000 89750000
Classification of international trade information 763600000 79000000 3800000 373000000
Испанский язык
Investigación de métodos de clasificación de información sobre la actividad internacional comercial de los estados en el marco de un sistema de recuperación de información 9020000 45000000 2300 4250000
Kolomoitseva Irina Aleksandrovna, DonNTU 31000 10000 0 14800
Clasificación de texto 143800000 5800000 2380000 71800000
Algoritmos de clasificación de texto 3540000 6000000 51000 1720000
Clasificación de la información del comercio internacional 39700000 22000000 427000 19500000
Отчет о поиске на 16.12.2018 г.
Строка поиска
Русский язык
Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы 83500 188000000 26 40300
Коломойцева Ирина Александровна, ДонНТУ 29000 11000 8 16200
Классификация текстов 11400000 66000000 25400 5600000
Алгоритмы классификации текстов 2450000 77000000 12500 1190000
Классификация внешнеторговой информации 345000 36000000 12400 171000
Украинский язык
Дослідження методів класифікації інформації про зовнішньоторговельну діяльність держав в рамках інформаційно-пошукової системи 9160 197000000 1 3560
Коломойцева Ірина Олександрівна, ДонНТУ 2900 67000000 3 18
Класифікація текстів 3360000 56000000 17200 1730000
Алгоритми класифікації текстів 1830000 67000000 4460 938000
Класифікація зовнішньоторговельної інформації 132000 29000000 2970 65600
Английский язык
Research of information classifying methods on international trade activity of states within the framework of an information retrieval system 13300000 225000000 6540 6700000
Kolomoitseva Irina Aleksandrovna, DonNTU 31200 17000 0 14800
Text classification 317000000 81000000 9550000 152000000
Text classification algorithms 64200000 86000000 2270000 90700000
Classification of international trade information 744200000 79000000 5900000 377000000
Испанский язык
Investigación de métodos de clasificación de información sobre la actividad internacional comercial de los estados en el marco de un sistema de recuperación de información 9080000 50000000 2330 4280000
Kolomoitseva Irina Aleksandrovna, DonNTU 31200 17000 0 15000
Clasificación de texto 144000000 6000000 3500000 71800000
Algoritmos de clasificación de texto 3540000 7000000 58900 1740000
Clasificación de la información del comercio internacional 39600000 19000000 620000 19700000
Анализ результатов

При сравнении результатов запросов по различным поисковым системам можно прийти к выводу, что выявить однозначного лидера среди поисковых систем достаточно сложно. Одноко на фоне остальных выделяются Yandex и Google.

Можно заметить, что количество найденных страниц коррелирует с алфавитом посковой строки. Так для кириллических запросов намного лучше с задачей справляется Yandex. Однако, если оценивать поисковые строки на латинице, то навмного лучше справляется поисковая система Google. Поисковая система Bing является согласно данным явным аутсайдером, однако необходимо принять во внимание тот аспект, что релевантность найденных страниц оценена не была, поэтому однозначно говорить о недостатке системы не представляется возможным. В то же время поисковая система МЕТА демонстрирует достаточно неплохие результаты, однако следует учитывать, что она построена на основе поиска Google.

Динамика количества результатов поисковой выдачи для каждого поискового запроса в каждой из поисковых систем во времени приведена на диаграмме ниже.


Рисунок 1 - Диаграмма динамики результатов поисковой выдаче во времени

Как можно увидеть из диаграммы, абсолютное большинство поисковых запросов со временем увеличило количество найденных страниц. Некоторые запросы сохранили практически идентичное количество найденных материалов, что особенно хорошо отразилось на украинских и испанских запросах.

Следует также заметить, что некоторая часть запросов уменьшила количество найденных сайтов и довольно радикально. Данный показатель говорит о том, что поисковые машины улучшают свой алгоритм поиска, отсеивают неуникальные статьи или производят ревизию индексных файлов.

Согласно диаграмме можно выделить две наиболее быстро развивающихся системы в плане количества найденных страниц. Это Yandex и Bing. Именно эти системы дали наибольшие приросты во времени, а именно на 83% и 60% соответственно. Набольшее уменьшение количества также показали эти системы, а именно на 28% и 20% соответственно. Эти данные демонстрируют то, что эти системы активно работают со своими индексными файлами и релевантностью поиска.

Согласно языковому принципу бесспорными лидерами являются русский и английский языки, как языки международного научного общения, однако достаточно быстро на данный момент развивается и испаноязычный сегмент. Украинский в данном наборе не предоставляет таких результатов, однако следует отметить, что он по типу японского и шведского является монокультурным языком, поэтому его сравнение с языками международного общения не может представить достоверную картину развития данного языкового сегмента.