Тітаренко Михайло Геннадійович
Факультет комп'ютерних наук і технологій
Кафедра програмної інженерії
Спеціальність Програмна інженерія
Дослідження методів класифікації інформації про зовнішньоторговельну діяльність держав в рамках інформаційно-пошукової системи
Науковий керівник: к.ф-м.н., доцент кафедри ПІ Скворцов Анатолій Єфремович
Консультант: старший викладач Коломойцева Ірина Олександрівна

Звіт про пошук

Представлений звіт дозволяє оцінити інформаційну ситуацію по темі магістерської роботи. Він є основним документальним підтвердженням глибини і повноти інформаційного пошуку, а також служить для фіксації поточної ситуації в досліджуваній області.

Пошук виконаний з використанням чотирьох пошукових систем (Google, Яндекс, Bing, Meta). Результати зведені в таблицю. Всього здійснено 20 запитів, що мають відношення до магістерської роботи. З них чотири запити відповідають назві магістерської роботи на чотирьох мовах, чотири запити з ПІБ керівника, а також дванадцять запитів з ключовими поняттями по темі магістерської роботи.

Нижче наведено дві таблиці зі звітами про пошук, які розділяє часовий проміжок в три місяці, а також ряд діаграм, які дозволяють порівняти основні зміни, що відбулися за цей період.

Звіт про пошук на 14.09.2018 г.
Рядок пошуку
Російська
Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы 83000 167000000 30 39900
Коломойцева Ирина Александровна, ДонНТУ 28700 6000 10 16000
Классификация текстов 11300000 50000000 20000 5550000
Алгоритмы классификации текстов 2430000 76000000 8060 1117000
Классификация внешнеторговой информации 169000 7750 50000000 345000
Українська
Дослідження методів класифікації інформації про зовнішньоторговельну діяльність держав в рамках інформаційно-пошукової системи 9100 208000000 0 3550
Коломойцева Ірина Олександрівна, ДонНТУ 2900 67000000 0 21
Класифікація текстів 3340000 52000000 12100 1710000
Алгоритми класифікації текстів 1820000 63600000 4300 928500
Класифікація зовнішньоторговельної інформації 132000 26100000 2850 65000
Англійська
Research of information classifying methods on international trade activity of states within the framework of an information retrieval system 13200000 228000000 6490 6630000
Kolomoitseva Irina Aleksandrovna, DonNTU 31000 10000 0 14600
Text classification 343800000 81000000 7330000 150500000
Text classification algorithms 63700000 86000000 1420000 89750000
Classification of international trade information 763600000 79000000 3800000 373000000
Іспанська
Investigación de métodos de clasificación de información sobre la actividad internacional comercial de los estados en el marco de un sistema de recuperación de información 9020000 45000000 2300 4250000
Kolomoitseva Irina Aleksandrovna, DonNTU 31000 10000 0 14800
Clasificación de texto 143800000 5800000 2380000 71800000
Algoritmos de clasificación de texto 3540000 6000000 51000 1720000
Clasificación de la información del comercio internacional 39700000 22000000 427000 19500000
Звіт про пошук на 16.12.2018 г.
Рядок пошуку
Російська
Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы 83500 188000000 26 40300
Коломойцева Ирина Александровна, ДонНТУ 29000 11000 8 16200
Классификация текстов 11400000 66000000 25400 5600000
Алгоритмы классификации текстов 2450000 77000000 12500 1190000
Классификация внешнеторговой информации 345000 36000000 12400 171000
Українська
Дослідження методів класифікації інформації про зовнішньоторговельну діяльність держав в рамках інформаційно-пошукової системи 9160 197000000 1 3560
Коломойцева Ірина Олександрівна, ДонНТУ 2900 67000000 3 18
Класифікація текстів 3360000 56000000 17200 1730000
Алгоритми класифікації текстів 1830000 67000000 4460 938000
Класифікація зовнішньоторговельної інформації 132000 29000000 2970 65600
Англійська
Research of information classifying methods on international trade activity of states within the framework of an information retrieval system 13300000 225000000 6540 6700000
Kolomoitseva Irina Aleksandrovna, DonNTU 31200 17000 0 14800
Text classification 317000000 81000000 9550000 152000000
Text classification algorithms 64200000 86000000 2270000 90700000
Classification of international trade information 744200000 79000000 5900000 377000000
Іспанська
Investigación de métodos de clasificación de información sobre la actividad internacional comercial de los estados en el marco de un sistema de recuperación de información 9080000 50000000 2330 4280000
Kolomoitseva Irina Aleksandrovna, DonNTU 31200 17000 0 15000
Clasificación de texto 144000000 6000000 3500000 71800000
Algoritmos de clasificación de texto 3540000 7000000 58900 1740000
Clasificación de la información del comercio internacional 39600000 19000000 620000 19700000
Аналіз результатів

При порівнянні результатів запитів з різних пошукових систем можна прийти до висновку, що виявити однозначного лідера серед пошукових систем досить складно. Одноко на тлі інших виділяються Yandex і Google.

Можна помітити, що кількість знайдених сторінок корелює з алфавітом пошукових рядків. Так для кириличних запитів набагато краще із завданням справляється Yandex. Однак, якщо оцінювати пошукові рядки на латиниці, то набагато краще справляється пошукова система Google. Пошукова система Bing є згідно з даними явним аутсайдером, проте необхідно взяти до уваги той аспект, що релевантність знайдених сторінок оцінена не була, тому однозначно говорити про недоліки системи не представляється можливим. У той же час пошукова система МЕТА демонструє досить непогані результати, проте слід враховувати, що вона побудована на основі пошуку Google.

Динаміка кількості результатів пошукової видачі для кожного пошукового запиту в кожній з пошукових систем в часі наведена на діаграмі нижче.


Рисунок 1 - Діаграма динаміки результатів пошукової видачі в часі

Як можна побачити з діаграми, абсолютна більшість пошукових запитів з часом збільшило кількість знайдених сторінок. Деякі запити зберегли практично ідентичну кількість знайдених матеріалів, що особливо добре відобразилося на українських та іспанських запитах.

Слід також зауважити, що деяка частина запитів зменшила кількість знайдених сайтів і досить радикально. Даний показник говорить про те, що пошукові машини покращують свій алгоритм пошуку, відсівають неунікальні статті або проводять ревізію індексних файлів.

Відповідно до діаграми можна виділити дві системи, що розвиваються найшвидше в плані кількості знайдених сторінок. Це Yandex і Bing. Саме ці системи дали найбільші прирости в часі, а саме на 83% і 60% відповідно. Найбільшого зменшення кількості також показали ці системи, а саме на 28% і 20% відповідно. Ці дані демонструють те, що ці системи активно працюють зі своїми індексними файлами і релевантністю пошуку.

За мовним принципом беззаперечними лідерами є російська та англійська мови, як мови міжнародного наукового спілкування, проте досить швидко на даний момент розвивається і іспаномовний сегмент. Українська в даному наборі не надає таких результатів, однак слід зазначити, що вона за типом японської і шведської є монокультурною мовою, тому її порівняння з мовами міжнародного спілкування не може представити достовірну картину розвитку цього мовного сегмента.