Mijail Titarenco
Facultad de Informática y Tecnología
Departamento de ingenieria de software
Especialidad Ingenieria de software
Investigación de los métodos de clasificación de la información sobre la actividad de comercio internacional de los estados en el marco del sistema de recuperación de información
Supervisor cientifico: Ph.D., Profesor asociado, Departamento de IS Skvortsov Anatoliy Yefremovich
Consultor: senior profesor Kolomoitseva Irina Aleksandrovna

Búsqueda informe

El informe presentado nos permite evaluar la situación de la información sobre el tema del trabajo del maestro. Es la confirmación documental principal de la profundidad y la integridad de la recuperación de información, y también sirve para corregir la situación actual en el área estudiada.

La búsqueda se realiza utilizando cuatro motores de búsqueda (Google, Yandex, Bing, Meta). Los resultados se resumen en la tabla. En total se han completado 20 preguntas relacionadas con el trabajo del máster. De estas, cuatro consultas corresponden al título del trabajo del maestro en cuatro idiomas, cuatro consultas del jefe del primer nombre y doce consultas con conceptos clave sobre el tema del trabajo del maestro.

A continuación hay dos tablas con informes de búsqueda que dividen el período de tiempo en tres meses, así como una serie de gráficos que le permiten comparar los cambios principales que se produjeron durante este período.

Búsqueda informe 14.09.2018
Cadena de búsqueda
Ruso
Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы 83000 167000000 30 39900
Коломойцева Ирина Александровна, ДонНТУ 28700 6000 10 16000
Классификация текстов 11300000 50000000 20000 5550000
Алгоритмы классификации текстов 2430000 76000000 8060 1117000
Классификация внешнеторговой информации 169000 7750 50000000 345000
Ucraniano
Дослідження методів класифікації інформації про зовнішньоторговельну діяльність держав в рамках інформаційно-пошукової системи 9100 208000000 0 3550
Коломойцева Ірина Олександрівна, ДонНТУ 2900 67000000 0 21
Класифікація текстів 3340000 52000000 12100 1710000
Алгоритми класифікації текстів 1820000 63600000 4300 928500
Класифікація зовнішньоторговельної інформації 132000 26100000 2850 65000
Inglés
Research of information classifying methods on international trade activity of states within the framework of an information retrieval system 13200000 228000000 6490 6630000
Kolomoitseva Irina Aleksandrovna, DonNTU 31000 10000 0 14600
Text classification 343800000 81000000 7330000 150500000
Text classification algorithms 63700000 86000000 1420000 89750000
Classification of international trade information 763600000 79000000 3800000 373000000
Español
Investigación de métodos de clasificación de información sobre la actividad internacional comercial de los estados en el marco de un sistema de recuperación de información 9020000 45000000 2300 4250000
Kolomoitseva Irina Aleksandrovna, DonNTU 31000 10000 0 14800
Clasificación de texto 143800000 5800000 2380000 71800000
Algoritmos de clasificación de texto 3540000 6000000 51000 1720000
Clasificación de la información del comercio internacional 39700000 22000000 427000 19500000
Búsqueda informe 16.12.2018
Cadena de búsqueda
Ruso
Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы 83500 188000000 26 40300
Коломойцева Ирина Александровна, ДонНТУ 29000 11000 8 16200
Классификация текстов 11400000 66000000 25400 5600000
Алгоритмы классификации текстов 2450000 77000000 12500 1190000
Классификация внешнеторговой информации 345000 36000000 12400 171000
Ucraniano
Дослідження методів класифікації інформації про зовнішньоторговельну діяльність держав в рамках інформаційно-пошукової системи 9160 197000000 1 3560
Коломойцева Ірина Олександрівна, ДонНТУ 2900 67000000 3 18
Класифікація текстів 3360000 56000000 17200 1730000
Алгоритми класифікації текстів 1830000 67000000 4460 938000
Класифікація зовнішньоторговельної інформації 132000 29000000 2970 65600
Inglés
Research of information classifying methods on international trade activity of states within the framework of an information retrieval system 13300000 225000000 6540 6700000
Kolomoitseva Irina Aleksandrovna, DonNTU 31200 17000 0 14800
Text classification 317000000 81000000 9550000 152000000
Text classification algorithms 64200000 86000000 2270000 90700000
Classification of international trade information 744200000 79000000 5900000 377000000
Español
Investigación de métodos de clasificación de información sobre la actividad internacional comercial de los estados en el marco de un sistema de recuperación de información 9080000 50000000 2330 4280000
Kolomoitseva Irina Aleksandrovna, DonNTU 31200 17000 0 15000
Clasificación de texto 144000000 6000000 3500000 71800000
Algoritmos de clasificación de texto 3540000 7000000 58900 1740000
Clasificación de la información del comercio internacional 39600000 19000000 620000 19700000
Análisis de resultados

Al comparar los resultados de las consultas de diferentes motores de búsqueda, se puede llegar a la conclusión de que es bastante difícil identificar un líder único entre los motores de búsqueda. Pero como en el contexto de los demás destacan Yandex y Google.

Puede ver que el número de páginas encontradas se correlaciona con el alfabeto de la cadena de búsqueda. Por lo tanto, para consultas cirílicas, Yandex es mucho más adecuado para la tarea. Sin embargo, si evalúa los términos de búsqueda en latín, entonces el motor de búsqueda de Google es mucho mejor. El motor de búsqueda Bing se basa en el forastero explícito de datos, pero es necesario tener en cuenta el aspecto de que la relevancia de las páginas encontradas no se evaluó, por lo que no es realista hablar de las deficiencias del sistema. Al mismo tiempo, el motor de búsqueda META muestra resultados bastante buenos, pero debe tenerse en cuenta que se basa en la búsqueda de Google.

La dinámica del número de resultados de búsqueda para cada consulta de búsqueda en cada motor de búsqueda en el tiempo se muestra en el diagrama a continuación.


Imagen 1 - Gráfico de la dinámica del resultado de búsqueda de salida en el tiempo

Como puede ver en el diagrama, la mayoría absoluta de las búsquedas en el tiempo aumentaron el número de páginas encontradas. Algunas consultas guardaron una cantidad casi idéntica de materiales encontrados, lo que se reflejó especialmente en las solicitudes ucranianas y españolas.

También se debe tener en cuenta que algunas de las solicitudes redujeron el número de sitios encontrados y bastante radicales. Este indicador sugiere que los motores de búsqueda mejoran su algoritmo de búsqueda, filtran artículos no únicos o realizan una revisión de los archivos de índice.

De acuerdo con el diagrama, es posible distinguir dos sistemas que se están desarrollando más rápidamente en términos de la cantidad de páginas encontradas. Ellos son Yandex y Bing. Estos sistemas produjeron los mayores incrementos en el tiempo, a saber, 83% y 60%, respectivamente. Estos sistemas también mostraron la mayor disminución, a saber, 28% y 20%, respectivamente. Estos datos demuestran que estos sistemas están trabajando activamente con sus archivos de índice y relevancia de búsqueda.

De acuerdo con el principio del idioma, los líderes indiscutibles son el ruso y el inglés como idiomas de comunicación científica internacional, pero el segmento de habla hispana se está desarrollando muy rápidamente en este momento. El ucraniano en este conjunto no produce tales resultados, pero debe notarse que es un idioma monocultural por tipo de japonés y sueco, por lo tanto, su comparación con los idiomas de comunicación internacional no puede proporcionar una imagen confiable del desarrollo de este segmento del lenguaje.