Чернов ИА Автоматизированное извлечение знаний из БД - Отчет о поиске

ДонНТУ> Портал магистров ДонНТУ

Биография | Реферат | Библиотека | Ссылки | Отчет о поиске| Индивидуальное задание


Отчет о поике ключевых слов по теме магистерской работы

Поиск проводился в начале и конце изучения материалов по магистерской работе. В результате поиска должно быть формировалась таблица содержащая результаты поиска 10 ключевых слов в пяти различных поисковых системах . Целью поиска было отслеживания динамики накопления данных по теме разрабатываемой магистерской работы а также сравнение различных поисковых систем.

Для поисковых систем yandex.ru, rambler.ru,meta.ua первый столбец сожержит найденное количество документов, второй - количество серверов, для поисковых систем google.com,yahoo.com указано только найденное количество документов.

Начальный поиск

Поиск был проведен 27 февраля 2006г.

Результаты поиска от 27.02.06
Ключевые слова yandex.ru google.com rambler.ru yahoo.com meta.ua
Datamining 4 428 867 6 290 000  6221 956 891 000 32 23
Извлечение знаний 14 017 1 197 1 280 000 21205 4639 81 400 2724 774
Деревья решений 40 639 1 686 2 050 000 180231 27521 116 000 32009 4013
Decision trees 8 092 1 459 30 800 000  14753  2320 15 800 000 1293 420
Сырые данные 145 623 1 572 920 000 221808 28179 44 500 29854 3637
Обратный логический вывод 906 390 333 000 102028 13524 1 530 628 1072
Экспертная система 311 751 1 148 1 980 000 745509 35503 248 000 17663 2521
Продукционные правила 13 926 1 010 33 500  15688  3095 394 104 53
Raw data 50 657 1 175 102 000 000 70714  6549 47 100 000 3405 654
"Автоматизированное извлечение знаний из баз данных" 0 0 0 0 0 0 0 0
Генетичні алгоритми 29 776 511 804 1022 186 164 454 454

Результаты поиска от 19.05.06
Ключевые слова yandex.ru google.com rambler.ru yahoo.com meta.ua
Datamining 2 844 839 65 500 000 7 481 1 173 735 000 39 29
Извлечение знаний 18 688 1 078 1 040 000 36 660 5 097 32 300 4 457 1 262
Деревья решений 52 991 1 547 6 300 000 203 735 30 265 76 900 62 266 6 834
Decision trees 7 706 1 486 38 300 000 17 158 2 510 9 630 000 2 198 662
Сырые данные 146 368 1 356 716 000 242 839 30 438 25 400 54 347 5 969
Обратный логический вывод 881 402 287 000 95 069 14 457 1 790 10 636 1 774
Экспертная система 328 459 1 267 2 440 000 802 821 37 487 146 000 30 599 4 182
Продукционные правила 14 470 898 32 500 17 198 3 363 478 200 85
Raw data 45 092 133 137 000 000 84 936 7 126 28 200 000 8 882 1 051
"Автоматизированное извлечение знаний из баз данных" 0 0 0 0 0 0 0 0
Автоматизированное извлечение знаний из баз данных 44 27 39 600 3 058 976 154 485 222
Генетичні алгоритми 30 437 462 904 1144 214 174 642 277

Тестовое измерение 30.05.06 было проведено для отсеивания эффекта так называемого танца(пляски) некоторых поиковых систем.


Результаты поиска от 30.05.06
Ключевые слова yandex.ru google.com rambler.ru yahoo.com meta.ua
Datamining 3 045 813 53 800 000 7 528 1 195 602 000 26 22
Извлечение знаний 20 380 1 163 1 490 000 39 028 5 304 28 400 4 497 1 291
Деревья решений 68 646 1 423 2 670 000 215 348 31 640 67 700 64 340 6 993
Decision trees 8 287 1 436 31 900 000 17 461 2 539 8 690 000 1 923 573
Сырые данные 161 533 1 658 993 000 257 180 31 648 24 600 55 275 6 071
Обратный логический вывод 989 428 336 000 100 548 14 961 1 760 10 770 1 787
Экспертная система 368 853 1 352 1 850 000 843 613 38 640 132 000 30 574 4 230
Продукционные правила 15 837 898 39 500 18 072 3 549 468 207 87
Raw data 46 785 748 105 000 000 87 634 7 338 25 200 000 8 266 919
"Автоматизированное извлечение знаний из баз данных" 0 0 0 0 0 0 0 0
Автоматизированное извлечение знаний из баз данных 10 108 592 44 000 3 203 1 008 147 489 214
Генетичні алгоритми 36 881 543 871 1 179 215 163 663 232

Общая характеристика поисковых систем, основанная на результатах поиска по теме:

В результате поиска по ключевым словам темы магистерской работы было выведенно несколько интересных результатов:

  1. Поисковая система Google проявила себя как исстема с самой большой индексной базой. Однако стоить отметить достаточно не высокую индексацию украино язычных ресурсов, о чем свидейтельствует малое количество найденных документов по запросу: "Генетичні алгоритми".
  2. Рост на порядок количества найденных документов, найденных Google, на запрос "Datamining " объясняется тем что данная поисковая система стала автоматически разбивать данный запрос на два отдельных слова, что привело к увеличению числа найденных документов.
  3. Во время проведения поиска Meta.ua был обнаружен интересный факт - число найденных документов практически на все русскоязычные запросы за отчетный период увеличилось вдвое. Данный факт может свитейтельствовать о двух вещах либо первый запросы произошел во время переиндексации базы данных либо данная поисковая система действительно увеличила свой индекс вдвое(см. рисунок).
  4. Результаты поиска в Meta.ua ключевых слов по теме магистерской работы 55Кб.
  5. Обсолютно не информативным локазался запрос "Raw data". Это связано с тем, что данный термин имеет множество других значений не относящихся к области извлечения знаний. Большая часть документов относилась к предментым областям эелектротехники, обработки сигналов и пр.
  6. Тема магистерской работы в полном объеме не была найдена ни одной поисковой систкемой как в началя так и в конце поиска. Поиск по теме с необязательным включением всех слов привел к выдаче результатов мало релевантыми с темой отражаемой в данной магистерской работе. Поиск с необязательным включением всех слов в начале срока поиска не проводился.

ДонНТУ> Портал магистров ДонНТУ> Биография | Реферат | Библиотека | Ссылки | Отчет о поиске| Индивидуальное задание