Отчет о поике ключевых слов по теме магистерской работы
Поиск проводился в начале и конце изучения материалов по магистерской работе. В результате поиска должно быть
формировалась таблица содержащая результаты поиска 10 ключевых слов в пяти различных поисковых системах . Целью поиска было отслеживания динамики накопления данных по теме разрабатываемой магистерской работы а также сравнение различных поисковых систем.
Для поисковых систем yandex.ru, rambler.ru,meta.ua первый столбец сожержит найденное количество документов,
второй - количество серверов, для поисковых систем google.com,yahoo.com указано только найденное количество документов.
Начальный поиск
Поиск был проведен 27 февраля 2006г.
Результаты поиска от 27.02.06
Ключевые слова
yandex.ru
google.com
rambler.ru
yahoo.com
meta.ua
Datamining
4 428
867
6 290 000
6221
956
891 000
32
23
Извлечение знаний
14 017
1 197
1 280 000
21205
4639
81 400
2724
774
Деревья решений
40 639
1 686
2 050 000
180231
27521
116 000
32009
4013
Decision trees
8 092
1 459
30 800 000
14753
2320
15 800 000
1293
420
Сырые данные
145 623
1 572
920 000
221808
28179
44 500
29854
3637
Обратный логический вывод
906
390
333 000
102028
13524
1 530
628
1072
Экспертная система
311 751
1 148
1 980 000
745509
35503
248 000
17663
2521
Продукционные правила
13 926
1 010
33 500
15688
3095
394
104
53
Raw data
50 657
1 175
102 000 000
70714
6549
47 100 000
3405
654
"Автоматизированное извлечение знаний из баз
данных"
0
0
0
0
0
0
0
0
Генетичні алгоритми
29 776
511
804
1022
186
164
454
454
Результаты поиска от 19.05.06
Ключевые слова
yandex.ru
google.com
rambler.ru
yahoo.com
meta.ua
Datamining
2 844
839
65 500 000
7 481
1 173
735 000
39
29
Извлечение знаний
18 688
1 078
1 040 000
36 660
5 097
32 300
4 457
1 262
Деревья решений
52 991
1 547
6 300 000
203 735
30 265
76 900
62 266
6 834
Decision trees
7 706
1 486
38 300 000
17 158
2 510
9 630 000
2 198
662
Сырые данные
146 368
1 356
716 000
242 839
30 438
25 400
54 347
5 969
Обратный логический вывод
881
402
287 000
95 069
14 457
1 790
10 636
1 774
Экспертная система
328 459
1 267
2 440 000
802 821
37 487
146 000
30 599
4 182
Продукционные правила
14 470
898
32 500
17 198
3 363
478
200
85
Raw data
45 092
133
137 000 000
84 936
7 126
28 200 000
8 882
1 051
"Автоматизированное извлечение знаний из баз
данных"
0
0
0
0
0
0
0
0
Автоматизированное извлечение знаний из баз
данных
44
27
39 600
3 058
976
154
485
222
Генетичні алгоритми
30 437
462
904
1144
214
174
642
277
Тестовое измерение 30.05.06 было проведено для отсеивания эффекта так называемого танца(пляски) некоторых поиковых систем.
Результаты поиска от 30.05.06
Ключевые слова
yandex.ru
google.com
rambler.ru
yahoo.com
meta.ua
Datamining
3 045
813
53 800 000
7 528
1 195
602 000
26
22
Извлечение знаний
20 380
1 163
1 490 000
39 028
5 304
28 400
4 497
1 291
Деревья решений
68 646
1 423
2 670 000
215 348
31 640
67 700
64 340
6 993
Decision trees
8 287
1 436
31 900 000
17 461
2 539
8 690 000
1 923
573
Сырые данные
161 533
1 658
993 000
257 180
31 648
24 600
55 275
6 071
Обратный логический вывод
989
428
336 000
100 548
14 961
1 760
10 770
1 787
Экспертная система
368 853
1 352
1 850 000
843 613
38 640
132 000
30 574
4 230
Продукционные правила
15 837
898
39 500
18 072
3 549
468
207
87
Raw data
46 785
748
105 000 000
87 634
7 338
25 200 000
8 266
919
"Автоматизированное извлечение знаний из баз
данных"
0
0
0
0
0
0
0
0
Автоматизированное извлечение знаний из баз
данных
10 108
592
44 000
3 203
1 008
147
489
214
Генетичні алгоритми
36 881
543
871
1 179
215
163
663
232
Общая характеристика поисковых систем, основанная на результатах поиска по теме:
Google - поисковая система являющаяся на сегодняшний день мировым лидером, выводит самое большое число документов на запрос(что позволяет индексная база). Релевантность т.е. соответствие содержание выданных ссылок теме запроса, является лучшей в англоязычном пространстве и второй по качеству в русском пространстве. Однако стоит отметить достаточно слабый индекс украиноязычного пространства интернета. Система пытаеться в top10 выдать документы на языке не только запроса но и языке установленному как основной в ОС и т.д. (На англоязычные запросы даже в первой десятке появляются документы находящиеся в длизких зонах интернета). Данный факт повышает качество выданных данной поисковой сисемой ссылок.
Yahoo - вторая по популяности система в англоязычном пространстве интернета. Обладает намного меньшим чем Google индексом и плохо индексирет не аглоязычное пространство интренета. Релевантность выданных на запрос документов оказывается более низкой это происходит отчасти из-за оплачивания первых мест в рейтингах.
Yandex - самая популярная поисковая система русскоязычного и интернета. Данная система хорошо себя чевствует и в украинском пространстве интернета о чем свидейтельствует хороший индекс украино язычных запросов. Самая высокая релевантность ссылок запросам на русском языке. Наличие поиска по изображениям, а также в словарях и каталогах улучшает возможности этой поисковой системы.
Rambler - вторая по популярности поисковая система в русскоязычном секторе. Большее чем у Yandexa количество найденных документов не приносит должных дивидендов данной поимковой системе, так как не высока релевантность ссылок выданным запросам. А также Rambler активно индексирует менее нагруженные информацией интернет ресурсы(например форумы).
Meta- лучшая украинсткая поисмковая система обладает достаточно скромным индексом, как правило не выходящим за рамки украниского сегмента интернета. Количество выданных документов и релевантность выданного перечня ссылок весьма постедственно. Данная поисковая система с успехом может быть замененая Яндексом. Однако каталоги созданные данной поисковой системой имеют большую ценность для украинского пользователя интернет и не имеют равноценных аналогов.
В результате поиска по ключевым словам темы магистерской работы было выведенно несколько интересных результатов:
Поисковая система Google проявила себя как исстема с самой большой индексной базой. Однако стоить отметить достаточно не высокую индексацию украино язычных ресурсов, о чем свидейтельствует малое количество найденных документов по запросу: "Генетичні алгоритми".
Рост на порядок количества найденных документов, найденных Google, на запрос "Datamining " объясняется тем что данная поисковая система стала автоматически разбивать данный запрос на два отдельных слова, что привело к увеличению числа найденных документов.
Во время проведения поиска Meta.ua был обнаружен интересный факт - число найденных документов практически на все русскоязычные запросы за отчетный период увеличилось вдвое. Данный факт может свитейтельствовать о двух вещах либо первый запросы произошел во время переиндексации базы данных либо данная поисковая система действительно увеличила свой индекс вдвое(см. рисунок).
Обсолютно не информативным локазался запрос "Raw data". Это связано с тем, что данный термин имеет множество других значений не относящихся к области извлечения знаний. Большая часть документов относилась к предментым областям эелектротехники, обработки сигналов и пр.
Тема магистерской работы в полном объеме не была найдена ни одной поисковой систкемой как в началя так и в конце поиска. Поиск по теме с необязательным включением всех слов привел к выдаче результатов мало релевантыми с темой отражаемой в данной магистерской работе. Поиск с необязательным включением всех слов в начале срока поиска не проводился.