|
Щербак Ирина Викторовна
магистрантка гр. ЭКИ - 00м ФВТиИ
научный руководитель: Смирнов Александр Владимирович
тема магистерской работы: «Исследование метода повышения точности регрессионных прогнозных моделей»
Результаты поиска
Для определения
распространненности исследуемой темы, было проведено следующее
исследование: ряду популярных поисковых сайтов в Интернет был дан ряд
запросов и зафиксировано количество найденных сайтов по запросу
сайтов. Результаты были сведены в
таблицу.
Запрос |
Google |
Rambler |
Yandex |
Meta-Ukraine |
Точность прогноза |
14500 | 14900 |
7937 | 7964 |
1698 | 1719 |
1576 | 1673 |
Регрессионные модели |
1970 | 733 |
5637 | 5638 |
1368 | 1451 |
180 | 194 |
Повышение точности прогноза |
4030 | 4990 |
4037 | 4038 |
428 | 505 |
558 | 605 |
Прогнозные регрессионные модели |
86 | 80 |
329 | 329 |
599 | 668 |
19 | 21 |
Predictional regression models |
15 | 17 |
0 | 0 |
7 | 9 |
0 | 0 |
Predicted regression models |
729000 | |
531 | |
1414 | |
27 | |
Regression models |
3130000 | 3820000 |
6043 | 6044 |
1110 | 1209 |
130 | 128 |
Доверительная область |
685 | 721 |
25089 | 25093 |
1426 | 1460 |
1118 | 1125 |
Доверительная область, эллипс |
26 | 27 |
224 | 234 |
53 | 64 |
5 | 5 |
Эллипс рассеивания |
163 | 184 |
145 | 156 |
464 | 481 |
10 | 14 |
STATISTICA |
1197998 | 1230000 |
4094 | 4103 |
1142 | 1146 |
194 | 194 |
  | Данные на 25.02.2005 |
  | Данные на 22.04.2005 |
Из
таблицы видно, что русскоязычные запросы лучше всего обрабатываются
поисковым сервером Rambler, а англоязычные – Google (разумеется, среди
рассмотренных). Также можно увидеть, что англоязычный Интернет содержит на
несколько порядков больше страниц, содержащих ключевые слова по
теме. Следует отметить, что "страницы,
содержащие ключевые слова по теме" еще не значит "страницы на тему". Это во многом применимо и к другим словам, использованным в запросах. Следовательно, большое число страниц, содержащих искомые ключевые слова, может свидетельствовать как о более обширном представлении темы, так и о большей засоренности информационного
пространства. Проверить какое из этих
утверждений правильное не представляется возможным, так как обработать
даже краткое описание нескольких сотен тысяч страницы достаточно
трудоемко. Но в силу того, что количество страниц-ответов на запросы с
большим количеством ключевых слов или более специальные запросы оказалось
в среднем на 2-3 порядка меньше, более вероятной кажется версия о
засоренности.
Вновь
затрагивая тему сравнения поисковых сайтов, отметим, что количественные
оценки результатов Rambler и Yandex колеблются относительно друг друга.
Причем эти колебания не зависят ни от темы, ни от степени ее
специализации. Единственный вывод, который можно сделать в данном случае:
для повышения вероятности найти необходимую информацию следует параллельно
использовать оба сайта. Meta-Ukraine
является "молодым" сайтом, но уже может составить конкуренцию остальным
рассматриваемым поисковым серверам, правда в ограниченном круге
тем. При изменении окончания слова "Predictional" на "Predicted" в поисковых системах были найдены сайты содержащие данное слово.
Для рассмотрения изменения
распространенности темы было проведено повторное
исследование.
Из таблицы видно, что ситуация в англоязычной части таблицы в целом
не изменилась: результаты некоторых стали больше, но
большинство этих изменений несущественны, так как они не превышают 10%. В русскоязычном Интернете можно отметить значительный рост
популярности. Также сильно изменилось
поведение сайтов: усилились позиции Rambler, и расширился англоязычный
поиск Yandex. Результаты поиска Meta-Ukraine практически не
отличаются.
В заключение можно
сказать, что при поиске в Интернете англоязычной информации по
рассматриваемой теме следует использовать Google, и при поиске
русскоязычной – Rambler. Yandex и Meta-Ukraine использовать
нецелесообразно, несмотря на то, что Yandex в период между экспериментами
провел переиндексацию ресурсов Интернет. Возможно, руководство Yandex,
считает более приоритетными другие темы.
scherbakira@mail.ru
|