Сайт ДонНТУ           Сайт магистров ДонНТУ


Содержание:
Автореферат
Библиотека
Биография
Индивидуальное задание
Результаты поиска
Cсылки

Щербак Ирина Викторовна


магистрантка гр. ЭКИ - 00м ФВТиИ

научный руководитель: Смирнов Александр Владимирович

тема магистерской работы: «Исследование метода повышения точности регрессионных прогнозных моделей»


Результаты поиска

     Для определения распространненности исследуемой темы, было проведено следующее исследование: ряду популярных поисковых сайтов в Интернет был дан ряд запросов и зафиксировано количество найденных сайтов по запросу сайтов.
     Результаты были сведены в таблицу.

Запрос

Google Rambler Yandex Meta-Ukraine
Точность прогноза 1450014900 79377964 16981719 15761673
Регрессионные модели 1970 733 56375638 13681451 180 194
Повышение точности прогноза 4030 4990 40374038 428 505 558 605
Прогнозные регрессионные модели 8680 329329 599 668 19 21
Predictional regression models 1517 0 0 7 9 0 0
Predicted regression models 729000 531 1414 27
Regression models 3130000 3820000 6043 6044 1110 1209 130128
Доверительная область 685721 25089 25093 14261460 1118 1125
Доверительная область, эллипс 2627 224 234 53 64 55
Эллипс рассеивания 163 184 145 156 464481 10 14
STATISTICA 11979981230000 40944103 11421146 194 194


          Данные на 25.02.2005
          Данные на 22.04.2005


     Из таблицы видно, что русскоязычные запросы лучше всего обрабатываются поисковым сервером Rambler, а англоязычные – Google (разумеется, среди рассмотренных). Также можно увидеть, что англоязычный Интернет содержит на несколько порядков больше страниц, содержащих ключевые слова по теме.
     Следует отметить, что "страницы, содержащие ключевые слова по теме" еще не значит "страницы на тему". Это во многом применимо и к другим словам, использованным в запросах. Следовательно, большое число страниц, содержащих искомые ключевые слова, может свидетельствовать как о более обширном представлении темы, так и о большей засоренности информационного пространства.
     Проверить какое из этих утверждений правильное не представляется возможным, так как обработать даже краткое описание нескольких сотен тысяч страницы достаточно трудоемко. Но в силу того, что количество страниц-ответов на запросы с большим количеством ключевых слов или более специальные запросы оказалось в среднем на 2-3 порядка меньше, более вероятной кажется версия о засоренности.

     Вновь затрагивая тему сравнения поисковых сайтов, отметим, что количественные оценки результатов Rambler и Yandex колеблются относительно друг друга. Причем эти колебания не зависят ни от темы, ни от степени ее специализации. Единственный вывод, который можно сделать в данном случае: для повышения вероятности найти необходимую информацию следует параллельно использовать оба сайта.
     Meta-Ukraine является "молодым" сайтом, но уже может составить конкуренцию остальным рассматриваемым поисковым серверам, правда в ограниченном круге тем. При изменении окончания слова "Predictional" на "Predicted" в поисковых системах были найдены сайты содержащие данное слово.

     Для рассмотрения изменения распространенности темы было проведено повторное исследование.

     Из таблицы видно, что ситуация в англоязычной части таблицы в целом не изменилась: результаты некоторых стали больше, но большинство этих изменений несущественны, так как они не превышают 10%. В русскоязычном Интернете можно отметить значительный рост популярности.
     Также сильно изменилось поведение сайтов: усилились позиции Rambler, и расширился англоязычный поиск Yandex. Результаты поиска Meta-Ukraine практически не отличаются.

     В заключение можно сказать, что при поиске в Интернете англоязычной информации по рассматриваемой теме следует использовать Google, и при поиске русскоязычной – Rambler. Yandex и Meta-Ukraine использовать нецелесообразно, несмотря на то, что Yandex в период между экспериментами провел переиндексацию ресурсов Интернет. Возможно, руководство Yandex, считает более приоритетными другие темы.


E-mail scherbakira@mail.ru

Вернуться к началу