Магистр ДонНТУ Нестеренко Дмитрий Сергеевич

Нестеренко Дмитрий Сергеевич

Факультет: Вычислительной техники и информатики
Специальность: Программное обеспечение автоматизированных систем
Тема выпускной работы:

Автоматическое распознавание изолированных слов русского языка на основе вейвлет-анализа

Научный руководитель: доцент, к.т.н. Федяев О.И.


Отчет о результатах поиска по теме выпускной работы

Пояснения к отчету и таблицам

С целью оценки информационной ситуации в Интернет по теме магистерской работы, на данной странице представлен отчет о поиске. Данный отчет достаточно полно отражает информационную ситуацию по теме магистерской работы на момент его составления.

При составлении отчета, выполнялся поиск информации в Интернет с с использованием шести поисковых систем: Google, Rambler, Yandex, Yahoo, Meta, MSN. Все результаты поиска представлены в виде двух таблиц (даты поиска разнесены во времени для оценки динамики изменения информационной ситуации).

Всего произведено 12 поисковых запросов, имеющих отношение к магистерской работе. Из них 4 запроса на английском языке, 4 на русском и 4 на украинском.

Вследствие специфики отображения результатов поиска каждой из поисковых систем, данные в таблицах представлены в следующем виде:

Отчет о поиске за 23.02.2009

Поисковый запрос Google Rambler Yandex Yahoo Meta MSN
(en) Automatic recognition of isolated words of Russian language based on the Wavelet Analysis 1 400 0 696 819 0 866
(en) Wavelet Analysis 508 000 23 000 126 000 3 870 000 939 908 000
(en) Words recognition 37 000 000 196 000 3 000 000 95 700 000 9 000 16 400 000
(en) Recognition of words of Russian language 248 000 22 000 208 000 12 900 000 1 200 1 540 000
(ru) Автоматическое распознавание изолированных слов русского языка на основе вейвлет-анализа 108 7 169 16 6 96
(ru) Вейвлет-анализ 20 500 44 000 20 000 82 800 872 14 800
(ru) Распознавание слов 308 000 1 000 000 2 000 000 288 000 50 000 318 000
(ru) Распознавание слов русского языка 66 400 264 000 601 000 47 300 18 200 82 400
(ua) Автоматичне розпізнавання ізольованих слів російської мови на основі вейвлет-анализу 2 0 1 0 0 0
(ua) Вейвлет-анализ 20 500 44 000 20 000 82 800 872 14 800
(ua) Розпізнавання слів 19 900 56 000 10 000 4 480 4 500 559
(ua) Розпізнавання слів російської мови 3 400 3 000 2 633 464 1 600 133

Отчет о поиске за 17.05.2009

Поисковый запрос Google Rambler Yandex Yahoo Meta MSN
(en) Automatic recognition of isolated words of Russian language based on the Wavelet Analysis 2 060 0 2821 592 0 866
(en) Wavelet Analysis 535 000 22 000 33 000 2 960 000 839 694 000
(en) Words recognition 37 500 000 206 000 4 000 000 74 900 000 9 900 15 500 000
(en) Recognition of words of Russian language 257 000 23 000 236 000 9 930 000 1 300 1 260 000
(ru) Автоматическое распознавание изолированных слов русского языка на основе вейвлет-анализа 116 12 486 8 9 91
(ru) Вейвлет-анализ 13 000 4 000 17 000 62 800 1 000 16 900
(ru) Распознавание слов 273 000 1 000 000 2 000 000 234 000 58 300 270 000
(ru) Распознавание слов русского языка 65 100 309 000 537 000 34 500 18 600 72 200
(ua) Автоматичне розпізнавання ізольованих слів російської мови на основі вейвлет-анализу 2 0 9 0 0 0
(ua) Вейвлет-анализ 13 000 4 000 17 000 62 800 1 000 16 900
(ua) Розпізнавання слів 23 500 52 000 12 000 2 690 4 600 566
(ua) Розпізнавання слів російської мови 4 230 3 000 2 948 336 323 148

Анализ результатов поиска

Проведя анализ результатов поисковых запросов, можно сделать вывод, что среди выбранных поисковых систем, наилучшей является Google. Она показала большое число найденных страниц с наивысшей релевантностью. По этому показателю, Google показал себя лидером среди рассматриваемых поисковых систем.

Достаточно хорошие результаты показала поисковая система Yandex. Большее число результатов, чем Google, она смогла показать только при русскоязычных запросах, практически одинаковое – при украиноязычных, меньшее – при англоязычных. Релевантность найденных страниц также достаточно высока. Полученные результаты отражают языковой приоритет этих поисковых систем.

В результате англоязычных запросов в Yahoo и MSN было получено большое число страниц, но с низкой релевантностью. Большинство результатов не имели ничего общего с тематикой запроса. При русско- и украиноязычных запросах – низкое число результатов.

Оценивая результаты поисковой системы Rambler, можно сделать вывод, что она является русскоязычным аналогом Yahoo и MSN – при русскоязычных запросах результатом было большое число найденных страниц, но с низкой релевантностью.

На последнем месте – поисковая система Meta. Ее основное отличие от других поисковых систем – украиноязычная направленность. Но даже при этом, она показала наихудшие результаты.

Результаты поиска через три месяца не показали существенных изменений. Изменения затронули только систему Rambler при запросе «Вейвлет-анализ»: число найденных страниц сократилось на порядок - с 44 тыс. до 4 тыс. Вероятно, это связано с особенностями работы ситемы индексации Rambler.

На фоне незначительного увеличения числа результатов (в среднем на 8,8%) при англоязычных запросах во всех системах кроме Yahoo, наблюдается снижение количества результатов на русском и украинском языках (в среднем на 13,7%).

Оценивая полученное число результатов поиска в целом для каждой поисковой системы, можно увидеть, что увеличение количества результатов наблюдается в Google (на 2%), Yandex (на 14%), Meta (на 10%), а снижение в Rambler (на 2%), Yahoo (на 22%), MSN (на 7%).

Поисковые системы показали хорошие результаты по ключевым фразам темы выпускной работы, однако при задании точных запросов число найденных страниц было чрезвычайно низким, что свидетельствует о новизне выполняемой работы.