ДонНТУ
Кафедра АСУ
Факул-т КИТА
Портал
магистров ДонНТУ


Магистр ДонНТУ Стихарь Алина Геннадьевна

Стихарь Алина Геннадьевна

Факультет: компьютерных информационных технологий и автоматики
Кафедра: автоматизированных систем управления
Специальность: информационные управляющие системы

Тема магистерской работы:

Методы и алгоритмы компьютеризированной системы
прогнозирования показателей народонаселения

Научный руководитель: к.т.н., доцент Привалов Максим Владимирович




Разделитель

ОТЧЕТ О РЕЗУЛЬТАТАХ ПОИСКА ПО ТЕМЕ МАГИСТЕРСКОЙ РАБОТЫ

Раздел посвящен анализу проведенной поисковой работы и представляет собой углубленный мультиязычный поиск в Интернет информации по теме магистерской. Поиск проводился в период работы над сайтом, в два этапа: 24.02.2009 и 01.05.2009. Для поиска были использованы самые популярные поисковые системы: Google, Yandex, Rambler, Yahoo, Meta, MSN. Результаты сведены в таблицы, представленные ниже. Каждая таблица, для наглядности, разбивается на 3 блока: запросы на русском, украинском и английском языках. Строка с каждой ключевой фразой подразделяется на две строки, что соответствует количеству найденных документов по первому и второму этапу поиска.

Таблица 1 - Результаты поиска по ключевым фразам

Запросы: ключевые слова и фразы по теме магистерской работы

Google

Yandex

Rambler

Yahoo

Meta

MSN

Запросы на русском языке

Алгоритмы и методы компьютеризированной системы прогнозирования показателей народонаселения

551

697

16

1

3

3

967

2 087

0

1

4

2

Нейронные сети

107 000

377 000

501 000

614 000

13 200

102 000

110 000

495 000

428 000

573 000

14 800

83 500

Деревья решений

868 000

23 000 000

8 000 000

527 000

302 000

1 670 000

1 340 000

27 000 000

276 000

378 000

357 000

1 300 000

Метод главных компонент

334 000

4 000 000

654 000

169 000

119 000

681 000

348 000

5 000 000

22 000

94 800

143 000

579 000

Временные ряды

225 000

13 000 000

10 000 000

273 000

441 000

2 450 000

214 000

14 000 000

496 000

187 000

511 000

475 000

Прогнозирование демографических показателей

57 100

590 000

42 000

21 300

4 000

35 500

59 700

664 000

1 541

13 600

4 300

33 900

Демографические показатели

326 000

1 000 000

1 000 000

423 000

27 700

317 000

402 000

2 000 000

214 000

283 000

32 500

304 000

Хранилища данных

484 000

4 000 000

5 000 000

1 650 000

118 000

1 520

472 000

3 000 000

1 000 000

1 660 000

149 000

402 000

Запросы на украинском языке

Алгоритми та методи комп'ютеризованої системи прогнозування показників народонаселення

1

3

0

0

1

0

6

9

0

1

1

0

Нейронні мережі

8 730

1 502

9 000

1 440

1 400

261

9 420

2 022

9 000

984

2 600

1 020

Дерева рішень

111 000

286 000

147 000

35 5000

49 300

8 620

134 000

412 000

6 000

32 000

61 800

13 200

Метод головних компонент

18 300

89 000

27 000

2 710

33 700

1 120

19 400

48 000

827

1 670

41 500

2 330

Часові ряди

30 400

70 000

1 000 000

52 800

22 300

1 180

38 000

1 000 000

258 000

634

369 000

57 800

Прогнозування демографічних показників

9 590

7 122

3 000

1 400

3 200

353

10 300

8 062

60

1 020

2 800

251

Демографічні показники

52 500

46 000

47 000

19 100

17 600

2 800

57 800

57 000

9 000

13 900

21 900

2 640

Сховища даних

73 800

75 000

192 000

33 800

22 100

4 730

94 100

99 000

13 000

23 100

28 600

3 780

Запросы на английском языке

Algorithms and methods of computing system of forecasting population rates

27 200

27 000

34

228 000

15

39 900

301 000

91 000

0

144 000

22

237 000

Neural networks

11 000 000

1 000 000

274 000

15 200 000

4 200

2 900 000

6 100 000

1 000 000

148 000

10 900 000

5 200

3 950 000

Decision tree

646 000 000

3 000 000

211 000

109 000 000

8 300

14 300 000

111 000 000

4 000 000

18 000

80 900 000

9 200

16 000 000

Method of principal components

26 100 000

995 000

20 000

29 300 000

2 500

4 230 000

23 500 000

67 000

2 000

18 900 000

2 900

4 800 000

Time series

128 000 000

51 000 000

3 000 000

1 750 000 000

149 000

267 000 000

197 000 000

73 000 000

267 000

1 330 000 000

183 000

292 000 000

Forecasting demographics

334 000

271 000

1 609

16 200 000

348

900 400

345 000

243 000

350

11 100 000

383

891 000

Demographics

33 600 000

3 000 000

122 000

145 000 000

5 300

10 900 000

27 400 000

4 000 000

113 000

114 000 000

7 200

11 400 000

Data storage

59 300 000

12 000 000

1 000 000

514 000 000

53 700

95 200 000

83 300 000

16 000 000

418 000

390 000 000

66 900

90 900 000

Таблица 2 - Результаты поиска по ключевым фразам в кавычках

Запросы: ключевые слова и фразы по теме магистерской работы

Google

Yandex

Rambler

Yahoo

Meta

MSN

Запросы на русском языке

"Алгоритмы и методы компьютеризированной системы прогнозирования показателей народонаселения"

0

0

0

0

0

0

0

0

0

0

0

0

"Нейронные сети"

73 100

173 000

224 000

575 000

6 900

88 600

78 800

265 000

277 000

469 000

7 900

83 500

"Деревья решений"

3 490

13 000

7 000

44 000

233

1 790 000

3 770

12 000

7 000

32 200

239

1 290 000

"Метод главных компонент"

4 170

5 037

6 000

13 600

207

726 000

4 320

5 969

6 000

8 890

226

579 000

"Временные ряды"

16 900

23 000

19 000

53 000

807

2 410 000

17 000

27 000

21 000

38 400

918

475 000

"Прогнозирование демографических показателей"

175

19

20

29

0

35 600

191

24

20

16

0

33 900

"Демографические показатели"

120 000

138 000

85 000

203 000

1 700

325 000

200 000

123 000

90 000

138 000

2 000

304 000

"Хранилища данных"

116 000

345 000

388 000

721 000

6 900

802 000

118 000

487 000

423 000

641 000

9 500

402 000

Запросы на украинском языке

"Алгоритми та методи комп'ютеризованої системи прогнозування показників народонаселення"

0

0

0

0

0

0

0

0

0

0

0

0

"Нейронні мережі"

5 520

1 200

1 760

1 290

543

222

6 180

1 792

1 908

890

605

1 070

"Дерева рішень"

1 610

475

589

376

219

9 150

1 910

662

609

296

271

13 200

"Метод головних компонент"

239

82

70

59

53

1 010

272

100

75

55

55

2 240

"Часові ряди"

392

204

223

107

101

1 150

567

268

315

173

135

57 800

"Прогнозування демографічних показників"

1

0

0

1

0

0

0

0

1

1

0

1

"Демографічні показники"

6 590

2 851

2 000

2 590

1 100

1 330

7 810

3 659

2 000

1 690

1 200

2 680

"Сховища даних"

4 100

2 027

1 939

2 510

1 000

380

5 150

2 827

2 000

1 870

1 500

235

Запросы на английском языке

"Algorithms and methods of computing system of forecasting population rates"

0

0

0

0

0

0

0

0

0

0

0

0

"Neural networks"

11 800 000

433 000

53 000

14 800 000

1 800

6 780 000

5 750 000

470 000

56 000

10 500 000

2 100

7 550 000

"Decision tree"

1 150 000

117 000

8 000

4 140 000

412

127 000 000

856 000

112 000

8 000

2 870 000

392

133 000 000

"Method of principal components"

16 600

401

112

9 300

0

1 300

16 600

428

120

2 340

0

118 000 000

"Time series"

19 500 000

867 000

49 000

30 800 000

1 200

435 000 000

17 000

69 000

49 000

21 600 000

1 300

439 000 000

"Forecasting demographics"

138

28

1

36 000

0

199

148

41

0

26 300

0

88

"Demographics"

33 600 000

3 000 000

122 000

145 000 000

5 300

10 900 000

27 500 000

4 000 000

113 000

114 000 000

7 200

11 400 000

"Data storage"

14 300 000

244 000

236 000

60 300 000

11 800

150 000 000

13 200 000

2 000 000

200 000

43 300 000

13 100

155 000 000

Динамику изменения информационной ситуации и эффективность поисковых систем, можно проиллюстрировать удобными для сравнения диаграммами, представленными ниже.

Рисунок 1 – Статистика результатов поиска по русскоязычным запросам
Рисунок 1 – Статистика результатов поиска по русскоязычным запросам

Анализируя результаты поиска по русскоязычным запросам можно сделать вывод, что лидирующую позицию занимает поисковая система Yandex (около 6 000 000 документов), однако ее существенным недостатком можно назвать тот факт, что большая часть ссылок – на малоинформативные статьи.

Рисунок 2 – Статистика результатов поиска по украиноязычным запросам
Рисунок 2 – Статистика результатов поиска по украиноязычным запросам

Анализ же статистики украиноязычных запросов показал, что наиболее эффективными можно считать поисковые системы Yandex, Rambler, Google и Meta.

Рисунок 3 – Статистика результатов поиска по англоязычным запросам
Рисунок 3 – Статистика результатов поиска по англоязычным запросам

Однако проанализировав количество найденных документов, на английском языке, открывается прямо противоположная вышеизложенному картину, т.к. безоговорочное первенство за поисковой системой Yahoo. Именно этот поисковик нашел наибольшее количество документов – более 300 000 000. Удельный же вес поисковиков Rambler и Meta настолько низок, что даже не был отображен на диаграмме, ввиду небольшого количества найденных документов (не более 500 000).

И все же следует очередной раз обратить внимание на тот факт, что за большим количеством найденных документов скрывается “большой минус” – низкая информационная насыщенность найденной информации, в большинстве случаев это реклама, либо ресурсы, за использование которых необходимо внести определенную плату.

Полученные результаты могут отличаться в силу того, что поисковые программы используют разные процедуры индексации текста документов (например, ряд программ не индексируют весь текст, другие отличаются способом учета грамматических особенностей языка и т.д.). Во-вторых, результат поиска представляется в виде списка найденных документов. Этот список может быть столь большим, что просмотреть его за конечный промежуток времени невозможно и результат поиска, таким образом, зависит от порядка, в котором расположены документы.

    Выводы об информационной ситуации по теме магистерской работы:

  • Равномерность освещения вопросов, связанных с темой работы, в различных языковых пространствах. Наибольшее количество найденных материалов – англоязычные, что может свидетельствовать о том, что в основном в этом направлении работают англоязычные исследователи и специалисты, т.е. наибольшее количество статей, индексируемых поисковыми системами представлены на английском языке. Полезных русско- и украиноязычных материалов мало, это свидетельствует о неразвитости этой ниши научных исследований, в свою очередь этот факт лишний раз подтверждает актуальность моей магистерской работы.
  • Динамика изменения информационной ситуации по теме в период работы над сайтом. Из выше представленных диаграмм (рис. 1-3) видно, что существенной разницы, в количестве результатов, между двумя этапами поиска не произошло. Исключение составляет лишь поисковая система Rambler, о возможных причинах такой аномалии будет рассказано ниже.
  • Динамика изменения информационной ситуации по теме с использованием данных из отчетов магистров прошлых лет. На основе отчета о поиске, выпускницы, Гринченко Дарьи Владимировны (студентка факультета ВТИ, 2008 год выпуска) – по теме “Прогнозирование демографического развития региона”, была проанализирована динамика изменения информационной ситуации, на примере русскоязычного запроса “Демографические показатели”. За год количество найденных документов возросло.

Запросы: ключевые слова и фразы по теме магистерской работы

Google

Yandex

Rambler

Yahoo

Meta

MSN

Демографические показатели (05.03.2008)

1 180 000

240 960

162 984

302 000

21 632

Демографические показатели (24.02.2009)

326 000

1 000 000

1 000 000

423 000

27 700

317 000

Эта тенденция, возможно, может быть объяснена возросшим интересом к области демографического прогнозирования.

  • Выявление разного рода аномалий в результатах поиска. При сравнении результатов поиска за 24.02.2009 и 01.05.2009 выявлена следующая аномалия: резкое уменьшение индексируемых ссылок поисковой системой Rambler. Это можно объяснить суммой ряда факторов: чистка базы данных, сбои в работе некоторых серверов, или прекращение существования некоторых ресурсов.

Вверх