Ерина А. М., "Статистичне моделювання та прогнозування": Уч. пособие. - К.: КНЭУ, 2001. - 170 с.
Источник: www.gmdh.net/articles/theory/StatModeling.pdf

Статистичний аналіз даних стає невід'ємним атрибутом системи управління на усіх її рівнях - від невеликої фірми до національної економіки в цілому. Статистичні моделі використовують для діагностики стану об'єктів управління, при вивченні причинно-наслідкового механізму формування варіації та динаміки соціально-економічних явищ і процесів, у моніторингу економічної кон'юнктури, при прогнозуванні та прийнятті оптимальних управлінських рішень.

Оволодіння багатим арсеналом методів статистичної обробки даних з використанням комп'ютерних технологій є важливою складовою професійної підготовки економіста. Саме цій меті підпорядковано курс «Статистичне моделювання та прогнозування». Відповідно до програми курсу в навчальному посібнику розглядаються:
• методологічні принципи статистичного моделювання та про-пргяозування, перевірки гіпотез і верифікації прогнозів;
• моделі багатовимірних оцінок (рейтингів, латентних факто-рів) і моделі класифікацій;
• різноманітні моделі динаміки (трендові, сезонного ритму, повного циклу), комплексне їх використання при прогнозуванні;
• модифікації множинної регресії; адаптація основних засад регресійного аналізу до специфіки об'єктів моделювання та ін-формаційної бази;
• моделі багатофакторного прогнозування за даними взає-мозв'язаних динамічних рядів;
• моделювання причинних комплексів системами рівнянь. При викладенні навчального матеріалу наголошується на двох аспектах:
1) на аналітичних можливостях і межах застосування кожного типу моделей;
2) на використанні інтегрованої системи обробки даних Statistica, яка надає користувачеві унікальні можливості поглиб-леного аналізу статистичних закономірностей.
Логічна структура аналізу ілюструється на конкретних прикладах соціально-економічного змісту (за умовними даними). Для кожного типу моделей розглядаються принципи формування інформаційної бази, вибору процедур аналізу, інтерпретації результат. Методологія обробки даних у системі Statistica ґрунту-ється на електронних таблицях типу MS Excel
Акцентуючи увагу студентів на параметрах моделей, таблиці з результатами аналізу і графіки наводяться у стандартному вигля-ді англійською мовою. Специфікація включених у модель ознак і змістовна інтерпретація параметрів моделі розкривається в ко-ментарях до таблиць і графіків.
Для ймовірнісної оцінки параметрів моделей у таблицях результате пропонуються фактичні рівні істотності p-level. 3 метою самостійної перевірки гіпотез щодо окремих властивостей проце-су чи адекватності моделі в цілому в додатках наведено фрагмента таблиць найпоширеніших статистичних критеріїв.
Посібник рекомендується для студентів, аспірантів, виклада-чів, науковців і практиків, діяльність яких повязана з обробкою та аналізом статистичної інформації.


1. 1. ЛОГІКА ПРИКЛАДНОГО СТАТИСТИЧНОГО МОДЕЛЮВАННЯ

Моделювання - один з ефективних за-собів пізнання законів і закономірностей навколишнього світу. Суть моделювання полягає в заміні реального процесу пев-ною конструкцією, яка відтворює основні, найістотніші риси процесу, абстрагуючись від вторинних, неістотних. Будь-яка кон-струкція - фізична чи математична - це спрощений, схематичний образ реальное -ті. Мистецтво моделювання саме й поля-гає в тому, щоб знати, що, де, коли та як можна і треба спрощувати. Особливого значения набувають моделі при вивченні зако-номірностей масових процесів, які недоступні прямому спо-стереженню і не піддаються експериментуванню. Передусім це стосується соціально-економічних явищ і процесів, закономір-ності яких формуються під впливом безлічі взаємопов'язаних факторів і за складністю переважають закони фізики, хімії чи біології.
За своею природою соціально-економічні явища і проце-си - стохастичні, ймовірнісні; невизначеність - їх внутрішня властивість. Вивчення цих процесів, передбачення перспектив їх подальшого розвитку, прийняття оптимальних управлінсь-ких рішень мають спиратися на такі моделі, які й в умовах не-визначеності забезпечують сталість і надійність висновків. Такими є статистичні моделі. Вони належать до класу математич-них, виражаються у формі рівнянь, функцій, алгоритмів; при їх розв'язуванні поєднуються логіко-алгебраїчні та ймовірнісні методи.
Формально статистична модель являє собою абстрактну схему відношень між величинами, що характеризуют властивості реального процесу. Вибір же цих властивостей і розробка схем від-ношень між ними здійснюється неформальним шляхом. На осно-ві апріорного аналізу природи процесу формулюються гіпотези щодо окремих його властивостей і закономірностей. Гіпотези пе-ревіряються на фактичних даних.
Зв'язок між математичною схемою моделі і реальним проце-сом забезпечується поєднанням у моделі інформації двох типів:
1) апріорі логічно обґрунтованих гіпотез щодо природа та ха рактеру властивостей процесу, співвідношень і взаємозв'язків між ними;
2) емпіричних даних, які характеризуют ці властивості. Модель встановлює відповідність між сукупністю фактів і гі- потезами, імітує механізм формування закономірностей. На моделях проводяться експерименти, результати яких поширюються на реальність. Основна вимога, що ставиться до моделі, - подіб-ність, адекватність її реальному процесу.
Аби зрозуміти загальну логіку статистичного моделювання, умовно розкладемо його на етапи:
1) Характеристика мети та об'єкта моделювання.
2) Розвідувальний аналіз даних.
3) Математична формалізація моделі.
4) Оцінювання параметрів моделі. 5) Перевірка адекватності моделі. 6) Аналіз та інтерпретація результатів.
На першому етапі визначаються мета та об'єкт моделювання. Мета - це кінцеве призначення моделі. Скажімо, діагностика процесу, аналіз механізму його формування, тенденцій розвитку тощо. Залежно від мети дослідження один і той самий процес можна описати різними моделями.
Об'єктом моделювання виступає статистична сукупність, в якій реалізується закономірність. Формально будь-яку сукупність можна представити у вигляді впорядкованого набору даних з параметрами п, т, Т, де п - кількість елементів сукупності (j=1, 2, ..., п), т — кількість зареєстрованих у j-ro елемента ознак (і = 1, 2,..., т), Т - календарний термін періоду з певними квантами часу (рік, квартал, місяць, доба тощо). Отже, інформаційна ода-ниця об'єкта моделювання — значения і-ї ознаки у j-ro елемента сукупності у t-му періоді - хіjt. Якщо сукупність вивчається в статиці, то інформація представляється матрицею п • т, якщо в динаміці, то матрицею Т • т.
Характеристика об'єкта моделювання включає такі момента:
* вибір единичного елемента сукупності — носія характерних для закономірності рис;
* визначення просторових і часових меж об'єкта моделювання;
* формування ознакової множини моделі.
Вибір первинного елемента сукупності залежить від рівня об'єкта моделювання. Скажімо, продуктивність праці можна вив-чати на рівні галузі, окремих підприємств, цехів і навіть окремих робітників. Очевидно, що у кожному випадку елемент сукупності буде іншим. Межі об'єкта моделювання задаються обсягом суку-пності п для статичних моделей і тривалістю періоду Т - для динамічних.
При формуванні ознакової множини X вирішальну роль виді-грають експертні оцінки значущості та інформативності окремих ознак, враховується можливість їх точного вимірювання, діапа-зон варіації, трудомісткість збирання інформації.
У статистичному моделюванні сукупність завжда розглядає-ться як вибірка - класична чи гіпотетична. Класична вибір-ка - це частина реальної генеральної сукупності, відібрана для обстеження за принципами вибіркового методу. Гіпотетична ге-неральна сукупність оперує не кількістю елементів, а кількістю можливих наслідків функціонування об'єкта моделювання в одних і тих самих умовах. Отже, фактичні дані, навіть якщо вони є результатом суцільного обстеження сукупності, розглядаються як випадкові реалізації стохастичного, непередбачуваного процесу. Це дає підстави для ймовірнісного оцінювання результатів моделювання.
Завдання ймовірнісного оцінювання - встановити, наскільки виявлена закономірність позбавлена випадкових впливів, на-скільки вона характерна для того комплексу умов, у яких функ-ціонує об'єкт моделювання. Якісна своєрідність і неповторність статистичних сукупностей потребує інтерпретації цих оцінок щодо конкретних умов простору і часу. В окремих випадках імо-вірнісне оцінювання результатів суцільного спостереження недо-речне, скажімо, при визначенні рейтингів окремих елементів су-купності. Проте мета конкретного дослідження не може відки-нути правомірність використання таких оцінок. Розвідувальний аналіз даних передбачає:
* статистичне описування об'єкта — визначення середніх, стандартних відхилень, інших характеристик розподілу;
* уніфікацію типів ознак, приведения їх до одного виду;
* тестування сукупності на однорідність, ідентифікацію ано-мальних спостережень;
* відтворення пропущених даних;
* оцінювання взаємозв'язків між ознаками.
Побудова моделі грунтується на основі певних правил та ал-горитмів, які визначають порядок розрахунків і математичних дій, необхідних для обробки інформації. На етапі математичної формалізації моделі обгрунтовується алгебраїчна форма розра-хунків, відношення між властивостями процесу описуються символами та знаками, порядок розрахунків - блок-схемами.
Оцінювання параметрів моделі - це етап комп'ютерної об-робки даних. В 1. 4 анонсується система Statistica, яка надає уні-кальні можливості експериментування, розвідки, графічного ві-дображення і поглибленого аналізу даних, у якій сучасні методи статистичного моделювання та прогнозування реалізовані з ви-користанням новітніх комп'ютерних технологій.
Перевірка адекватності моделі означає оцінювання ступеня відповідності параметрів моделі характеристикам об'єкта. На цьому етапі використовують різні процедури порівняння модель-них висновків, перевірки статистичних гіпотез за допомогою ста-тистичних критеріїв. Перевірка адекватності моделі мае сенс лише щодо мети дослідження і не може бути абстрактною.
Заключний етап моделювання - аналіз та інтерпретація ре-зультатів - один із найскладніших і найвідповідальніших. Складність його полягає у тому, що для інтерпретації результатів не існує готових алгоритмів чи рецептів. Єдина спільна для всіх моделей вимога — інтерпретація мае узгоджуватися з первинни-ми гіпотезами. Основні висновки формулюються в змістовних термінах: зміст параметрів моделі, правильність перевірюваних гіпотез, оцінювання ступеня їх вірогідності.
Отже, можна сформулювати два принципи статистичного моделювання:
* підпорядкованість меті дослідження на всіх етапах моделювання;
* забезпечення адекватності моделі.
Слід пам'ятати, що едино правильної, «ідеальної» моделі не існує. Ту ж саму закономірність можна описати різними моделями. Вибір того чи іншого типу моделі залежить від мети дослі-дження, специфіки процесу (явища), масштабу об'єкта моделювання, наявної інформації, технічного та програмного забезпечення.

1. 2. СУТНІСТЬ I ВИДИ СТАТИСТИЧНИХ ПРОГНОЗ IB

Одна з найскладніших проблем системи управління - перед-бачити майбутнє і віднайти ефективні рішення в умовах невизна-ченості. Інструментом мінімізації невизначеності слугує прогнозування, а прогнозом називають науково обґрунтований висновок про майбутні події, про перспективи розвитку процесів, про мо-жливі наслідки управлінських рішень.

За специфікою об'єктів прогнозування прогнози поділяють на науково-технічні, економічні, соціальні, військово-політичні тощо. Економічні прогнози, в свою чергу, класифікують за масштабністю об'єкта на глобальні (світові), макроекономічні, структурні (міжга-лузеві та міжрегіональні), регіональні, галузеві, мікроекономічні.
Прогнозування передбачає систему наукових доведень, вико-ристання методів і прийомів з різним ступеней формалізації, узгодженість окремих висновків і оцінок щодо майбутнього розвитку процесу. В світовій практиці прикладного прогнозування використовують різні методи: статистичні (прогнозна екстрапо-ляція), функціонально-ієрархічні (прогнозні сценарії), методи структурно!' аналоги, імітаційного моделювання, експертні оцін-ки. Кожен метод мае свої особливості, позитивні якості й вади, свої межі використання.
При прогнозуванні соціально-економічних процесів перевага віддається статистичним методам, прогнозним результатом яких є очікувані у майбутньому значения характеристик процесу.
Очевидно, що майбутнє неможливо спостерігати, а очікуваний результат - виміряти, його можна лише передбачити за певних умов, скажімо, «... якщо тенденція не зміниться, то... » або «... якщо станешься подія А, то... » і т. ін. Якщо умови змінять-ся, то автоматично зміниться й результат прогнозування. Отже, статистичний прогноз, побудований за схемою «... якщо, то... », завжди є умовним.
Іншою особливістю статистичного прогнозу є визначеність його в часі. Часовни горизонт прогнозу називають періодом упе-редження. За тривалістю цього періоду вирізняють прогнози: ко-роткострокові (до 1 року), середньострокові (до 5 років) і довго-строкові (від 5 до 20 років і більше). Тривалість періоду упе-редження залежить від специфіки об'єкта прогнозування, інтен-сивності динаміки, тривалості дії виявлених закономірностей та тенденцій.
Прогнозний результат на період упередження можна предста-вити одним числом (точковий прогноз) або інтервалом значень, до якого з певною ймовірністю належить прогнозна величина (інтервальний прогноз).
Статистичні прогнози грунтуються на гіпотезах про стабіль-ність значень величини, що прогнозується; закону ії розподілу; взаємозв'язків з іншими величинами тощо. Основний інструмент прогнозування - екстраполяція. Суть прогнозно! екстраполяції полягає в поширенні закономі-рностей, зв'язків і відношень, виявлених в t-му періоді, за йогомежі. Залежно від гіпотез щодо механізму формування і подаль-шого розвитку процесу використовуються різні методи прогнозно! екстраполяції, їх можна об'єднати в дві групи:
• екстраполяція закономірностей розвитку - тенденцій і ко-ливань;
• екстраполяція причинно-наслідкового механізму формування процесу — багатофакторне прогнозування.
Ці методи різняться не процедурою розрахунків прогнозу, а способом описування об'єкта моделювання. Екстраполяція зако-номірностей розвитку грунтується на вивченні його передісторії, виявленні загальних і усталених тенденцій, траєкторій зміни в часі. Абстрагуючись від причин формування процесу, закономір-ності його розвитку розглядають як функцію часу. Інформацій-ною базою прогнозування слугують одномірні динамічні ряди.
При багатофакторному прогнозуванні процес розглядається як функція певної множини факторів, вплив яких аналізується од-ночасно або з деяким запізненням. Інформаційною базою висту-пає система взаємозв'язаних динамічних рядів. Оскільки фактори включаються в модель у явному вигляді, то особливого значения набуває апріорний, теоретичний аналіз структури взаємозв'язків.
Важливим етапом статистичного прогнозування є верифікація прогнозів, тобто оцінювання їх точності та обгрунтованості. На етапі верифікації використовують сукупність критеріїв, способів і процедур, які дають можливість оцінити якість прогнозу.
Найбільш поширене ретроспективне оцінювання прогнозу, тобто оцінювання прогнозу для минутого часу (ex-post прогноз). Процедура перевірки така. Динамічний ряд поділяється на дві ча-стини: перша - для t= l, 2, 3,...,p- називається ретроспекцією (передісторією), друга - для t =p + I,p + 2, р + 3,..., р +(п -р) -прогнозним періодом.

1. 3. МЕТОД ЕКСПЕРТНИХ ОЦІНОК

Характерною особливістю моделювання та прогнозування со-ціально-економічних процесів є багатоваріантність, тобто мож-ливість використання різних методів, моделей, інформаційного забезпечення, критеріїв оцінювання адекватності моделі тощо. Вибір між конкуруючими варіантами базується на певній системі правил, що забезпечують надання обґрунтованих оцінок кожному варіанту.
Уважається, що експерт (лат. expertus — досвідчений) во-лодіє цією системою правил і може порівняти варіанти, припи-суючи кожному з них числа. Найчастіше перевага чи віднос-на значущість варіантів встановлюється за допомогою мето-дів ранжування, попарних порівнянь або безпосереднього оці-нювання.
При ранжуванні експерт повинен розмістити варіанти (фактори, моделі, об'єкти тощо) у порядку, який вважає раціональним, і приписати кожному з них числа натурального ряду — ранги 1, 2, ..., п. Кількість рангів дорівнює кіль-кості варіантів. Якщо експерт надає двом і більше варіан-там однакові ранги, то кожному з цих варіантів приписуєть-ся середній ранг, обчислений з відповідних чисел натурального ряду.
При обґрунтуванні складних управлінських рішень в умо-вах невизначеності, при довгостроковому прогнозуванні роз-витку науки, техніки, економіки використовують групові екс-пертизи. Надійність групових оцінок залежить від узгодженос-ті думок експертів, що потребує відповідної статистичної об-робки інформації.
При груповій експертизі (п експертів) для кожного /-го варіан-та визначається сума рангів 2Д,-, за якою упорядковуються варі-анти. Скажімо, перший — найвищий — ранг надається варіанту, який набирає найменшу суму рангів, а останній — варіанту з найбільшою сумою рангів. Результати опитування експертів оформляються у вигляді матриці.

1. 4. КОМП’ЮТЕРНІ ТЕХНОЛОГІЇ СТАТИСТИЧНОГО МОДЕЛЮВАННЯ

Програмне забезпечення статистичних досліджень досить роз-винуте. Всесвітньо відомі статистичні пакети для комплексної обробки даних: BMDP, SPSS, SAS, Statgraphics. 3 1995 p. світовим лідером на ринку статистичного програмного забезпечення ви-знається інтегрована система Statistica для Windows (версія 5.0). Багатофункціональна, графічно орієнтована на обробку масових даних система Statistica відповідає основним стандартам Windows. Передусім це стандарти користувацького інтерфейсу — MDI, ви-користання буфера обміну, механізму динамічного зв'язку (DDE) з іншими додатками; система шдтримує всі операщї, реалізовані за допомогою методу Drag-and-Drop — Перетягти та опустити, включаючи автозаповнення, інші.
Складніші процедури обробки даних у системі Statistica вико-нує спеціалізований модуль Data Management — Управління да-ними, а для обробки великих масивів даних або даних з довгими текстовими значениями застосовують процедури Megafile Manager Data — Менеджера мегафайлів. Система Statistica працює з чотирма типами документів. Це:
• електронна таблиця Spreadsheet, призначена для введения і перетворення первинних даних;
• електронна таблиця Scrollsheet — для виведення результатів аналізу;
• графік — для візуалізації результатів обробки та аналізу даних;
•звіт — файл у формі RTF (розширений текстовий формат), в якому зберігається текстова, числова і графічна інформація.
Усі статистичні процедури системи розбито на окремі модулі, кожен з яких об'єднує групу логічно зв'язаних між собою статис-тичних методів і в рамках конкретної моделі забезпечує повний і всебічний аналіз закономірностей. Наприклад, у модулі Basic Statistics / Tables — Основні статистики і таблиці пропонується широкий вибір методів розвідувального статистичного аналізу: характеристики варіації і форми розподілу, групування та класи-фікації, таблиці дисперсійного аналізу Anova, всі види коефіцієн-тів щільності зв'язку, критерії для тестування нормальності роз-поділу, істотності зв'язку тощо.
Модуль Multiple Regression — Множинна регресія включає вичерпний набір засобів множинної лінійної і нелінійної регресії, багатофакторного прогнозування, аналіз залишків і викидів, тестування гіпотез регресійного аналізу.
Модуль Time Series / Forecasting — Часові ряди і прогнозування об'єднує процедури аналізу закономірностей динаміки — тенденцій розвитку і коливань. Модуль пропонує різні методи згладжування рядів, описування трендів, сезонної декомпозиції, авторегресійного аналізу, прогнозної екстраполяції.
Система Statistica включає модуль Anova / Manova — Диспер-сійний аналіз, увесь арсенал методів багатовимірного аналізу (кластерний, дискримінантний, факторний аналіз, факторне шка-лювання, канонічні кореляції).
Особливе місце посідає модуль Sepath — Моделювання взає-мозв'язків системами структурних рівнянь. Зазначені модулі покривають практично весь спектр сучасних методів статистичного моделювання.
Запуск модуля здійснюється через перемикач модулів — Module Switcher. У кожному модулі робота починається із Стартової па-нелі, де відкривається файл первинних даних, вибирається процедура обробки даних і визначаються відповідні їй параметри.

Ерина А. М., "Статистичне моделювання та прогнозування": Уч. пособие. - К.: КНЭУ, 2001. - 170 с.
Источник: www.gmdh.net/articles/theory/StatModeling.pdf