Основи кореляційного та регресійного аналізу

У ряді розподілу зіставляються дві послідовності значень: певної ознаки та частот. Залежність між цими послідовностями простежується не завжди. Наприклад, з поданої на рис. 7.2, а гістограми видно, що залежність між величиною доходу та кількістю осіб, які мають такий дохід, існує: що більший дохід, то менша кількість осіб його отримує. Якщо ж подивитися на табл. 7.3, то стає зрозуміло, що залежність між числом на гральній кістці та кількістю його випадань, скоріш за все, відсутня: значення частот зі зростанням числа на кістці не зменшуються і не збільшуються, а «стрибають», поводять себе у певному розумінні випадково.

Побудова ряду розподілу дає змогу зробити лише приблизні, «інтуїтивні» висновки щодо того, чи існує залежність між значеннями ознаки та частотами і який вона має характер. Крім того, залежності можуть існувати між довільними вибірками, а не лише між ознакою та частотами. Більш точне дослідження залежностей між двома чи більшою кількістю вибірок є завданням спеціальних розділів математичної статистики – кореляційного та регресійного аналізу. Кореляційний аналіз дає змогу встановити, чи існує зв'язок між явищами і наскільки цей зв'язок сильний (часто його називають кореляційним зв'язком). Якщо зв'язок виявився суттєвим, то доцільно скористатися методами регресійного аналізу, основне завдання якого полягає у визначенні характеру зв'язку і побудові його математичної моделі. На основі моделі можна передбачити ту або іншу подію, спрогнозувати, як будуть розвиватися певні процеси у разі змінення характеристик об'єкта дослідження.

Факторні та результативні ознаки

Перш ніж застосовувати кореляційний аналіз, варто визначити, які з досліджуваних ознак є факторними (такими, що від них залежать інші), а які – результативними (такими, що самі залежать від інших). Як приклад розглянемо дані про кількість хронічно хворих на астму та концентрацію чадного газу в кількох містах (табл. 7.8). Очевидно, що коли між цими ознаками існує залежність, то саме кількість хронічно хворих залежить від концентрації чадного газу, а не навпаки. Тобто концентрація чадного газу є факторною ознакою, а кількість хронічно хворих на астму – результативною.


Таблиця 7.8. Значення факторної та результативної ознак

Графічний аналіз кореляційного зв'язку

Як же визначити, чи існує залежність між двома ознаками? Найпростіший спосіб - побудувати діаграму розсіювання(рис. 7.3). У Microsoft Excel такі діаграми називають точковими. На осі Х діаграми розсіювання розміщують значення факторної ознаки, на осі у - результативної.


7.3. Точкова діаграма, яка демонструє залежність між кількістю хронічно хворих на астму та рівнем концентрації чадного газу в повітрі

На цій діаграмі усі точки розташовані вздовж деякої уявної лінії, спрямованої зліва знизу вправо вверх. Називається вона лінією тренду. Саме через таку спрямованість лінії тренду можна говорити про наявність прямого кореляційного зв'язку між ознаками (рис. 7.4, а): що вища концентрація чадного газу, то вищий рівень захворюваності на астму. Коли лінія тренду спрямована вправо вниз (рис. 7.4, б), кореляційний зв'язок є оберненим, а якщо дані розсіяні хаотично і напрямок лінії тренду визначити важко (рис. 7.4, в), то кореляційний зв'язок взагалі відсутній.


Рис. 7.4. Кореляційний зв'язок між даними: а – прямий; б – обернений (в – зв'язок відсутній)

Коефіцієнт кореляції

Міцність зв'язку між двома величинами можна виразити і за допомогою коефіцієнта кореляції. Це число k з інтервалу [-1, 1]. Якщо k близьке до – 1, то кореляційний зв'язок між величинами є оберненим, а якщо k близьке до 1 – прямим. Чим ближче k до нуля, тим кореляційний зв'язок слабший. Якщо говорити більш докладно, то міцність лінійного кореляційного зв'язку оцінюється так:

  • |k| 0,8 – сильний кореляційний зв'язок;
  • 0,4 |k| < 0,8 – кореляційний зв'язок наявний;
  • |k| < 0,4 – кореляційний зв'язок відсутній.

У Microsoft Excel для обчислення коефіцієнта кореляції використовується функція CORREL(діапазон_1;діапазон_2) (рос. КОРРЕЛ), де діапазони діапазонн_1 та діапазон_2 містять набори значень, між якими шукається залежність. У разі визначення коефіцієнта кореляції двох вибірок, поданих на рис. 7.3, такими масивами будуть дані у діапазонах В2:Н2 та ВЗ:НЗ. Результатом функції CORREL у нашому випадку буде число 0,9862, що свідчить про наявність дуже сильного кореляційного зв'язку між концентрацією чадного газу в повітрі та кількістю хронічно хворих на астму.

Зазначимо, що функція CORREL визначає коефіцієнт лінійної кореляції, яка свідчить про наявність саме лінійного зв'язку між ознаками. Цей зв'язок буде тим сильніший, чим ближче до певної прямої розташовані точки на діаграмі розсіювання. Насправді існують й інші типи зв'язків. Наприклад, той факт, що точки на діаграмі розсіювання розташовані близько до певної параболи, свідчить про наявність між ознаками квадратичного зв'язку; щоправда, коефіцієнт лінійної кореляції при цьому може бути незначним.

Кореляційна матриця

Коли потрібно порівняти не два, а більше масивів експериментальних даних, будують кореляційну матрицю – таблицю, у якій коефіцієнти кореляції між ознаками розташовані на перетині відповідних рядків і стовпців. Для побудови кореляційної матриці використовують інструмент Кореляція, який запускається за допомогою команди Дані Аналіз Аналіз даних Кореляція.

ПРИМІТКА. Вкладка Дані не містить команди Аналіз даних, необхідно перейти на вкладку Розробник Надбудови та встановити в діалоговому вікні прапорець Пакет аналізу.

Регресійний аналіз

Як уже зазначалося, основне завдання регресійного аналізу – прогнозування. Щоб навести приклад задачі на прогнозування, повернімось до вибірок з табл. 7.8. Значення факторної ознаки (концентрації чадного газу), отримані в результаті статистичного спостереження, коливаються в межах від 1,2 до 4,8 мг/м. Для цих значень рівень захворюваності на астму відомий. Але задамося питанням: яким буде цей рівень, якщо концентрація чадного газу становитиме 10 мг/м? Тобто спробуємо спрогнозувати значення результативної ознаки у разі виходу значення факторної ознаки за межі інтервалу вибірки.

Основним методом, який використовується для прогнозування, є побудова на основі вибіркових даних рівняння регресії вигляду у = f(x) зв'язує факторну ознаку х і результативну ознаку у, та визначення за цим рівнянням невідомих значень результативної ознаки. Рівняння можна подати як аналітично (за допомогою формул), так і графічно. Згадана вище лінія тренду – це не що інше, як графік рівняння регресії.

У Microsoft Excel передбачена можливість автоматичної побудови лінії тренду. Для цього спочатку слід виділити діаграму розсіювання та виконати команду Макет Лінія тренду. Далі у вікні Лінія тренду на вкладці Тип (рис. 7.5, а) потрібно вибрати тип залежності між факторною та результативною ознаками – лінійна, поліноміальна (квадратична, кубічна тощо), логарифмічна та ін. На вкладці Параметри цього вікна (рис. 7.5, б) можна задати, зокрема, величину прогнозу (на скільки прогнозоване значення буде більшим за найбільше вибіркове чи меншим за найменше вибіркове). Це роблять за допомогою лічильників вперед на та назад на в області Прогноз.

На рис. 7.6 показано графік лінії тренду, доданий до точкової діаграми, зображеної на рис. 7.3. Величина прогнозу вперед для цього графіка становить 5 одиниць. З графіка видно, що за концентрації чадного газу 10 мг/м рівень захворюваності на астму становитиме приблизно 120 людей на 1000 жителів міста.


Рис. 7.5. Діалогове вікно Лінія тренду: а – вкладка Тип; б – вкладка Параметри

Рис. 7.6. Графік лінії тренду

Коефіцієнт детермінації

Близькість рівняння регресії та лінії тренду до вибіркових даних характеризується величиною коефіцієнта детермінації R2 (0 R2 1). Рівняння регресії найбільше відповідає дійсності, коли R2 наближається до свого максимального значення. Цей показник використовується в першу чергу для порівняння різних моделей прогнозу та вибору найкращої з них. На точковій діаграмі як значення R2, так і саме рівняння регресії можна відобразити біля лінії тренду (див. рис. 7.6). Для цього на вкладці Параметри вікна Лінія тренду слід встановити прапорці показувати величину вірогідності апроксимації (R^2) на діаграмі та показувати рівняння на діаграмі (див. рис. 7.5, б). Для лінії тренду, яка наведена на рис. 7.6, R2 = 0,9726. Це означає, що лінійне рівняння регресії добре узгоджується з вибірковими даними.