Новини освіти і науки:

Тлумачний словник
Авто
Автоматизація
Архітектура
Астрономія
Аудит
Біологія
Будівництво
Бухгалтерія
Винахідництво
Виробництво
Військова справа
Генетика
Географія
Геологія
Господарство
Держава
Дім
Екологія
Економетрика
Економіка
Електроніка
Журналістика та ЗМІ
Зв'язок
Іноземні мови
Інформатика
Історія
Комп'ютери
Креслення
Кулінарія
Культура
Лексикологія
Література
Логіка
Маркетинг
Математика
Машинобудування
Медицина
Менеджмент
Метали і Зварювання
Механіка
Мистецтво
Музика
Населення
Освіта
Охорона безпеки життя
Охорона Праці
Педагогіка
Політика
Право
Програмування
Промисловість
Психологія
Радіо
Регилия
Соціологія
Спорт
Стандартизація
Технології
Торгівля
Туризм
Фізика
Фізіологія
Філософія
Фінанси
Хімія
Юриспунденкция

Тема. Парна лінійна регресія.

Лекція 2-3.

Насичення з парової фази

При даному методі насичення дифундуючий елемент подається до поверхні виробу з парової фази, яка утворюється при нагріванні металу або сплаву, що містить цей метал. Пари металу адсорбуються на поверхні виробу і в результаті високої температури останнього утворюється хімічна сполука. Метод реалізується контактним і неконтактним способами. При контактному способі випаровування металу проходить в реакційному середовищі поблизу від місць контактування порошку дифундуючого металу з поверхнею виробу. При неконтактному способі випаровування проходить на деякій відстані від насичуваної поверхні.

Товщина дифузійних покриттів залежить від двох основних факторів: тиску парів дифундуючого металу і швидкості дифузії елементів у виріб.

1. Види зв’язків між величинами. Рівняння регресії.

2. Кореляційна та регресійна залежність.

3. Метод найменших квадратів (МНК) для парної регресії.

4. Оцінка дисперсії збурень.

5. Коефіцієнт кореляції та детермінації.

6. Поняття про ступені вільності. Перевірка моделі на адекватність за критерієм Фішера.

7.Прогнозування.

1.Розрізняють функціональний та стохастичний зв’язки між залежними змінними.

Функціональний зв'язок передбачає, що кожному значенню незалежної (однієї або декількох) змінної X відповідає єдине значення залежної змінної Y. Функціональна форма зв'язку зазвичай виражається формулою і здебільшого використовується у природничих науках.

Стохастичний зв’язоквиявляється як узгоджена зміна двох чи більше ознак. Стохастичний (імовірнісний) зв’язок полягає в тому, що одна випадкова величина реагує на зміну іншої випадкової величини шляхом зміни свого закону розподілу.

Поняття стохастичного зв’язку є узагальненням поняття функціонального зв’язку.

Частинним випадком стохастичного зв’язку є статистичний зв'язок. Він характеризується тим, що результативна ознака не повністю визначається факторними ознаками. Цей уплив визначається тільки в загальному, в середньому, проте в окремих випадках можуть бути отримані результати, які навіть суперечать установленому зв’язкові.

Наприклад, продуктивність праці тим вища, що більший стаж працівника. Але нема підстав уважати, що тут існує взаємно однозначна відповідність, тобто малоймовірно, що різні працівники з однаковим стажем роботи покажуть однакову продуктивність праці. Розбіжності в показниках рівня продуктивності праці можна пояснити тим, що продуктивність праці визначається не тільки стажем роботи, але й іншими факторами, які не взято до уваги, такими, наприклад, як якість обладнання, освіта, вік тощо. Отже, різні працівники з однаковим стажем X працюють з різними продуктивностями Y. Але середня продуктивність праці, здобута на основі великої кількості спостережень, загалом зростатиме зі збільшенням стажу роботи працівника. Це є приклад статистичного звязку між величинами.

2. Статистичні зв’язки поділяються на кореляційні та регресійні. Цей поділ ґрунтується на тому, що фактор X може мати різний характер – бути випадковим або невипадковим (детермінованим).

Залежність між однією випадковою величиною і умовним середнім значенням іншої випадкової величини називають кореляційною залежністю. Отже, в цьому випадку обидва взаємопов’язані явища описуються випадковими величинами.

Рівняння, яке описує кореляційну залежність, називають рівнянням регресії.

На практиці дуже поширені ситуації, коли змінну X можна вважати не стохастичною, контрольованою дослідником. При цьому кожному невипадковому значенню X відповідає деякий генеральний розподіл величини Y. Спостережувані значення змінної Y розглядають як вибіркові значення з цього розподілу. Зв'язок між величинами в цьому випадку називають регресійним.

Регресійні зв’язки виражають залежність між випадковими і невипадковими величинами.

Кореляційне поле – це діаграма, на якій зображено сукупність значень двох ознак. Цю діаграму також називають діаграмою розсіювання.

Кореляцію двох змінних називають парною, а кореляцію більше ніж двох змінних – множинною.

Якщо із збільшенням змінної X змінна Y у середньому також збільшиться, то кажуть, що між змінними існує додатний зв'язок (додатна кореляція), а якщо зі збільшенням X змінна Y у середньому зменшується , то маємо від’ємний зв'язок (від’ємну кореляція).

Якщо зв'язок між X та Y відсутній, то маємо нульову кореляцію.

Зв'язок між залежною й незалежною змінними найчастіше зображають у вигляді рівняння регресії. Такі моделі, з одного боку, дають змогу зясувати інтенсивність упливу фактора на залежну змінну. З другого боку – і це головне, - ті моделі застосовують у прогностичних дослідженнях.

У випадку парної регресії наочною формою подання інформації отриманої в результаті обстеження вибірки з генеральної сукупності, є діаграма розсіювання – сукупність точок (x_i_,,y_i), зображених на площині. Ці вибіркові дані, а також теоретичні знання про взаємозв’язки між економічними показниками, є важливими джерелами аналізу, на основі яких можна робити припущення щодо форми залежності між X та Y.

Припустимо, що діаграма розсіювання має вигляд:

Тоді природно припустити (висловити гіпотезу), що змінні X та Y у генеральній сукупності пов’язані лінійною залежністю, яку можна подати у вигляді:

Y=а₀+а₁ X+ (1)

Де X та Y – спостережувані дані, а₀, а₁– невідомі параметри (коефіцієнти) регресії, - випадкові величини (збурення), яка описує відхилення від істинної регресії.

Величини описує вплив невідомих та неврахованих факторів вимірювань, а також уплив відомих факторів, що не піддаються вимірюванням (надмірна схильність до заощадження чи витрачання грошей, уподобання тощо). Слід пам’ятати що - не спостережувана величина.

Для окремого спостереження, і-го за номером, рівняння (1) набуває вигляду

. (2)

Збурення називають також помилками або регресійними залишками.

Для того, щоб модель (1) можна було використати на практиці, потрібно мати значення параметрів а₀, а₁. Однак істинні їхні значення не можна дістати, оскільки для їх пошуку ми маємо вибіркові дані. Тому здобуті значення параметрів будуть статистичними оцінками істинних (але невідомих) параметрів.

Означення. Оцінка (статистична) – це наближене значення шуканої величини, отримане на основі вибіркового спостереження, яке забезпечує можливість прийняття обґрунтованих рішень про невідомі параметри генеральної сукупності.

Нехай шуканий параметр генеральної сукупності - В. На вибіркової сукупності знаходимо значення вибіркової характеристики В.

Припустимо, що за вибіркою об’єму n знайдена оцінка В₁.

Повторимо дослід, тобто з генеральної сукупності виберемо ще одну вибірку також об’єму і за її даними знайдемо оцінку В₂_.

Повторюючи дослід багато раз, отримаємо числа В_1, В₂,…, В_k_., які в загальному відрізняються між собою.

Таким чином оцінку В можна розглядати як випадкову величину а числа В_1, В₂,…, В_k, як її можливі значення.

Означення. Статистична оцінка В параметра В називається незміщеною, якщо М(В)= В. У протилежному випадку оцінку називають зміщеною.

Означення. Ефективною називають ту з незміщених оцінок, яка має найменшу дисперсію, тобто ефективна оцінка – це найкраща з поміж незміщених оцінок.

Означення. Обгрунтованою називають статистичну оцінку, яка при n→∞ прямує по імовірності до значення параметра, який оцінюється.

Обгрунтована оцінка означає, що чим більша чисельність вибірки тим більша ймовірність, що помилка оцінки не перевищить скільки завгодно малої величини.

Розрізняють точковета інтервальнеоцінювання.

В результаті перевірки гіпотези, може бути прийняте неправильне рішення, тобто можуть бути допущені помилки. Помилки бувають 1-го та 2-го роду.

Помилка 1-го родуполягає в тому, що буде відкинута правильна гіпотеза.

Помилка 2-го родуполягає в тому, що буде прийнята неправильна гіпотеза. Ймовірність зробити помилку 1-го роду прийнято позначати α.

3. Класичний підхід до оцінювання параметрів а₀, а₁ моделі базується на звичайному методі найменших квадратів (МНК). Суть методу найменших квадратів полягає в мінімізації суми квадратів відхилень фактичних (спостережених) значень пояснюваної (залежної) змінної від розрахованих (за моделлю) значень цієї змінної.

Розглянемо приклад простої економетричної моделі, де потрібно кількісно оцінити зв'язок між витратами на споживання та доходами сімї. Спочатку потрібно сформувати сукупність спостережень, яка характеризується витратами на споживання і доходами сімей.

Відкладемо кожну пару спостережень у системі координат, де величина витрат на споживання відкладається на осі ординат, а доходів – на осі абсцис. У результаті отримаємо кореляційне поле точок.

На підставі гіпотези про лінійність звязку між витратами і доходами сімей через кореляційне поле точок можна провести безліч прямих ліній, які різняться між собою параметрами а₀, а₁.

Різницю між фактичним значенням y_i результативної ознаки і її розрахунковим значенням y_i називають відхиленням:

. (3)

Введемо функцію – суму квадратів відхилень

, (4)

де n – число спостережень.

Найкращою вирівняною прямою буде така пряма, яка мінімізує суму квадратів відхилень. Ця умова запишеться так

(5)

З необхідної умови екстремуму функції - рівності нулеві перших частинних похідних – отримуємо систему рівнянь

(6)

Звідки (7)

Розвяжемо цю систему за правилом Крамера. Маємо

Звідки

=()/ (8)

=/. (9)

Отримані оцінки коефіцієнтів регресії можна записати в компактнішій формі, поділивши чисельник і знаменник рівності (9) на n², маємо

=, де рискою над змінною позначено її середнє значення. Поділивши перше рівняння системи (7) на n отримаємо

+= або +. (10)

Звідки знаходимо оцінку другого параметра =.

Таким чином, ми знайшли формули для визначення невідомих параметрів ,, і можемо записати рівняння регресії (економетричну модель):

. (11)

4.Дисперсію не можна визначити, тому що саму величину не можна спостерігати. Оцінками реалізацій випадкових величин є відхилення . Тому природно оцінку невідомої дисперсії подати у термінах спостережуваних помилок . Зрозуміло, що цю оцінку слід будувати на основі суми квадратів відхилень .Спочатку розглянемо таку найпростішу оцінку дисперсії :

Виявляється, що є зміщеною оцінкою , тобто М().

Справді, маємо:

5. Після того, як модель побудовано, її потрібно всебічно і ретельно проаналізувати, перевірити на адекватність реальній дійсності. Тобто, чи справді змінна Y лінійно залежить від зміни X, а не відбувається під впливом випадкових факторів. Характеристикою, що показує, якою мірою фактор X визначає показник Y, є коефіцієнт детермінації. Спочатку розглянемо питання про декомпозицію (розбиття на частини) дисперсії результативної ознаки Y.

Розглянемо декомпозицію відхилень фактичних значень від теоретичних . Як зрозуміло з рисунка такі відхилення можна записати у вигляді:

(12)

=+ (13)

Різницю називають загальним відхиленням.

Різницю називають і відхиленням , яке можна пояснити на основі регресії, оскільки цю величину для заданого x_i можна знайти маючи тільки регресійну пряму.

Різницю е= називають не пояснюваним відхиленням, оскільки його не можна пояснити , виходячи з регресійної прямої.

Піднесемо обидві частини рівності (13) до квадрата і проведемо підсумовування за всіма значеннями змінної:

=+2+(14)