Вибірковий метод

Числові характеристики деяких законів розподілу

(більш детально і глибоко про це та інше є в [12]).

2.1. Рівномірний розподіл f (x) = 1/(в – а), X Î (а, в). M (X)=(а + в)/2;D (X)=(в – а)²/12; s (X)=(в – а)/2 .

2.2. Розподіл Лапласа f (x) = 0,5 exp , X Î (-¥, ¥) . M (X) = 0.

2.3. Показниковий розподіл f (x) = l exp (–lx), x ³ 0. M (X) = 1/ l; D (X) = 1/ l²; s (X) = 1/ l.

2.4. Біноміальний розподіл P_n(k) = × p^k × qⁿ^-^k . M (K) = ×P_n(k) = np; D (K) = npq.

2.5. Розподіл Пуассона P_n(k) = ( ) / k! , l= n×p = const, де l –параметр розподілу. M (K) = D (K) = l.

2.6. Нормальний розподіл N(m, s²) º f (x) = 1/(s ) × exp – ,

де s (X) = s, D (X) = s². M (X) = m.

Значення аргументу x = m відповідає max функції f (x) – густини ймовірностей; очевидно, при x = m похідна = 0, при x < m похідна > 0, при x > m похідна < 0, таким чином, точка x = m є точкою максимуму. За визначенням моди М₀(X) = m. Симетричність графіку функції f (x) відносно прямої x = m дозволяє стверджувати, що медіана М_e(X) = m. Таким чином, мода і медіана нормального розподілу співпадають з математичним сподіванням:

M (X) = М₀(X) = М_e(X) = m.

Нормалізований розподіл буде при

параметрах m = 0 та s =1 і має вигляд:

N(0, 1) º f (x) = 1/( ) × exp (– x²/2).

Вибірковий метод – проблематика, пов’язана з відбором одиниць вибірки, обчисленням характеристик вибірки та отримання статистичних висновків про сукупність об’єктів, з якої ця вибірка взята. Вказана сукупність об’єктів є генеральною сукупністю (ГС). Основна мета вибірки – здійснити статистичні висновки про характеристики ГС. Вид вибірки залежить від характеру послідовності процедур (алгоритму) відбору одиниць вибірки (елементів ГС). Розрізняють випадкову, систематичну, районовану, ступеневу, множинну та ін. вибірки [11]. Отже, вибірка (вибіркова сукупність) – сукупність випадково відібраних із ГС елементів (об’єктів) для дослідження її якісної чи кількісної ознаки. Обсяг вибірки n– це кількість елементів (об’єктів). Очевидно, що в загальному випадку n << n^г, де n^г– обсяг ГС. Основна вимога до вибірки – вона повинна бути репрезентативною, тобто правильно відображати ті властивості ГС, що вивчаються.

З метою вивчення кількісної дискретної ознаки X із ГС була відібрана (добута) вибірка x_i, i обсягу n. Спостерігаючі (вимірювані) значення x_i ознаки X називаються варіантами, а послідовність варіант, записаних в зростаючому порядку, – варіаційним рядом. Математична модель об’єкту реальності, яка задана у вигляді переліку варіант x_i (x₁, x₂,…,x_k) варіаційного ряду та відповідних їм частот n_i (n₁, n₂,…,n_k) або відносних частот w_i = n_i / n називається статистичним (емпіричним) розподілом вибірки (СРВ). Очевидно, що частота – кількість варіант, = n, .

СРВ можна задати також у вигляді послідовності інтервалів і відповідних їм частот (частота інтервалу – сума частот варіант, які попали в цей інтервал). У даному випадку середини інтервалів приймаються як варіанти. Статистичні розподіли в залежності від даних, що отримані за певною шкалою, поділяються на [12]: варіаційні (шкала відношень або інтервалів), ранжирувані (порядкові чи рангові шкали), атрибутивні (номінальна шкала).

Емпіричною функцією розподілу дискретного варіаційного ряду (функцією розподілу вибірки, статистичної інтегральної функції розподілу) називають функцію F^*(x), що визначає для кожного значення x відносну частоту події X < x, тобто

F^*(x) = n_x / n,

де n_x – число варіант, менших x; n – обсяг вибірки.

Функція F^*(x) за властивостями аналогічна інтегральній (теоретичній) функції розподілу випадкової величини F(x) = P (X < x), а саме: 0 £ F^*(x) £ 1; F^*(x) є функція неспадна; F^*(x) = 0, якщо x менше за найменшу варіанту; F^*(x) = 1, якщо x більше за найбільшу варіанту.

Побудова графіка F^*(x) служить для оцінки теоретичної функції розподілу F(x) (функції розподілу генеральної сукупності). Для дискретного розподілу ознаки X будують полігон частот – ломану криву, відрізки якої з’єднують точки (x_i, n_i), i , а для неперервного розподілу ознаки X будують гістограму – фігура у вигляді сходинки, яка складається з прямокутників, основами яких служать часткові інтервали довжини h, а висоти рівні відношенню n_i / h (густина частоти).

Точкові статистичні оцінки (ТСО) параметрів розподілу (міри центральної тенденції)

ТСО – статистичні оцінки (показники), які визначаються одним числом. Зазначимо, що статистичні числові характеристики (параметри), які описують ГС це m, s², V та ін. ТСО є характеристиками, які базуються на емпіричних моделях: вибіркова середня, вибіркова дисперсія тощо. Вказані емпіричні моделі є певним наближенням до теоретичних моделей, які описують закономірності ГС (математичне сподівання m, дисперсія s² тощо).

Наявність чималої статистичної інформації дає можливість отримати стійку статистичну оцінку або статистику j (x₁, x₂,…, x_k) та вірогідні репрезентативні висновки. Закон розподілу статистики в загальному випадку залежить від класу закону розподілу випадкової величини X, параметрів цього закону, а також від повноти наших знань про гіпотетичний закон розподілу. Статистику можна розглядати як випадкову величину, яка характеризується числовими характеристиками – початковими та центральними емпіричними моментами (вибіркове середнє, дисперсія, асиметрія, ексцес та ін.). Ці характеристики є статистичними точковими оцінками невідомих параметрів теоретичного розподілу Ψ = Ψ (X, Θ₁, Θ₂, …,Θ_p), де X– дискретна або неперервна випадкова величина. Якщо вказані статистичні оцінки мають властивості обґрунтованості (слушності), незміщеності й ефективності, то вони приймаються як приблизні оцінки основних параметрів теоретичного розподілу [10].

ТСО поділяють на дві групи: 1) незміщені (незсунені) – точкові оцінки, математичне сподівання яких дорівнює оцінюваному параметру при будь-якому обсягу вибірки; 2) зміщені (зсунені) – точкові оцінки, математичне сподівання яких не дорівнює оцінюваному параметру [7].

Незміщеною оцінкою математичного сподівання (генеральної середньої) m служить вибіркова середня (статистична середня):

де x_i – варіанта вибірки; n_i – частота варіанти x_i , n = – обсяг вибірки. Якщо n_i =1, то вибіркова середня співпадає з середнім арифметичним .

Зміщеною оцінкою генеральної дисперсії D_г служить вибіркова дисперсія

D_в = .

Зміщення визначається співвідношенням: M[D_в] = (n – 1) / n × D_г. Незміщена оцінка s²генеральної дисперсії D_г – виправлена вибіркова дисперсія з поправкою Бесселя-Шеппарда n/(n – 1), тобто:

s² = n / (n – 1) × D_в,

де n = n –1 – число ступенів вільності.

Стандартне відхилення вибірки(вибірковий стандарт) визначається як s = .

На практиці часто для швидкого оцінювання характеристики розсіювання випадкової величини X використовують наслідок “правилу трьох сигм”:

P (m –3s < X < m +3s) = 2 F (3) = 0,9973, а саме : s » (x_max – x_min) / 6 .

Обчислення на практиці вибіркових середніх і дисперсії за вищенаведеними формулами раціонально також для рівновіддалених варіантів, наприклад для розподілу x_i : 12, 14, 16, 18…; n_i: 5, 15, 50, 16…. Проте існують розподіли вибірки з не рівновіддаленими варіантами, наприклад розподіл x_i : 2, 3, 7, 9…; n_i: 3, 5, 10, 6…. Тоді інтервал, в якому містяться всі варіанти вибірки, поділяють на декілька рівних, довжини h, часткових інтервалів, кожний з яких повинен містити не менше 8-10 варіант. Потім знаходять середини часткових інтервалів, які й утворюють послідовність рівновіддалених варіантів. Як частота кожної середини інтервалу приймають суму частот варіант, які попали у відповідний частковий інтервал. Далі обчислюють , D_в, s² . Для зменшення помилки, що викликана групуванням (особливо при малому числі інтервалів), виконують поправку Шеппарда, за якою дисперсія обчислюється за формулою:

= D_в – h²/12.

Рекомендуємо студентам самостійно опрацювати методи добутків і сум обчислення , D_в, s² [7].

Варіаційний розмах – це різниця між максимальним і мінімальним значеннями варіант вибіркової сукупності

R = x_max – x_min .

Коефіцієнт варіації V використовується у разі порівняльної оцінки різноякісних вибіркових середніх і визначається як відношення стандартного відхилення до вибіркового середнього:

V = s / × 100% .

Мода Мo – це найбільш представницьке значення вибірки, яке найчастіше трапляється серед емпіричних даних або значення з найбільшою частотою (n_м = max). На графіку розподілу мода – це варіанта з максимальною частотою.

Медіана Мd– це значення, яке приходиться на середину упорядкованої послідовності емпіричних даних, причому для непарної кількості даних медіана визначається середнім елементом Мd = x₍_k+1)/2 , а для парної – визначається середнім значенням центральних сусідніх елементів:

Мd = (x_k_/2 + x_k_+1/2) / 2; P (X < Мd) = P (X > Мd) = 0,5.

Нормальний теоретичний розподіл N(m, s²) є “ідеальний”, тобто симетричний відносно середнього значення, а також є не загострений і не згладжений. Емпіричні функції розподілу, які репрезентують ГС, є несиметричні відносно його середнього (асиметрія А_x) і мають відносну опуклість або згладженість розподілу вибірки порівняно з нормальним розподілом (ексцес Е_x):

А_x = (1/ n×s³) × ;

Е_x = (1/ n×s⁴) × .

На практиці розрахунок значень А_x і Е_x, а також побудова відповідних графіків здійснюється за допомогою спеціальних комп’ютерних прикладних програм ( MS Excel, STATISTICA тощо) [2; 3].

Читайте також:

<== попередня сторінка	\|	наступна сторінка ==>
Закони розподілу неперервної випадкової величини X	\|	Елементи теорії кореляційного та регресійного аналізу.

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

Генерація сторінки за: 0.017 сек.