ВІЛЬНИЙ ПОШУК (у тому числі ВАЛІДАЦІЯ) ® ПРОГНОСТИЧНЕ МОДЕЛЮВАННЯ ® АНАЛІЗ ВИКЛЮЧЕНЬ

Класифікація стадій Data Mining

Data Mining може складатися із двох або трьох стадій:

Стадія 1. Виявлення закономірностей (вільний пошук).

Стадія 2. Використання виявлених закономірностей для прогнозування невідомих значень (прогностичне моделювання).

На доповнення, до цих стадій іноді вводять стадію валідації, що випливає за стадією вільного пошуку. Ціль валідації – перевірка достовірності знайдених закономірностей. Однак, ми будемо вважати валідацію частиною першої стадії, оскільки в реалізації багатьох методів, зокрема, нейронних мереж і дерев рішень, передбачено поділ загальної множини даних на навчальну та перевірочну, і останнє дозволяє перевіряти достовірність отриманих результатів.

Стадія 3. Аналіз виключень – стадія призначена для виявлення та пояснення аномалій, знайдених у закономірностях.

Отже, процес Data Mining може бути представлений поруч таких послідовних стадій:

1. Вільний пошук (Discovery)

На стадії вільного пошуку здійснюється дослідження набору даних з метою пошуку прихованих закономірностей. Попередні гіпотези щодо виду закономірностей тут не визначаються.

Закономірність (law) – істотна і постійно повторювана взаємозалежність, що визначає етапи і форми процесу становлення, розвитку різних явищ або процесів.

Система Data Mining на цій стадії визначає шаблони, для одержання яких у системах OLAP, наприклад, аналітикові необхідно обмірковувати та створювати безліч запитів. Тут же аналітик звільняється від такої роботи – шаблони шукає за нього система. Особливо корисне застосування даного підходу в надвеликих базах даних, де вловити закономірність шляхом створення запитів досить складно, для цього потрібно перепробувати безліч різноманітних варіантів.

Вільний пошук представлений такими діями:

Ø виявлення закономірностей умовної логіки (conditional logic);

Ø виявлення закономірностей асоціативної логіки (associations and affinities);

Ø виявлення трендів і коливань (trends and variations).

Допустимо, є база даних кадрового агентства з даними про професію, стаж, вік і бажаний рівень винагороди. У випадку самостійного надання запитів аналітик може одержати приблизно такі результати: середній бажаний рівень винагороди фахівців у віці від 25 до 35 років дорівнює 1200 умовним одиницям. У випадку вільного пошуку система сама шукає закономірності, необхідно лише задати цільову змінну. У результаті пошуку закономірностей система сформує набір логічних правил "якщо ..., то ...".

Можуть бути знайдені, наприклад, такі закономірності "Якщо вік < 20 років і бажаний рівень винагороди > 700 умовних одиниць, то в 75% випадків здобувач шукає роботу програміста" або "Якщо вік >35 років і бажаний рівень винагороди > 1200 умовних одиниць, то в 90% випадків здобувач шукає керівну роботу". Цільовий змінної в описаних правилах виступає професія.

При наданні іншої цільової змінної, наприклад, віку, одержуємо такі правила: "Якщо здобувач шукає керівну роботу і його стаж > 15 років, то вік здобувача > 35 років в 65 % випадків".

Описані дії, у рамках стадії вільного пошуку, виконуються за допомогою:

Ø індукції правил умовної логіки (задачі класифікації і кластеризації, опис у компактній формі близьких або схожих груп об'єктів);

Ø індукції правил асоціативної логіки (задачі асоціації і послідовності та інформація, що добувається при їхній допомозі);

Ø визначення трендів і коливань (вихідний етап задачі прогнозування).

На стадії вільного пошуку також повинна здійснюватися валідація закономірностей, тобто перевірка їх достовірності на частині даних, які не брали участь у формуванні закономірностей. Такий прийом поділу даних на навчальну та перевірочну множину часто використовується в методах нейронних мереж і дерев рішень і буде описаний у відповідних лекціях.

2. Прогностичне моделювання (Predictive Modeling)

Друга стадія Data Mining – прогностичне моделювання – використовує результати роботи першої стадії. Тут виявлені закономірності використовуються безпосередньо для прогнозування.

Прогностичне моделювання включає такі дії:

Ø прогнозування невідомих значень (outcome prediction);

Ø прогнозування розвитку процесів (forecasting).

У процесі прогностичного моделювання вирішуються завдання класифікації і прогнозування.

При вирішенні завдання класифікації результати роботи першої стадії (індукції правил) використовуються для віднесення нового об'єкта, з певною впевненістю, до одного з відомих, визначених класів на підставі відомих значень.

При вирішенні завдання прогнозування результати першої стадії (визначення тренда або коливань) використовуються для прогнозування невідомих (пропущених або ж майбутніх) значень цільовий змінної (змінних).

Продовжуючи розглянутий приклад першої стадії, можемо зробити наступний висновок.

Знаючи, що здобувач шукає керівну роботу і його стаж > 15 років, на 65 % можна бути впевненим у тому, що вік здобувача > 35 років. Або ж, якщо вік здобувача > 35 років і бажаний рівень винагороди > 1200 умовних одиниць, на 90% можна бути впевненим у тому, що здобувач шукає керівну роботу.

Читайте також:

<== попередня сторінка	\|	наступна сторінка ==>
Приклад 1.	\|	Класифікація методів Data Mining

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

Генерація сторінки за: 0.003 сек.