Класифікація технологічних методів Data Mining

Всі методи Data Mining поділяються на дві більші групи за принципом роботи з вихідними навчальними даними. У цій класифікації верхній рівень визначається на підставі того, чи зберігаються дані після Data Mining або вони очищуються для наступного використання.

1. Безпосереднє використання даних, або збереження даних.

У цьому випадку вихідні дані зберігаються в явному деталізованому виді та безпосередньо використовуються на стадіях прогностичного моделювання і/або аналізу виключень. Проблема цієї групи методів – при їх використанні можуть виникнути складності аналізу надвеликих баз даних.

Методи цієї групи: кластерний аналіз, метод найближчого сусіда, метод k-найближчого сусіда, міркування за аналогією.

2. Виявлення та використання формалізованих закономірностей, або дистиляція шаблонів.

При технології дистиляції шаблонів один зразок (шаблон) інформації витягається з вихідних даних і перетворюється в деякі формальні конструкції, вид яких залежить від використаного методу Data Mining. Цей процес виконується на стадії вільного пошуку, у першої ж групи методів дана стадія в принципі відсутня. На стадіях прогностичного моделювання та аналізу виключень використовуються результати стадії вільного пошуку, вони значно компактніше самих баз даних. Нагадаємо, що конструкції цих моделей можуть бути трактовані аналітиком або не трактованими ("чорними ящиками").

Методи цієї групи: логічні методи; методи візуалізації; методи кросу-табуляції; методи, засновані на рівняннях.

Логічні методи, або методи логічної індукції, включають: нечіткі запити і аналізи; символьні правила; дерева рішень; генетичні алгоритми.

Методи цієї групи є, мабуть, найбільш інтерпритуємими вони оформляють знайдені закономірності, у більшості випадків, у досить прозорому виді з погляду користувача. Отримані правила можуть включати безперервні і дискретні змінні. Варто помітити, що дерева рішень можуть бути легко перетворені в набори символьних правил шляхом генерації одного правила по шляху від кореня дерева до його термінальної вершини. Дерева рішень і правила фактично є різними методами вирішення одного завдання і відрізняються лише по своїх можливостям. Крім того, реалізація правил здійснюється більш повільними алгоритмами, чим індукція дерев рішень.

Методи крос-табуляції: агенти, баєсовскі (довірчі) мережі, крос-таблична візуалізація. Останній метод не зовсім відповідає одній з властивостей Data Mining – самостійному пошуку закономірностей аналітичною системою. Однак, надання інформації у вигляді крос-таблиць забезпечує реалізацію основного завдання Data Mining – пошук шаблонів, тому цей метод можна також вважати одним з методів Data Mining.

Методи на основі рівнянь.

Методи цієї групи виражають виявлені закономірності у вигляді математичних виразів – рівнянь. Отже, вони можуть працювати лише із числовими змінними, і змінні інших типів повинні бути закодовані відповідним чином. Це трохи обмежує застосування методів даної групи, проте вони широко використовуються при вирішенні різних завдань, особливо завдань прогнозування.

Основні методи даної групи: статистичні методи і нейронні мережі

Статистичні методи найбільше застосовують для вирішення завдань прогнозування. Існує безліч методів статистичного аналізу даних, серед них, наприклад, кореляційно-регресійний аналіз, кореляція рядів динаміки, виявлення тенденцій динамічних рядів, гармонійний аналіз.

Інша класифікація розділяє всі різноманіття методів Data Mining на дві групи: статистичні та кібернетичні методи. Ця схема поділу заснована на різних підходах до навчання математичних моделей.

Слід зазначити, що існує два підходи віднесення статистичних методів до Data Mining. Перший з них протиставляє статистичні методи і Data Mining, його прихильники вважають класичні статистичні методи окремим напрямком аналізу даних. Відповідно до другого підходу, статистичні методи аналізу є частиною математичного інструментарію Data Mining. Більшість авторитетних джерел дотримується другого підходу.

У цій класифікації розрізняють дві групи методів:

Ø статистичні методи, засновані на використанні усередненого накопиченого досвіду, що відбитий у ретроспективних даних;

Ø кібернетичні методи, що включають безліч різнорідних математичних підходів.

Недолік такої класифікації: і статистичні, і кібернетичні алгоритми тим або іншим образом опираються на зіставлення статистичного досвіду з результатами моніторингу поточної ситуації.

Перевагою такої класифікації є її зручність для інтерпретації – вона використовується при описі математичних засобів сучасного підходу до витягу знань із масивів вихідних спостережень (оперативних і ретроспективних), тобто в завданнях Data Mining.

Розглянемо докладніше представлені вище групи.

Читайте також:

<== попередня сторінка	\|	наступна сторінка ==>
Класифікація методів Data Mining	\|	Кібернетичні методи Data Mining

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

Генерація сторінки за: 0.106 сек.