МАРК РЕГНЕРУС ДОСЛІДЖЕННЯ: Наскільки відрізняються діти, які виросли в одностатевих союзах
РЕЗОЛЮЦІЯ: Громадського обговорення навчальної програми статевого виховання ЧОМУ ФОНД ОЛЕНИ ПІНЧУК І МОЗ УКРАЇНИ ПРОПАГУЮТЬ "СЕКСУАЛЬНІ УРОКИ" ЕКЗИСТЕНЦІЙНО-ПСИХОЛОГІЧНІ ОСНОВИ ПОРУШЕННЯ СТАТЕВОЇ ІДЕНТИЧНОСТІ ПІДЛІТКІВ Батьківський, громадянський рух в Україні закликає МОН зупинити тотальну сексуалізацію дітей і підлітків Відкрите звернення Міністру освіти й науки України - Гриневич Лілії Михайлівні Представництво українського жіноцтва в ООН: низький рівень культури спілкування в соціальних мережах Гендерна антидискримінаційна експертиза може зробити нас моральними рабами ЛІВИЙ МАРКСИЗМ У НОВИХ ПІДРУЧНИКАХ ДЛЯ ШКОЛЯРІВ ВІДКРИТА ЗАЯВА на підтримку позиції Ганни Турчинової та права кожної людини на свободу думки, світогляду та вираження поглядів Контакти
Тлумачний словник |
|
||||||||||||||||||||||
Завдання кластеризаціїОцінювання класифікаційних методів Точність класифікації: оцінка рівня помилок Оцінка точності класифікації може проводитися за допомогою крос-перевірки. Крос-перевірка (Cross-validation) – це процедура оцінки точності класифікації на даних з тестової множини, що також називають крос-перевірочною множиною. Точність класифікації тестової множини рівняється з точністю класифікації навчальної множини. Якщо класифікація тестової множини дає приблизно такі ж результати по точності, як і класифікація навчальної множини, вважається, що дана модель пройшла крос-перевірку. Поділ на навчальні і тестові множини здійснюється шляхом розподілу вибірки в певній пропорції, наприклад навчальна множина – дві третини даних і тестова – одна третина даних. Цей спосіб варто використовувати для вибірок з більшою кількістю прикладів. Якщо ж вибірка має малі обсяги, рекомендується застосовувати спеціальні методи, при використанні яких навчальна і тестова вибірки можуть частково перетинатися.
Оцінювання методів варто проводити, виходячи з наступних характеристик [21]: швидкість, робастність, інтерпритуємість, надійність. Швидкість характеризує час, який потрібний на створення моделі і її використання. Робастність, тобто стійкість до яких-небудь порушень вихідних передумов, означає можливість роботи із зашумленими даними і пропущеними значеннями в даних. Інтерпритуємість забезпечує можливість розуміння моделі аналітиком. Властивості класифікаційних правил: Ø розмір дерева рішень; Ø компактність класифікаційних правил. Надійність методів класифікації передбачає можливість роботи цих методів при наявності в наборі даних шумів і викидів.
Тільки що ми вивчили завдання класифікації, що відноситься до стратегії "навчання із вчителем". У цій частині лекції ми введемо поняття кластеризації, кластера, коротко розглянемо класи методів, за допомогою яких вирішується задача кластеризації, деякі моменти процесу кластеризації, а також розберемо приклади застосування кластерного аналізу. Задача кластеризації подібна з задачею класифікації, і є її логічним продовженням, але її відмінність у тому, що класи досліджуваного набору даних заздалегідь не визначені. Синонімами терміна "кластеризація" є "автоматична класифікація", "навчання без вчителя" і "таксономія". Кластеризація призначена для розбивки сукупності об'єктів на однорідні групи (кластери або класи). Якщо дані вибірки представити як крапки в признаковому просторі, то завдання кластеризації зводиться до визначення "згущення крапок". Ціль кластеризації – пошук існуючих структур. Кластеризація є описовою процедурою, вона не робить ніяких статистичних висновків, але дає можливість провести розвідницький аналіз і вивчити "структуру даних". Саме поняття "кластер" визначено неоднозначно: у кожному дослідженні свої "кластери". Переводиться поняття кластер (cluster) як "скупчення", "гроно". Кластер можна охарактеризувати як групу об'єктів, що мають загальні властивості. Характеристиками кластера можна назвати дві ознаки: Ø внутрішня однорідність; Ø зовнішня ізольованість. Питання, що задається аналітиками при вирішенні багатьох задач, полягає в тому, як організувати дані в наочні структури, тобто розгорнути таксономії. Найбільше застосування кластеризація спочатку одержала в таких науках як біологія, антропологія, психологія. Для вирішення економічних задач кластеризація тривалий час мало використалася через специфіку економічних даних та явищ. У таблиці 5.2 наведене порівняння деяких параметрів задач класифікації і кластеризації.
Таблиця 5.2. Порівняння класифікації і кластерзації
На рис. 5.7 схематично представлені задачі класифікації і кластеризації.
Рис. 5.7. Порівняння задач класифікації і кластеризації
Кластери можуть бути непересічними, або ексклюзивними (non-overlapping, exclusive), і пересічними (overlapping) [22]. Схематичне зображення непересічних і пересічних кластерів дано на рис. 5.8.
Рис. 5.8. Непересічні і пересічні кластери
Слід зазначити, що в результаті застосування різних методів кластерного аналізу можуть бути отримані кластери різної форми. Наприклад, можливі кластери "ланцюгового" типу, коли кластери представлені довгими "ланцюжками", кластери подовженої форми і т.д., а деякі методи можуть створювати кластери довільної форми. Різні методи можуть прагнути створювати кластери певних розмірів (наприклад, малих або великих) або припускати в наборі даних наявність кластерів різного розміру. Деякі методи кластерного аналізу особливо чутливі до шумів або викидів, інші – менш. У результаті застосування різних методів кластеризації можуть бути отримані неоднакові результати, це нормально і є особливістю роботи того або іншого алгоритму. Дані особливості варто враховувати при виборі методу кластеризації. Докладніше про всі властивості кластерного аналізу буде розказано в лекції, присвяченій його методам. На сьогоднішній день розроблено більше сотні різних алгоритмів кластеризації. Деякі, найбільш часто використовуваних, будуть докладно описані в другому розділі курсу лекцій. Приведемо коротку характеристику підходів до кластеризації [21]. Ø Алгоритми, засновані на поділі даних (Partitioning algorithms), у т.ч. ітеративні: Ø поділ об'єктів на k кластерів; Ø ітеративний перерозподіл об'єктів для поліпшення кластеризації. Ø Ієрархічні алгоритми (Hierarchy algorithms): Ø агломерація: кожен об'єкт спочатку є кластером, кластери, з'єднуючись один з одним, формують більший кластер і т.д. Ø Методи, засновані на концентрації об'єктів (Density-based methods): Ø засновані на можливості з'єднання об'єктів; Ø ігнорують шуми, знаходження кластерів довільної форми. Ø Грід-методи (Grid-based methods): Ø квантування об'єктів у грід-структури. Ø Модельні методи (Model-based): Ø використання моделі для знаходження кластерів, найбільш відповідним даним.
Читайте також:
|
|||||||||||||||||||||||
|