Студопедия
Новини освіти і науки:
МАРК РЕГНЕРУС ДОСЛІДЖЕННЯ: Наскільки відрізняються діти, які виросли в одностатевих союзах


РЕЗОЛЮЦІЯ: Громадського обговорення навчальної програми статевого виховання


ЧОМУ ФОНД ОЛЕНИ ПІНЧУК І МОЗ УКРАЇНИ ПРОПАГУЮТЬ "СЕКСУАЛЬНІ УРОКИ"


ЕКЗИСТЕНЦІЙНО-ПСИХОЛОГІЧНІ ОСНОВИ ПОРУШЕННЯ СТАТЕВОЇ ІДЕНТИЧНОСТІ ПІДЛІТКІВ


Батьківський, громадянський рух в Україні закликає МОН зупинити тотальну сексуалізацію дітей і підлітків


Відкрите звернення Міністру освіти й науки України - Гриневич Лілії Михайлівні


Представництво українського жіноцтва в ООН: низький рівень культури спілкування в соціальних мережах


Гендерна антидискримінаційна експертиза може зробити нас моральними рабами


ЛІВИЙ МАРКСИЗМ У НОВИХ ПІДРУЧНИКАХ ДЛЯ ШКОЛЯРІВ


ВІДКРИТА ЗАЯВА на підтримку позиції Ганни Турчинової та права кожної людини на свободу думки, світогляду та вираження поглядів



Контакти
 


Тлумачний словник
Авто
Автоматизація
Архітектура
Астрономія
Аудит
Біологія
Будівництво
Бухгалтерія
Винахідництво
Виробництво
Військова справа
Генетика
Географія
Геологія
Господарство
Держава
Дім
Екологія
Економетрика
Економіка
Електроніка
Журналістика та ЗМІ
Зв'язок
Іноземні мови
Інформатика
Історія
Комп'ютери
Креслення
Кулінарія
Культура
Лексикологія
Література
Логіка
Маркетинг
Математика
Машинобудування
Медицина
Менеджмент
Метали і Зварювання
Механіка
Мистецтво
Музика
Населення
Освіта
Охорона безпеки життя
Охорона Праці
Педагогіка
Політика
Право
Програмування
Промисловість
Психологія
Радіо
Регилия
Соціологія
Спорт
Стандартизація
Технології
Торгівля
Туризм
Фізика
Фізіологія
Філософія
Фінанси
Хімія
Юриспунденкция






Процес класифікації

Задача класифікації

Класифікація є найбільш простий і одночасно найбільш часто розв'язуваною задачею Data Mining. Через поширеність задач класифікації необхідно чітке розуміння суті цього поняття.

 

Наведемо кілька означень.

Класифікація – системний розподіл досліджуваних предметів, явищ, процесів по родах, видах, типах, по яких-небудь істотних ознаках для зручності їх дослідження; групування вихідних понять і розташування їх у певному порядку, що відбиває ступінь цієї подібності.

Класифікація – впорядковані по деякому принципі множини об'єктів, які мають подібні класифікаційні ознаки (одну або кілька властивостей), вибраних для визначення подібності або розходження між цими об'єктами.

Класифікація вимагає дотримання наступних правил:

Ø у кожному акті ділення необхідно застосовувати тільки одну основу;

Ø ділення повинне бути розмірним, тобто загальний обсяг видових понять повинен дорівнювати обсягу діленого родового поняття;

Ø члени розподілу повинні взаємно виключати один одного, їх об'єми не повинні перехрещуватися;

Ø розподіл повинен бути послідовним.

Розрізняють:

Ø допоміжну (штучну) класифікацію, що виробляється по зовнішній ознаці та служить для додання множини предметів (процесів, явищ) потрібного порядку;

Ø природну класифікацію, яка виробляється по істотних ознаках, що характеризує внутрішню спільність предметів і явищ. Вона є результатом і важливим засобом наукового дослідження, тому що припускає та закріплює результати вивчення закономірностей класифікуємих об'єктів.

Залежно від обраних ознак, їх сполучення і процедури поділу понять класифікація може бути:

Ø простою – розподіл родового поняття тільки по ознаці і тільки один раз до розкриття всіх видів. Прикладом такої класифікації є дихотомія, при якій членами розподілу бувають тільки два поняття, кожне з яких суперечить іншому (тобто дотримується принцип: "А і не А");

Ø складною – застосовується для поділу одного поняття по різним основах і синтезу таких простих розподілів у єдине ціле. Прикладом такої класифікації є періодична система хімічних елементів.

Під класифікацією будемо розуміти віднесення об'єктів (спостережень, подій) до одного з наперед відомих класів.

Класифікація – це закономірність, що дозволяє робити висновок щодо визначення характеристик конкретної групи. Таким чином, для проведення класифікації повинні бути присутні ознаки, що характеризують групу, до якої належить та або інша подія або об'єкт (звичайно при цьому на підставі аналізу вже класифікованих подій формулюються якісь правила).

Класифікація відноситься до стратегії навчання з вчителем (supervised learning), що також називають контрольованим або керованим навчанням.

Задачею класифікації часто називають прогнозування категоріальної залежної змінної (тобто залежної змінної, що є категорією) на основі вибірки безперервних і/або категоріальних змінних.

Наприклад, можна прогнозувати, хто з клієнтів фірми є потенційним покупцем певного товару, а хто – ні, хто скористається послугою фірми, а хто – ні, і т.д. Цей тип завдань відноситься до завдань бінарної класифікації, у них залежна змінна може приймати тільки два значення (наприклад, так чи ні, 0 або 1).

Інший варіант класифікації виникає, якщо залежна змінна може приймати значення з деякої множини визначених класів. Наприклад, коли необхідно прогнозувати, яку марку автомобіля захоче купити клієнт. У цих випадках розглядається множина класів для залежної змінної.

Класифікація може бути одномірною (по одній ознаці) і багатомірною (по двох і більше ознаках).

Багатомірна класифікація була розроблена біологами при розв'язанні проблем дискримінації для класифікування організмів. Однієї з перших робіт, присвячених цьому напрямку, вважають роботу Р. Фішера (1930 р.), у якій організми розділялися на підвиди залежно від результатів вимірів їх фізичних параметрів. Біологія була та залишається найбільш затребуваним і зручним середовищем для розробки багатомірних методів класифікації.

Розглянемо задачу класифікації на простому прикладі. Допустимо, є база даних про клієнтів туристичного агентства з інформацією про вік і доход за місяць. Є рекламний матеріал двох видів: більш дорогий і комфортний відпочинок і більш дешевий, молодіжний відпочинок. Відповідно, визначені два класи клієнтів: клас 1 і клас 2. База даних наведена в таблиці 5.1.

Таблиця 5.1. База даних клієнтів туристичного агентства

Код клієнта Вік Доход Клас

 

Задача. Визначити, до якого класу належить новий клієнт і який з двох видів рекламних матеріалів йому варто відсилати.

Для наочності представимо нашу базу даних у двомірному просторі (вік і доход), у вигляді множини об'єктів, що належать класам 1 (жовтогаряча мітка) і 2 (сіра мітка). На мал. 5.1 наведені об'єкти із двох класів.

 

 

Рис. 5.1. Множина об'єктів бази даних у двомірному просторі

 

Вирішення нашої задачі буде полягати в тому, щоб визначити, до якого класу відноситься новий клієнт, на малюнку позначений білою міткою.

 

 

Ціль процесу класифікації полягає в тому, щоб побудувати модель, що використовує прогнозуючі атрибути як вхідні параметри та одержує значення залежного атрибута. Процес класифікації полягає в розбивці безлічі об'єктів на класи за певним критерієм.

Класифікатором називається деяка сутність, що визначає, якому з визначених класів належить об'єкт по вектору ознак.

Для проведення класифікації за допомогою математичних методів необхідно мати формальний опис об'єкта, яким можна оперувати, використовуючи математичний апарат класифікації. Таким описом у нашому випадку виступає база даних. Кожен об'єкт (запис бази даних) несе інформацію про деяку властивість об'єкта.

Набір вихідних даних (або вибірку даних) розбивають на дві множини: навчальну і тестову.

Навчальна множина (training set) – множина, що включає дані, які використовуються для навчання (конструювання) моделі.

Така множина містить вхідні і вихідні (цільові) значення прикладів. Вихідні значення призначені для навчання моделі.

Тестова (test set) множина також містить вхідні і вихідні значення прикладів. Тут вихідні значення використовуються для перевірки працездатності моделі.

Процес класифікації складається з двох етапів [21]: конструювання моделі і її використання.

  1. Конструювання моделі: опис множини визначених класів.

Ø Кожен приклад набору даних ставиться до одного визначеного класу.

Ø На цьому етапі використовується навчальна множина, на ньому відбувається конструювання моделі.

Ø Отримана модель представлена класифікаційними правилами, деревом рішень або математичною формулою.

  1. Використання моделі: класифікація нових або невідомих значень.

Ø Оцінка правильності (точності) моделі.

1. Відомі значення з тестового приклада порівнюються з результатами використання отриманої моделі.

2. Рівень точності – відсоток правильно класифікованих прикладів у тестовій множині.

3. Тестова множина, тобто множина, на якій тестується побудована модель, не повинна залежати від навчальної множини.

Ø Якщо точність моделі допустима, можливе використання моделі для класифікації нових прикладів, клас яких невідомий.

Процес класифікації, а саме, конструювання моделі і її використання, представлений на рис. 5.2. – 5.3.

 

 

Рис. 5.2. Процес класифікації. Конструювання моделі

 

Рис. 5.3. Процес класифікації. Використання моделі

 


Читайте також:

  1. A) правові і процесуальні основи судово-медичної експертизи
  2. H) інноваційний менеджмент – це сукупність організаційно-економічних методів управління всіма стадіями інноваційного процесу.
  3. II. Поняття соціального процесу.
  4. IV. План навчального процесу.
  5. Iзобаричний процес
  6. Iзотермiчний процес
  7. Iзохоричний процес
  8. V Практично всі психічні процеси роблять свій внесок в специфіку організації свідомості та самосвідомості.
  9. V Процес інтеріоризації забезпечують механізми ідентифікації, відчуження та порівняння.
  10. А. В. Петровський виділяє три стадії розвитку особистості в процесі соціалізації: адаптацію, індивідуалізацію і інтеграцію.
  11. А. Особливості диференціації навчального процесу в школах США
  12. А/. Поняття про судовий процес.




Переглядів: 1932

<== попередня сторінка | наступна сторінка ==>
Метод екстраполяції тенденції як один із методів прогнозування | Методи, що застосовуються для вирішення задач класифікації

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

 

© studopedia.com.ua При використанні або копіюванні матеріалів пряме посилання на сайт обов'язкове.


Генерація сторінки за: 0.005 сек.