Студопедия
Новини освіти і науки:
МАРК РЕГНЕРУС ДОСЛІДЖЕННЯ: Наскільки відрізняються діти, які виросли в одностатевих союзах


РЕЗОЛЮЦІЯ: Громадського обговорення навчальної програми статевого виховання


ЧОМУ ФОНД ОЛЕНИ ПІНЧУК І МОЗ УКРАЇНИ ПРОПАГУЮТЬ "СЕКСУАЛЬНІ УРОКИ"


ЕКЗИСТЕНЦІЙНО-ПСИХОЛОГІЧНІ ОСНОВИ ПОРУШЕННЯ СТАТЕВОЇ ІДЕНТИЧНОСТІ ПІДЛІТКІВ


Батьківський, громадянський рух в Україні закликає МОН зупинити тотальну сексуалізацію дітей і підлітків


Відкрите звернення Міністру освіти й науки України - Гриневич Лілії Михайлівні


Представництво українського жіноцтва в ООН: низький рівень культури спілкування в соціальних мережах


Гендерна антидискримінаційна експертиза може зробити нас моральними рабами


ЛІВИЙ МАРКСИЗМ У НОВИХ ПІДРУЧНИКАХ ДЛЯ ШКОЛЯРІВ


ВІДКРИТА ЗАЯВА на підтримку позиції Ганни Турчинової та права кожної людини на свободу думки, світогляду та вираження поглядів



Кластерний аналіз

Кластерний аналіз призначений для розбиття множинаі об'єктів на задане або невідоме число класів на підставі деякого математичного критерію якості класифікації (cluster| (англ.) – кетяг|гроно|, пучок, скупчення, група елементів, що характеризуються якою-небудь загальною|спільною| властивістю). Критерій якості кластеризації в тій чи іншій мірі відображає|відбиває| наступні|слідуючі| неформальні вимоги:

· а) усередині|всередині| груп об'єкти мають бути тісно зв'язані між собою;

· б) об'єкти різних груп мають бути далекі один від одного;

· в) за інших рівних умов розподіли об'єктів по групах мають бути рівномірними.

Вимоги а) і б) виражають|виказують| стандартну концепцію компактності класів розбиття; вимога в) полягає в тому, аби|щоб| критерій не нав'язував об'єднання окремих груп об'єктів.

Вузловим моментом в кластерному аналізі вважається|лічить| вибір метрики (або заходи близькості об'єктів), від якого вирішальним|ухвальним| чином залежить остаточний варіант розбиття об'єктів на групи при заданому алгоритмі розбиття. У кожному конкретному завданні|задачі| цей вибір проводиться по-своєму, з врахуванням|з урахуванням| головних|чільних| цілей дослідження, фізичної і статистичної природи використовуваної інформації і тому подібне|тощо| При вживанні|застосуванні| экстенсиональных| методів розпізнавання, як було показано в попередніх розділах, вибір метрики досягається за допомогою спеціальних алгоритмів перетворення вихідного|початкового| простору|простір-час| ознак.

Іншою важливою величиною в кластерному аналізі є відстань між цілими групами об'єктів. Наведемо приклади найбільш поширених відстаней і заходів близькості, що характеризують взаємне розташування окремих груп об'єктів. Хай wi – i-я група (клас, кластер) об'єктів, Ni – число об'єктів, створюючих групу wi, вектор i – середнє арифметичне об'єктів, що входять в wi (іншими словами [ i – “центр тяжіння” i-й групи), а q ( wl, wm ) – відстань між групами wl і wm

Рис. 1. Різні способи визначення відстані між кластерами wl| і wm|: 1 – по центрах тяжіння, 2 – по найближчих об'єктах, 3 – по найдальших об'єктах


Рис 1.

Відстань найближчого сусіда є відстань між найближчими об'єктами кластерів:

Відстань далекого|дальнього| сусіда – відстань між найдальшими об'єктами кластерів:

Відстань центрів тяжіння дорівнює відстані між центральними крапками|точками| кластерів:

Узагальнена (по Колмогорову) відстань між класами, або узагальнена K-расстояние|, обчислюється за формулою

Зокрема, при ? ? ? і при ? ? -? маємо

Вибір тієї або іншої міри відстані між кластерами впливає, головним чином, що на вигляд виділяються алгоритмами кластерного аналізу геометричних угрупувань об'єктів в просторі|простір-час| ознак. Так, алгоритми, засновані на відстані найближчого сусіда, добре працюють в разі|у разі| угрупувань, що мають складну, зокрема, цепочечную| структуру. Відстань далекого|дальнього| сусіда застосовується, коли шукані угрупування утворюють в просторі|простір-час| ознак кулевидні|кулясті| хмари. І проміжне місце займають|позичають| алгоритми, що використовують відстані центрів тяжіння і середнього зв'язку, які краще всього працюють в разі|у разі| угрупувань еліпсоїдної форми.

Націленість алгоритмів кластерного аналізу на певну структуру угрупувань об'єктів в просторі|простір-час| ознак може наводити|приводити| до неоптимальних або навіть неправильних результатам, якщо гіпотеза про типа|тип| угрупувань невірна. В разі|у разі| відмінності|відзнаки| реальних розподілів від гіпотетичних вказані алгоритми часто "нав'язують" даним не властиву ним структуру і дезорієнтують дослідника. Тому експериментатор, що враховує даний факт, в умовах апріорної невизначеності удається до вживання|застосування| батареї алгоритмів кластерного аналізу і віддає перевагу|преференцію| якому-небудь виводу|висновку| на підставі комплексної оцінки сукупності результатів роботи цих алгоритмів.

Алгоритми кластерного аналізу відрізняються великою різноманітністю. Це можуть бути, наприклад, алгоритми, що реалізовують повний|цілковитий| перебір поєднань об'єктів або здійснююче випадкове розбиття множинаі об'єктів. В той же час більшість таких алгоритмів складаються з двох етапів. На першому етапі задається початкове (можливо, штучне або навіть довільне) розбиття множинаі об'єктів на класи і визначається деякий математичний критерій якості автоматичної класифікації. Потім, на другому етапі, об'єкти переносяться з|із| класу в клас до тих пір, поки значення критерію не перестане покращуватися|поліпшуватися|.

Різноманіття алгоритмів кластерного аналізу обумовлене також множиначю різних критеріїв, що виражають|виказують| ті або інші аспекти якості автоматичного групування. Простий критерій якості безпосередньо базується на величині відстані між кластерами. Проте|однак| такий критерій не враховує "населеність" кластерів – відносну щільність розподілу об'єктів усередині|всередині| угрупувань, що виділяються. Тому інші критерії грунтуються на обчисленні|підрахунку| середніх відстаней між об'єктами усередині|всередині| кластерів. Але|та| найчастіше застосовуються критерії у вигляді стосунків показників "населеності" кластерів до відстані між ними. Це, наприклад, може бути відношення|ставлення| суми міжкласових відстаней до суми внутрікласових|внутрішньокласових| (між об'єктами) відстаней або відношення|ставлення| загальної|спільної| дисперсії даних до суми внутрікласових|внутрішньокласових| дисперсій і дисперсії центрів кластерів.

Функціонали якості і конкретні алгоритми автоматичної класифікації вистачає повно і детально розглянуті|розглядувати| в спеціальній літературі. Ці функціонали і алгоритми характеризуються різною трудомісткістю і часом вимагають ресурсів високопродуктивних комп'ютерів. Всілякі|різноманітні| процедури кластерного аналізу входять до складу практично всіх сучасних пакетів прикладних програм для статистичної обробки багатовимірних|багатомірних| даних.


Читайте також:

  1. ABC-XYZ аналіз
  2. II. Багатофакторний дискримінантний аналіз.
  3. SWOT-аналіз у туризмі
  4. SWOT-аналіз.
  5. Tема 4. Фації та формації в історико-геологічному аналізі
  6. V. Нюховий аналізатор
  7. АВС (XYZ)-аналіз
  8. Автомати­зовані інформаційні систе­ми для техніч­ного аналізу товар­них, фондових та валют­них ринків.
  9. Алгоритм однофакторного дисперсійного аналізу за Фішером. Приклад
  10. Альтернативна вартість та її використання у проектному аналізі
  11. Аналіз активів банку
  12. Аналіз альтернативних рішень




Переглядів: 793

<== попередня сторінка | наступна сторінка ==>
 | 

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

  

© studopedia.com.ua При використанні або копіюванні матеріалів пряме посилання на сайт обов'язкове.


Генерація сторінки за: 0.014 сек.