МАРК РЕГНЕРУС ДОСЛІДЖЕННЯ: Наскільки відрізняються діти, які виросли в одностатевих союзах
РЕЗОЛЮЦІЯ: Громадського обговорення навчальної програми статевого виховання ЧОМУ ФОНД ОЛЕНИ ПІНЧУК І МОЗ УКРАЇНИ ПРОПАГУЮТЬ "СЕКСУАЛЬНІ УРОКИ" ЕКЗИСТЕНЦІЙНО-ПСИХОЛОГІЧНІ ОСНОВИ ПОРУШЕННЯ СТАТЕВОЇ ІДЕНТИЧНОСТІ ПІДЛІТКІВ Батьківський, громадянський рух в Україні закликає МОН зупинити тотальну сексуалізацію дітей і підлітків Відкрите звернення Міністру освіти й науки України - Гриневич Лілії Михайлівні Представництво українського жіноцтва в ООН: низький рівень культури спілкування в соціальних мережах Гендерна антидискримінаційна експертиза може зробити нас моральними рабами ЛІВИЙ МАРКСИЗМ У НОВИХ ПІДРУЧНИКАХ ДЛЯ ШКОЛЯРІВ ВІДКРИТА ЗАЯВА на підтримку позиції Ганни Турчинової та права кожної людини на свободу думки, світогляду та вираження поглядів
Контакти
Тлумачний словник Авто Автоматизація Архітектура Астрономія Аудит Біологія Будівництво Бухгалтерія Винахідництво Виробництво Військова справа Генетика Географія Геологія Господарство Держава Дім Екологія Економетрика Економіка Електроніка Журналістика та ЗМІ Зв'язок Іноземні мови Інформатика Історія Комп'ютери Креслення Кулінарія Культура Лексикологія Література Логіка Маркетинг Математика Машинобудування Медицина Менеджмент Метали і Зварювання Механіка Мистецтво Музика Населення Освіта Охорона безпеки життя Охорона Праці Педагогіка Політика Право Програмування Промисловість Психологія Радіо Регилия Соціологія Спорт Стандартизація Технології Торгівля Туризм Фізика Фізіологія Філософія Фінанси Хімія Юриспунденкция |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ТЕКСТ ЛЕКЦІЙКрім цих лекцій потрібно також вивчити матеріал слайдів та матеріал для самостійного вивчення (HTML)
ВСТУП. Поняття інформаційного суспільства
На теперішньому етапі людство переходить від індустріального суспільства до інформаційного. За визначенням комісії Євросоюзу «інформаційне суспільство – це суспільство, в якому діяльність людей здійснюється на основі використання послуг, що надаються за допомогою інформаційних технологій та технологій зв’язку». У найбільш розвинених країнах світу кількість людей, професія яких пов’язана з інформацією чи інформатикою (програмісти; бібліотекарі; журналісти; аналітики в банках та на підприємствах; ) вже перевищила кількість робітників і селян разом узятих. А в США кількість таких людей, діяльність яких пов’язана з обробкою інформації, навіть зрівнялася із сферою обслуговування. Частка інформаційних технологій у ВВП країн, які входять до Євросоюзу, уже досягла 5%. Характерними рисами інформаційного суспільства є: - головною формою розвитку є інформаційна економіка; - інформаційні технології набирають глобального характеру; - реалізовано вільний доступ кожної людини до інформаційних ресурсів усієї цивілізації. Ряд вчених-економістів в Україні вважають, що нашій державі замість того, щоб підтримувати нерентабельні або низькорентабельні індустріальні підприємства варто здійснювати інновації в першу чергу в інформаційну індустрію. Кадровий потенціал для цього в Україні достатній.
ТЕМА 1. СУЧАСНІ СХОВИЩА ДАНИХ. Трансакційні та аналітичні системи обробки даних. В 1970-1980-х роках комп’ютерні системи на той час використовувалися, в основному, лише для операційної роботи (проведення таких трансакцій, як оплата за рахунками, розрахунки з постачальниками, купівля квитків на транспорт тощо). Вони називалися системами обробки трансакцій (On-Line Transaction Processing, OLTP). До OLTP-систем можна віднести системи «Сигма-абітурієнт», «Сигма-студент», «Сигма-викладач», які виконують такі трансакції, як видача екзаменаційних відомостей, зміна прізвища студентки, зміна посади чи вченого звання викладача тощо. Звичайно, OLTP-система має змогу давати відповіді на прості запити, наприклад, чи є сьогодні купейні квитки до Києва, видати список студентів групи ЕКЕ-41, підрахувати кількість професорів на економічному факультеті,… Основною вимогою до OLTP-систем була вимога цілісності (тобто, якщо асистент ставав доцентом, то відповідна зміна повинна була бути одночасно зроблена і в навчальній частині, і у відділі кадрів, і в бухгалтерії. Інформація опрацьовувалася засобами реляційних СУБД, наприклад, MySQL. Запити забезпечувалися мовою SQL. В 1980-х роках практично повністю завершився процес комп’ютеризації бізнесу. Підприємства та організації накопичили величезні обсяги даних, які стосувалися різних аспектів їхньої діяльності. Виникло розуміння того, що ці масиви можуть бути дуже корисними. На їхній основі можна виконувати глибокий аналіз, виявляти приховані закономірності функціонування економічних систем з метою якісного прийняття управлінських рішень. Відповідні комп’ютерні системи почали називати системами аналітичної обробки (On-Line Analysis Processing, OLAP). До OLAP-систем аналітики можуть звертатися із складними запитами, такими як «визначити середній час між виставленням рахунків за газ та їх оплатою в розрізі різних груп клієнтів» тощо. Основою OLAP-систем є сховища даних (які можуть зберігати терабайти інформації). Інформація опрацьовується потужними СУБД типу ORACLE. Аналітичні запити частково виконуються мовою SQL, проте часто потребують застосування мови високого рівня типу JAVA чи спеціалізованих пакетів.
Реляційні бази даних Теорія реляційних баз даних була розроблена в 1970 році Е. Коддом (E. Codd). Інформація в таких базах зберігається у вигляді таблиць (файлів) спеціального вигляду. Поля (атрибути, реквізити) кожної із таблиць реляційної БД повинні задовольняти таким умовам: 1) усі поля кожної із таблиць є атомарними (неподільними); 2) одне чи декілька полів (реквізитів) кожної таблиці утворюють ключ (простий або складений). Два рядки з однаковим ключем не допускаються; 3) у випадку складеного ключа кожен не ключовий реквізит повинен повно залежати від ключа (тобто він не може залежати лише від його частини).Наприклад, коли ключем є пара «батько, мати», а не ключовими реквізитами діти, то в реляційних базах не повинно бути «його дітей», «її дітей» та «спільних дітей»; 4) будь яка транзитивна залежність між полями у записах не допускається. Наприклад, у записі «факультет, кафедра, викладач, вчене звання» має місце транзит. При переході викладача на якусь кафедру іншого факультету може відбутися спотворення (втрата цілісності) інформації; 5) такої всі таблиці в реляційних базах даних повинні бути зв’язані за ключами. При виконанні умов 1-5 кажуть, що база даних знаходиться в третій нормальній формі Кодда. Третя нормальна форма (3НФ) є цінною тим, що вона гарантує цілісність бази. Зазначимо, що до 3НФ перейти можна завжди. Робота з даними в реляційних БД здійснюються за допомогою мови запитів SQL.
Сховища даних, вітрини Концепція сховищ даних була сформульована Білом Інмоном (Bill Inmon) в 1992 році в роботі “Building the Data Warehouse”. Сховище даних (Data Warehouse) – це предметно орієнтована, інтегрована, прив’язана до часу та незмінна сукупність даних, призначена для підтримки прийняття рішень. Інтегрованість. Дані в сховище надходять з різних джерел, вони можуть мати різні формати та способи кодування. Сховище повинно мати засоби для приведення таких даних в єдиний формат. Предметна орієнтація. На відміну від оперативних баз даних, де дані організуються відповідно до процесів (відвантаження товару, нарахування зарплати), в сховищах дані організовані відповідно до напрямків діяльності (замовники, постачальники,…). Підтримка хронології, незмінність. Таким чином в сховищах дані зберігають свою істинність в довільний момент часу, тоді як в OLTP-системах дані при проведеннях трансакцій змінюються. Зокрема, в системі «Сигма» при переході викладача на іншу посаду, на іншу кафедру,.. попередня інформація втрачається. В сховищах же тільки додаються нові дані. Враховуючи той факт, що при управлінні підприємством чи організацією потрібно забезпечувати як поточні трансакції, так і аналітику, сховище повинно поєднувати можливості як OLTP-, так і OLAP-систем.
Загальну схему сховищ даних представимо на рис.1.1.
первинні документи бази даних OLTP-системи OLTP-звіти 3НФ
архіви центральне сховище Internet вітрина . . . вітрина (гіперкуб) (гіперкуб) OLAP- системи аналітичні звіти Рис.1.1.
Для баз даних, які підтримують OLTP-системи, важливим є швидкість трансакцій та забезпечення цілісності. Очевидно, найкращим машинним представленням у цьому випадку є реляційна модель з використанням третьої нормальної форми. Час від час ця оперативна інформація передається в архіви (іноді попередньо вона узагальнюється). Вимога цілісності в архівах забезпечується автоматично, тому третя нормальна форма для них не є обов’язковою. Центральне сховище повинно мати засоби для перегляду як оперативних даних, так і даних з архівів. Проте дуже рідко аналітикам потрібна відразу вся інформація з центрального сховища. Для кожних конкретних аналітичних застосувань з цього сховища вирізають так звані кіоски (вітрини, Data Marts). До даних кіосків застосовуються складні аналітичні запити, а також математичні методи (прогнозування, кластерний та факторний аналіз, дерева рішень, нечітка логіка тощо) Основною вимогою до кіосків є швидкість опрацювання даних. Найкращим тут є представлення даних у вигляді векторів, матриць, гіперкубів вищої розмірності. Для утворення вітрин використовується мова запитів SQL або алгоритмічна мова.
ТЕМА 2. .ІНТЕЛЕКТУАЛЬНИЙ АНАЛІЗ СХОВИЩ ДАНИХ (Дейтамайнінг)
Поняття дейтамайнінгу. Із початку 1990-х менеджери почали виявляти бажання самим мати доступ до нагромаджених даних і самим аналізувати їх. Класичний статистичний аналіз працює в режимі верифікації. Формулюється статистична гіпотеза, а потім при допомозі математичного апарату вона або підтверджується або спростовується. Проте на практиці виявилося потрібним також виявляти приховані, раніше невідомі зв’язки між даними. Відповідні інструментальні засоби були створені і отримали назву засобів дейтамайнінгу (Data mining). Інша назва: засоби відкриття, видобуттязнань (Knowladge Discovery). Програмне забезпечення дейтамайнінгу працює в режимі відкриття (discovery mode), виявляючи невідомі раніше взірці (patterns) або шаблони. У даних лекціях будемо розглядати деякі алгоритми дейтамайнінгу. Дейтамайнінг – це клас аналітичного прикладного програмного забезпечення, яке підтримує рішення, виконуючи пошук за прихованими взірцями, шаблонами, формами. Основні характеристики дейтамайнінгу: - Інформація міститься у сховищах даних великого розміру. - Середовище дейтамайнінгу звичайно орієнтується на архітектуру клієнт-сервер. - Від користувача систем дейтамайнінгу не вимагається кваліфікованої програмістської підготовки. - Інструментальні засоби дейтамайнінгу є сумісними з табличними процесорами. - Результати дейтамайнінгу часто є несподіваними (а не ‘те,що й потрібно було довести’)і вимагають від менеджера-користувача вміння творчо мислити.
Типи інформації, які отримуються засобами дейтамайнінгу. Інтелектуальний дейтамайнінг відкриває (видобуває) інформацію всередині баз і сховищ даних. Основними типами такої інформації є класифікація, кластеризація, асоціація, упорядкування, прогнозування.
Класифікація. Той чи інший об’єкт (наприклад, споживач) відноситься до певного класу. Наприклад, особа відноситься до середнього класу, якщо вона задовольняє хоча би 5 із таких 8 умов: - має власний автомобіль; - має кількість кімнат хоча б на одну більше, ніж кількість членів сім’ї; - має дачний будиночок; - кожного літа відпочиває за кордоном; - не хапається за додатковий підробіток; - не користується субсидіями; - має вдома цілодобовий Інтернет; - має посудомиючу машину. Кластеризація (групування). Об’єкти розділяються на групи, кластери. При цьому кількість цих груп наперед невідома. Наперед невідомі також характеристики цих груп. Кількість груп та характеристики цих груп є результатом застосування кластерного аналізу до сховища даних. Наприклад, виявилося, що всі чоловіки поділяються на три кластери: -однолюби (за все своє життя були близько знайомими лише з 2-4 жінками); -звичайні чоловіки, таких 80% (20±5 жінок); -донжуани (сотні жінок). Асоціація. Виявляються зв’язки між подіями. Наприклад, при купівлі дитячих памперсів дуже часто одночасно купують і дві пляшки пива. Упорядкування, послідовність. Виявляються зв’язки в часі. Приклад. Через 3 місяці після отримання зарплатної пластикової картки 20% клієнтів замовляють послугу ‘інформація при прихід зарплати на мобільний телефон’. Прогнозування. Оцінюються майбутні значення показників (наприклад, значення попиту) на основі даних із сховища (економетричні методи, методи гнучкого прогнозування). Ці знання потрібні для розробки заходів щодо просування товарів. Наприклад, страхові компанії знають, що одружені живуть довше.
Дейтамайнінг, який виявляє наперед невідомі, нетривіальні та практично корисні знання, є дуже корисним при прийнятті рішень. Досить часто економічний ефект від прийняття грамотного рішення в 10 разів перевищує вартість проекту дейтамайнінгу, незважаючи на те, що такий проект коштує від 350 тис. до 750 тис. доларів.
Окремими гілками дейтамайнінгу є Text Mining та Web Mining. Text Mining виконує пошук нових знань в слабо структурованих текстових файлах (в основному, за допомогою комбінації ключових слів). Web Mining виявляє закономірності в поведінці користувачів з метою їх активного залучення. Наприклад, виявлення клієнтів, які здійснюють покупки в Інтернеті. (Ігровий Web-портал, який розглядається в магістерській роботі О. Крамара, планує аналітичне дослідження клієнтів на серверній частині.
Процеси дейтамайнінгу В класичних OLAP-системах користувач повинен задавати як взірці пошуку, так і гіпотези. В умовах дейтамайнінгу система бере ініціативу у свої руки і
Огляд програмного забезпечення дейтамайнінгу Зараз на ринку програмних продуктів пропонуються десятки різних систем детамайнінгу. Система Oracle 10g Data Mining Ця система постачається як доповнення до СУБД ORACLE. Вона підтримує: класифікацію, асоціацію (алгоритм Apriori), кластеризацію, регресійний аналіз, а також аналіз важливості атрибутів (факторний аналіз?). Oracle 10g Data Mining передбачає як програмний, так і графічний інтерфейс. Програмний інтерфейс включає мову JAVA, а також розширення мови запитів SQL із такими функціями як CLUSTER, FEATURE, PREDICTION. Система має також опцію Anomaly Detection .
Система Clementine компанії SPSS. В цю систему закладено широкий набір аналітичних алгоритмів, зокрема, класифікацію, прогнозування, пошуку асоціацій (GRI, Apriori, Sequence), метод головних компонент, дерева рішень. Система Microsoft SQL Server Analysis Services У 2000 році ця система містила тільки два алгоритми дейтамайнінгу: алгоритм побудови дерев рішень та алгоритм кластеризації. Проте вже в 2005 році вона має, крім того, -алгоритм Assotiation Rules пошуку закономірностей типу А і Б → С, наприклад, для пошуку перехресних даних з продажів у електронній комерції; -алгоритм Naive Bayes Це імовірнісна модель яка шукає, наприклад, відмінності між клієнтами, які припинили покупки в нашій фірмі і тими, які продовжують купувати; -алгоритм Sequence Clustering поєднує прогнозування з кластеризацією.Клієнти діляться на кластери і відбувається прогнозування їхньої поведінки; -алгоритм Time Series виявляє закономірності в різних часових послідовностях. Система Microsoft SQL Server також має мову запитів SQL, розширену оператором Create Mining Model . В цілому варто зазначити, що зараз кожна фірма, яка розробляє і супроводжує бази та сховища даних, інтенсивно впроваджує у ці СУБД засоби дейтамайнінгу. Користувач не мусить при цьому володіти відповідним математичним апаратом (економетрією, математичною логікою, матричною алгеброю тощо). Йому (достатньо володіти англійською мовою в обсязі програмістських термінів). Проте варто не забувати, що довільний математичний метод (алгоритм) є коректним тільки при виконанні певних умов (шукати обернену матрицю можна тільки тоді, коли її визначник не є нулем і не є близьким до нуля; будувати множинну регресію можна тільки при відсутності мультиколінеарності,…). Тому на кожній фірмі, установі бажано мати математично грамотну людину, яка знає не лише пункти меню конкретної програми, але й знає алгоритми дейтамайнінгу і умови їх застосування. ТЕМА 3. КЛАСТЕРНИЙ АНАЛІЗ
Кластерний аналіз –це багатомірна статистична процедура (кластеризація), яка класифікує об’єкти або спостереження в однорідні групи. Набір усіх досліджуваних об’єктів розподіляється по підкласах, які називаються кластерами (cluster, згустками, класами, скупченнями, таксонами). Синонімами до терміну кластеризація є: кластерний аналіз, сегментаційний аналіз, сегментація, таксономія, розпізнавання без навчання, автоматична класифікація, неконтрольована класифікація. Основна мета кластеризації – розділити множину початкових даних на такі підмножини, групи, щоб об’єкти всередині кожної групи були подібними до себе, а об’єкти з різних груп – неподібними. Основним поняттям кластерного аналізу є дистанція (відстань). Вважаючи, що кожен об’єкт має атрибутів, задамо його у вигляді точки в -вимірному просторі. Для обчислення відстані між об’єктами та можна використати різні формули: -відстань Матхаттана = - Евклідову відстань = (3.1) -зважену Евклідову відстань = -коефіцієнт кореляції = .
У тому випадку, коли значення атрибутів об’єкта не є числовими (наприклад, стать), то або ці значення потрібно перетворити у числові, або використати якусь з якісних мір подібності (коефіцієнти Рао, Хеммінга, Жаккарда тощо) Нормалізація атрибутів. Оскільки різні атрибути одного об’єкту можуть мати різну розмірність та різний діапазон, то їх необхідно нормалізувати, стандартизувати. Нехай, наприклад, для деякої групи людей є відомими їх вік, кількість дітей та зарплата. Потрібно визначити міру відстані (близькості) між цими людьми. Без виконання нормалізації класифікація цілком залежатиме тільки від зарплати, оскільки зарплата вимірюється сотнями і тисячами, а кількість дітей одиницями і дуже рідко десятками.
Нормалізація перетворює матрицю (3.2) де - кількість об’єктів, а - кількість ознак, в матрицю (3.3) Нормалізація виконується, наприклад, за формулами (3.4) або за формулами (3.5) де ,
Тепер у першому випадку всі атрибути . У другому випадку значення будуть як додатними, так і відємними. Проте середнє арифметичне кожної ознаки , а середнє квадратичне відхилення (а, отже, і дисперсія) кожної з ознак дорівнює одиниці. Матриця відстаней (схожості) між обєктами Нехай = віддаль між -им та -им рядками нормованої матриці(3.3). Тоді згідно (3.1), Побудована таким чином квадратна матриця називається матрицею відстаней між об’єктами. Вона є симетричною відносно головної діагоналі. Відстані між кластерами На рисунку 3.1. множина із двадцяти об’єктів розбита на чотири кластери. Відстань між кожною парою цих об’єктів можна знаходити за довільною із формул (3.1), наприклад, нею може бути Евклідова відстань.
Центральним питанням в кластерному аналізі є обчислення відстані між кластерами, кожен з яких містить декілька об’єктів.
* * * * * * * * * * * * * * * * * * * *
Рис. 3.1.
Існує багато варіантів обчислення такої відстані, наприклад,: - відстань між найближчими сусідами (Nearest neighbor); - відстань між найвіддаленішими сусідами (Furthest neighbor); - відстань між центрами кластерів (Centroid clustering). Вибір відстані між кластерами потрібно здійснювати на основі змістовного розуміння задачі. Наприклад, за методом «найближчого сусіда» від України до Казахстану набагато ближче, ніж до Німеччини чи Естонії. Проте, коли міряти віддалі між столицями, то найближче до Києва знаходяться Мінськ та Кишинів (отже, не дивно, що економіка нашої держави є най подібнішою до молдавської та білоруської), трохи далі –Вільнюс, ще трохи далі – Варшава і Бухарест, і ще далі – Москва. При вимірюванні між географічними центрами країн висновки знову ж будуть різними. Найкраще у цьому прикладі, мабуть, брати зважену (на кількість населення) евклідову міру між географічними центрами. Ієрархічний кластерний аналіз. Ідея методу є такою: на першому кроці всі об’єктів розподіляються на кластерів,. На другому кроці шукаються два найближчі кластери (кожен кластер на цьому кроці поки-що складається із одного об’єкта) і об’єднуються в один кластер. Таким чином після виконання другого кроку кількість кластерів стає рівною . Така процедура повторюється до тих пір, поки усі кластери обєднаються в один. Як видно, цей алгоритм є навчальним методом без учителя.
Звичайно, обидва крайні випадки (кожен запис бази даних є окремим кластером; уся БД є одним кластером) не є потрібними на практиці. Основною ідеєю кластеризації є пошук корисних взірців у базі, що має зробити її зрозумілішою при прийнятті рішень. Тому сам кінцевий користувач повинен зупинитися на тій чи іншій кількості кластерів. Останнє можна вважати як недоліком, так і перевагою кластерного аналізу. На заключному етапі кластерного аналізу знаходять центри кожного з кластерів та дають економічну інтерпретацію отриманим кластерам. Результати кластеризації представляють дендрограмою, яка показує, які об’єкти обєдналися на якому етапі (тобто, які об’єкти виявилися найбільш подібними між собою), а також в деяких програмних системах наглядно демонструє відстані між кластерами.
Швидкий кластерний аналіз (метод -центрів) Кількість кластерів аналітик фіксує наперед. Комп’ютер випадково (або аналітик свідомо) вибирає по одному елементу в кожному із цих кластерів. Далі розраховуються відстані від кожного іншого об’єкту до цих кластерів і виконуються об’єднання до тих пір, поки всі елементи будуть класифіковані. Цей метод є швидшим, ніж ієрархічний. Його застосовують для аналізу великих баз даних. Метод -центрів дає змогу пояснити економічно кожен кластер, але він не дає відповіді на те, який об’єкт коли приєднався до свого кластера. Дендрограма, отже, також не будується. Проте є багато застосувань, коли аналітика цікавить лише кількість елементів у кожному кластері та характеристики центрів кластерів, і зовсім не цікавлять конкретні об’єкти. Наприклад, виконуючи анонімне анкетування, ми хочемо дослідити населення України на приналежність до вищого, середнього та нижчого класів. Зазначимо, що кластерний аналіз відноситься до методів дейтамайнінгу, основаних на збережених даних. Введемо початкові статистичні дані для подальшого аналізу показників конкурентоспроможності одинадцяти країн. Для цього заповнимо таблицю (рис.3.2.).
Рис.3.2. Вигляд електронної таблиці введення вхідних даних в систему STATISTICA за 2001 та 2006 роки
Модуль «Кластерний аналіз» викликається за допомогою STATISTICA Module Switcher – Перемикач модулів STATISTICA (рис.3.3). Вибираємо ієрархічний метод (Joining (tree clustering)) у вікні Define Method of Cluster Analysis (рис.3.4). Рис. 3.3. Перемикач Модулів STATISTICA
Рис. 3.4. Вибір методу кластерного аналізу.
На екрані буде виведене нове вікно Cluster Analysis Joining (Tree Clustering), в якому відкриваємо закладку Advanced (розширений) → Cluster→ Variables (columns) також вибираємо Complete linkage →Amalgamation (linkage) rule →OK.
Рис.3.5. Стартова панель модуля кластерного аналізу. Наступним кроком є вибір змінних (Select variables for the analysis). Рис. 3.6. Вікно – Вибрати змінні для кластерного аналізу.
Вікно результатів аналізу складається з двох частин: верхня частина вікна – інформаційна, нижня складається з функціональних кнопок, які дозволяють повністю подивитися на результати аналізу.
Рис. 3.7. Вікно результату кластерного аналізу.
В нижній частині виберемо кнопку Tree Diagram. Подивимося результат кластерного аналізу на графіку (дендрогамі). Рис. 3.8. Кластерний результат для даних за 2001 рік. Рис. 3.9. Кластерний аналіз. Результат для даних за 2006 рік.
Проведемо групування країн на основі отриманого ієрархічного дерева. Групування здійснено за формулою Евклідової відстані, тип з’єднання – загальний. Здійснивши таке групування, визначено наступні групи країн: У 2001 році: 1. Болгарія, Македонія, Боснія і Герцоговина, Україна, Білорусія, Росія. 2. Хорватія, Польща, Словаччина, Чехія. 3. Словенія. У 2006 році: 1. Македонія, Боснія і Герцоговина, Білорусія, Болгарія, Україна. 2. Хорватія, Словаччина, Польща, Росія. 3. Чехія та Словенія. За кожен досліджуваний рік сформовано по три групи, які презентують особливості економічного зростання слов’янських країн. Побудова кластерів на основі вибраних показників кількох років дозволяє виявити динаміку зміни в процесах економічного зростання. При аналізі даних за 2001 рік, сформованих в ієрархічному дереві , бачимо, що у першому кластері об’єдалися Болгарія і Македонія, згодом Боснія та Герцоговина, україна і Білорусія. Останньою приєдналась Росія і ці країни утворили найслабшу групу. Середню групу, тобто другий кластер утворили Хорватія, Польща, Словаччина і на останньому етапі до них приєдналась Чехія. Словенія в свою чергу утворила найсильніший кластер, не об’єднавшись із жодною з країн. В результаті кластерного аналізу даних за 2006 рік на першому етапі об’єдналися Македонія та Боснія і Герцоговина, потім до них приєдналися Білорусія і Болгарія, а потім ще й Україна, на другому і третьому етапі, відповідно. Вони утворили середній клас. На кожному кроці роботи алгоритму здійснюється об’єднання двох найближчих кластерів і знову будується матриця віддалей , розмірності якої зменшуються на одну одиницю. На другому етапі об’єдналися Хорватія і Словаччина, а на третьому до них приєдналася Польща, на четвертому Росія. Вони утворили сильніший кластер. Чехія і Словенія об’єдналися останніми і утворили найсильніший клас. Отже, порівняно з 2001 роком, більшими темпами відбувається економічне зростання у Росії, яка з найслабшої групи перейшла у другий кластер та у Чехії, яка разом з Словенією у 2006 році стали лідерами за показниками економічного зростання. Загалом відбулись незначні відмінності в перебігу процесів економічного зростання слов’янських країн, судячи з побудованого дерева ієрархій. Це означає, що для більш точних результатів потрібно зібрати більше статистичних показників, зокрема таких, що стали значущими в умовах глобалізації та НТП.
Метод найближчого сусіда Метод найближчого сусіда не лише використовується для обчислення відстаней між кластерами, а, крім того, є самостійним методом дейтамайнінгу. Він ґрунтується на збереженні даних. В пам’яті тримається певний набір даних для порівняння з новими елементами. Наприклад, коли з’являється новий клієнт банку, то його атрибути порівнюються з наявними банківськими клієнтами (вік, освіта, посада, місце проживання…) і виділяється множина клієнтів, найбільш подібних до нього. Цей метод відносять до методів з контрольованим навчанням, оскільки він використовується для передбачення. Метод найближчого сусіда є стійким (робастим) відносно неякісних та відсутніх даних. Основне завдання методу – передбачення або прогнозування показників не знаходячи при цьому залежності між показниками. Просто вибираються історичні записи, подібні до того, який аналізується і на їх основі виконується передбачення. Даний метод реалізовано в деяких програмних системах.
Запитання до теми Постановка задачі кластерного аналізу. Відстань між об’єктами. Нормалізація атрибутів у кластерному аналізі. Матриця відстаней між об’єктами. Відстані між кластерами. Ієрархічний кластерний аналіз. Швидкий кластерний аналіз (метод -центрів). Метод найближчого сусіда. Виконання кластерного аналізу засобами системи STATISTICA.
ТЕМА 4. ФАКТОРНИЙ АНАЛІЗ
Вхідною інформацією для кластерного аналізу була множина із об’єктів, кожен із яких характеризувався ознаками: (4.1) де . У базі даних цим об’єктам відповідали записи, а ознакам – поля. Утворивши відповідну матрицю (двовимірний гіперкуб), ми у рядках маємо об’єкти (наприклад, країни), а у стовпцях – ознаки (наприклад, макроекономічні показники). Кластерний аналіз об’єднує велику кількість об’єктів (яких може бути сотні або тисячі) у невелику кількість кластерів (не більше десяти). Факторний аналіз також здійснює стиск даних (Data reduction) початкової матриці. Він замінює набір ознак (яких може бути десятки) в невелику кількість (2, 3, щонайбільше 4) факторів. Ознаки, які характеризують той чи інший економічний об’єкт, на практиці завжди є висококорельованими (мультиколінеарними) між собою. Наприклад, ніяк не можуть бути незалежними між собою такі ознаки як «розмір середньої зарплати», «ВВП на душу населення» та «середня тривалість життя». Термін мультиколінеарність означає, що в регресійній моделі незалежні змінні (ознаки) пов’язані між собою лінійною залежністю. Тому застосовувати у цьому випадку класичний економетричний підхід не є коректним. При побудові економетричних моделей мультиколінеарність має бути відсутньою (коефіцієнт кореляції між довільною парою ознак має бути близьким до нуля; скалярний добуток має бути близьким до нуля). Факторний аналіз – це обґрунтована заміна великої кількості ознак меншою кількість факторів. У результаті виконання факторного аналізу матриця (4.1) замінюється матрицею , (4.2)
де всі пари є ортогональними. Тут є факторами. Кожен фактор характеризує групу ознак, які мають подібний характер зміни при переході від одного об’єкта до іншого. На практиці обмежуються невеликою кількістю факторів. Найпоширеніший метод витягу факторів – метод головних компонент. В цьому методі фактори ще називаються головними компонентами (першою головною компонентою, другою головною компонентою,…). Розглянемо цей метод. Обчислимо за даними матриці парні кореляції між всіма парами ознак за формулами (4.3)
У результаті отримуємо симетричну кореляційну матрицю (4.4) Будуємо такий визначник (детермінант) : (4.5) Цей визначник є многочленом -ого порядку відносно змінної . Він називається характеристичним многочленом матриці . Цьому многочленові відповідає характеристичне рівняння , (4.6) яке має не більше, ніж дійсних коренів. Розташуємо ці корені по спаданню: Число називається першим власним числом матриці , число - її другим власним числом,…
Кожному власному числу відповідає свій власний вектор кореляційної матриці. Перший власний вектор знаходиться як ненульовий розвязок системи рівнянь , (4.7) другий власний вектор як ненульовий розвязок системи ,… Власні числа характеризують вклади відповідних головних компонент у загальну дисперсію ознак . Перша головна компонента має найбільший вплив, друга менший,... Розглянемо таку таблицю бази даних: Табл. 4.1
Тут . Використавши формулу (4.3), отримуємо таку кореляційну матрицю: Зокрема, коефіцієнт кореляції між другою (інвестиції) та третьою (ВВП на душу населення) ознакою дорівнює 0,486078. Відповідне кубічне характеристичне рівняння є таким:
Знаходимо перші два власні числа як розв’язки останнього рівняння: Для знаходження першого власного вектора потрібно розв’язати таку систему трьох рівнянь з трьома невідомими: , тобто систему Визначник цієї системи згідно (4.6) дорівнює нулю, отже, вона має безліч розв’язків. Множина всіх цих розв’язків є такою: , де - довільне дійсне число. При отримуємо шуканий ненульовий розв’язок, тобто, перший власний вектор кореляційної матриці: Аналогічним чином, розв’язавши систему рівнянь ,
отримуємо другий власний вектор Всі власні вектори є ортогональними між собою. Третє власне число, як і третій власний вектор не обчислюємо, оскільки нашою задачею є редукція кількості ознак. Крім того, варто відкидати вектори, які відповідають невеликим власним числам (наприклад, числам, меншим від 1 ).
На основі отриманих власних векторів будуємо вектори (фактори, головні компоненти):
Набір усіх цих векторів утворює матрицю факторних навантажень В математиці доводиться, що .У нашому прикладі . Елементами матриці факторних навантажень є коефіцієнти парної кореляції, які вимірюють тісноту зв’язку між ознаками та факторами . Отже, згідно методу головних компонент перший та другий фактори є такими: (4.8) Перший фактор має високі навантаження на першу та другу ознаки (експорт та зовнішні інвестиції), а другий - на третю ознаку (ВВП на душу населення). Тому з метою редукції даних будемо вважати: або навіть: Перший фактор можна інтерпретувати як відкритість економіки. Він є сумою перших двох ознак. Його можна навіть змінити однією з них. У нашому прикладі редукція трьох ознак до двох факторів була очевидною. Проте при наявності 10-20 ознак тільки математичний апарат факторного аналізу дозволяє грамотно виділити головні фактори.
Пакет STATISTICA дозволяє автоматизувати розрахунки за методом головних компонент(модуль Factor Analysis). Після появи на екрані стартової панелі модуля Factor Analysis-факторний аналіз вказуємо вхідний файл і виконуємо перший етап факторного аналізу – обчислення матриці кореляцій. Визначимо метод виділення факторів, тобто метод головних компонент (Principal components, головні, ведучі компоненти) у вікні Define Method of Factor Extraction і натиснемо кнопку Correlations.
Рис 4.1. Введення вхідних даних в систему STATISTICA
Рис. 4.2. Вигляд вікна Define Method of Factor Extraction – Визначити метод виділення факторів з вибором методу головних компонент.
На екрані буде виведена кореляційна матриця вибраних змінних. Рис 4.3. Кореляційна матриця для даних з початкового файлу
Після вибору методу головних компонент і натискання кнопки OK система виведе на екран результати факторного аналізу (рис 4.4).
Рис. 4.4. Вікно результатів факторного аналізу В верхній частині вікна міститься інформація: - Number of variables – кількість змінних, що аналізуються: 3; - Method – метод аналізу: головні компоненти; - Number of factor extraction – кількість виділених факторів: 2 (для нашого випадку це – експорт товарів і послуг і інвестиції); - Eigenvalues – власні значення: λ1=2,34358; λ2=0,642706.
Дослідимо числові факторні навантаження (рис.4.5). Рис 4.5. Таблиця факторних навантажень для даних з початкового файлу. Побудуємо Двовимірний графік навантажень (Plot of Loadings 2D, Факторний результат для даних).
Рис.4.6. Обертання факторів На двовимірному графіку осі відповідають першому та другому факторам (головним компонентам). Кожна з ознак є на цьому графіку вектором, який виходить з точки (0,0) і має координати . Для змістовного розуміння отриманих результатів часто потрібно виконати обертання факторів (наприклад, алгоритмом варімакс) . На рисунку 4.7 показано результати факторного аналізу (2, с.223) п’яти ознак до і після обертання. фактор2
фактор1
Рис.4.7
Таким чином, аналіз множини об’єктів. Кожен із яких характеризується багатьма ознаками, найкраще виконувати у такій послідовності: - факторний аналіз з метою виявлення невеликої кількості головних факторів; - кластерний аналіз (на базі цих факторів) з метою розбиття усієї бази даних на групи подібних між собою об’єктів; - економетричний аналіз кожного із цих кластерів зокрема.
Запитання до теми Постановка задачі факторного аналізу. Метод головних компонент. Характеристичний многочлен кореляційної матриці. Власні числа та власні вектори кореляційної матриці. Матриця факторних навантажень. Виконання факторного аналізу засобами системи STATISTICA. Головні компоненти, їх властивості, економічна інтерпретація. Обертання факторів.
ТЕМА 5. АНАЛІЗ ЧАСОВИХ РЯДІВ
Класична економетрія на основі статистичних даних (із бази, із сховища) будує залежність між результатною змінною (залежною змінною, результатним показником) від змінних (ознак, аргументів, незалежних змінних) у вигляді явної математичної функції (5.1) В частковому випадку будується лінійна залежність (5.2) тобто на основі значень обчислюються параметри регресії . Параметрам регресії можна довіряти лише тоді, коли виконується ряд умов. Одна з таких умов – це відсутність мультиколінеарності між ознаками . На практиці ця умова не виконується практично ніколи (хоча, як було показано в попередньому розділі, попереднє застосування факторного аналізу цей недолік усуває). Іншою обов’язковою умовою побудови регресійного рівняння є перевірка того факту, що вплив всіх неврахованих аргументів на результуючу змінну не є суттєвим. Але ж це перевірити взагалі нереально. Тому використовувати економетричні методи в економіці слід дуже обережно. Частковою задачею економетрії є аналіз часових (динамічних) рядів, тобто побудова теоретичного рівняння регресійної залежності (5.3) за емпіричними (статистичними) даними часового ряду (незалежною змінною є час) (5.4) Основною задачею аналізу часових рядів є розклад цього ряду на - тренд; - сезонні коливання; - циклічні (макроекономічні) коливання; - залишок (випадкові ефекти).
Побудова тренду Першою задачею аналізу часових (динамічних) рядів є дослідження тенденції, тобто еволюції, напрямку розвитку показника . Математична функція. Яка описує таку тенденцію, називається трендом. Найчастіше тренд шукають у вигляді лінійної або експотенційної функції В першому випадку параметри та шукаються як розв'язки такої оптимізаційної задачі: f = f(a,b) = . (5.5) Взявши від функції f = f(a,b) часткові похідні за a та за b , отримуємо систему нормальних рівнянь , (5.6) звідки (5.7) Нелінійні залежності зводяться до лінійних за допомогою нескладних математичних перетворень. Так, логарифмуючи експотенційну функцію, отримуємо ln(y) = ln(a) + bt . (5.8) Задача знаходження параметрів a та b експотенційної функції тепер є лінійною відносно змінних t та ln(yt) . Розрахункові формули для цих параметрів легко отримати із (5.7): (5.9) Перевірка наявності тренду в часовому ряді При побудові регресійних рівнянь як між змінними xi , так і між змінними yi повинні бути відсутні автокореляції. Інакше кажучи, кожне спостереження не повинно залежати від інших спостережень. Розглянемо часовий ряд, який містить набір значень деякого економічного показника: (5.10) Перевірка наявності тренду (тобто перевірка наявності зв'язку між часом 1,…,t,…,n та значеннями ) за допомогою коефіцієнта кореляції не може вважатися науково обгрунтованою, оскільки значення часу 1,…,t,…,n аж ніяк не є незалежними між собою (після січня завжди наступить лютий, а не якийсь довільний місяць). Для перевірки наявності тренду в часовому ряді в останні роки щораз частіше використовується критерій Фостера-Стюарда. Згідно цього методу будуються дві допоміжні змінні vt та lt таким чином: якщо значення yt за своєю величиною перевищує усі попередні значення, то приймаємо vt = 1, інакше vt = 0. Якщо ж значення yt за своєю величиною є меншим від усіх попередніх значень, то lt = 1, інакше lt = 0 . Далі визначають величини та : (5.11) Розподіл випадкових величин s та d збігається до нормального. Для s та d при різних значеннях n підраховані табличні (теоретичні) значення середніх та дисперсій (μ - середнє значення для s; σ1 - дисперсія для s; 0 – середнє значення для d; σ2 – дисперсія для d). Для виявлення тенденції поведінки дисперсії перевіряють гіпотезу: чи можна вважати випадковою різницю . Для виявлення тенденції поведінки середнього перевіряють гіпотезу: чи можна вважати випадковою різницю . Для цього за даними часового ряду обчислюють емпіричні значення (5.12) та знаходять при заданому рівні довіри (значимості) α теоретичні значення критерію Стьюдента . При та гіпотеза про існування тренду ряду приймається із ступенем довіри 1-α.
Сезонні коливання та перевірка їх наявності Багато економічних показників (індекси споживчих цін, попит на сезонні товари, виробництво сільськогосподарської продукції тощо) є часовими рядами, що систематично коливаються. Найчастіше період таких коливань становить один рік. Кожен часовий ряд, як правило, містить дві складові: тренд та коливання. Випадки, коли ряд містить лише тренд або лише коливання, в економіці зустрічаються рідко. Тому дослідження коливань економічних показників є такою ж важливою задачею, як і дослідження трендів. На наявність сезонних коливань вказує, наприклад, візуальний аналіз графіка часового ряду. Проте найбільш обґрунтованим методом перевірки наявності сезонних коливань слід вважати прийняття рішення про існування тренду на основі аналізу корелограми цього ряду. Розглянемо поняття автокореляцій та корелограми. Нехай - деякий часовий ряд. Автокореляцією першого порядку цього ряду називають кореляцію між рядами та : , (5.13) де (5.14) Автокореляція другого порядку – це кореляція між рядами та . В загальному випадку автокореляція k–ого порядку rk у часовому ряді обчислюється за формулою (5.15) Очевидно, що всі значення rk знаходяться в проміжку 0 < rk < 1.
Графік, на якому по горизонтальній осі відкладені значення k , а по вертикальній осі – значення rk , називається корелограмою. Аналіз корелограми дає змогу встановити наскільки далеко значення yt впливають на значення yt+k . Наявність великих значень автокореляції r12 свідчить про наявність у часовому ряді сезонних коливань з періодом у 12 місяців.
Побудова регресійного рівняння для сезонних коливань Розглянемо ряд, у якому є сезонні коливання з періодом T=12 (за кількістю місяців у році): : (5.16) Нехай цей ряд не містить трендової компоненти і нехай, крім того, середнє значення його елементів дорівнює нулю. Це виконується за допомогою операції елімінації тренду. Тоді регресійну залежність, яка теоретично описує поведінку ряду (4.16), можна шукати у вигляді синусоїди з періодом T=12: (5.17) На практиці ряд (5.4) перетворюють у ряд, що містить 12 елементів: , (5.18) де (t=1,2,…,12) (5.19) Для знаходження параметрів a та b формули (4.17) на основі даних ряду (4.18) розв'язуємо оптимізаційну задачу . (5.20) Ця задача зводиться до знаходження розв'язків системи двох лінійних рівнянь (5.21) звідки отримуються шукані параметри регресії: (5.22) Побудова регресійного рівняння для циклічних коливань В економіці крім сезонних коливань спостерігаються також так звані довгі (циклічні) коливання. Усі країни з ринковою економікою циклічно проходять як фази підйому, так і фази спаду. Тривалість повного макроекономічного циклу не є однаковою в різні періоди розвитку людства і не є однаковою для різних країн. Дослідження циклічних (макроекономічних, довгих) коливань мають дуже важливе значення, тому що як фіскальна, так і монетарна політика держави повинна бути іншою напередодні зростання і іншою напередодні економічного спаду. Нехай задано часовий ряд , (5.23) з періодом коливань T (T <& Читайте також:
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|