Оцінка параметра до методом крос-перевірки

Один з варіантів оцінки параметра k – проведення крос-перевірки (Bishop, 1995).

Така процедура реалізована, наприклад, в пакеті STATISTICA (StatSoft) [39].

Крос-перевірка – відомий метод отримання оцінок невідомих параметрів моделі. Основна ідея методу – розділення вибірки даних на v "складок". V "складки" тут суть випадковим чином виділені ізольовані підвибірки.

По фіксованому значенню k будується модель k-ближчих сусідів для отримання передбачень на v-м сегменті (останні сегменти при цьому використовуються як приклади) і оцінюється помилка класифікації. Для регресійних задач найчастіше як оцінка помилки виступає сума квадратів, а для класифікаційних задач зручніше розглядати точність (відсоток коректно класифікованих спостережень).

Далі процес послідовно повторюється для всіх можливих варіантів вибору v. Після вичерпання v "складок" (циклів), обчислені помилки усереднюються і використовуються як міра стійкості моделі (тобто заходи якості передбачення в точках запиту). Вищеописані дії повторюються для різних k, і значення, відповідного найменшій помилці (або найбільшій класифікаційній точності), набуває як оптимальне (оптимальне в змісті методу крос-перевірки).

Слід враховувати, що крос-перевірка – обчислювально ємка процедура, і необхідно надати час для роботи алгоритму, особливо якщо обсяг вибірки досить великий.

Другий варіант вибору значення параметра k – самостійно задати його значення. Проте цей спосіб слід використовувати, якщо є обґрунтовані припущення відносно можливого значення параметра, наприклад, попередні дослідження схожих наборів даних.

Метод k-ближчих сусідів показує досить непогані результати в найрізноманітніших задачах.

Прикладом реального використання описаного вище методу є програмне забезпечення центру технічної підтримки компанії Dell, розроблене компанією Inference. Ця система допомагає співробітникам центру відповідати на більше число запитів, відразу пропонуючи відповіді на поширені питання і дозволяючи звертатися до бази під час розмови по телефону з користувачем. Співробітники центру технічної підтримки, завдяки реалізації цього методу, можуть відповідати одночасно на значне число дзвінків. Програмне забезпечення CBR зараз розгорнене в мережі Intranet компанії Dell.

Інструментів Data Mining, що реалізовують метод k-ближчих сусідів і CBR-метод, не дуже багато. Серед найбільш відомих: CBR Express і Case Point (Inference Corp), Apriori (Answer Systems), DP Umbrella (VYCOR Corp), KATE tools (Acknosoft, Франція), Pattern Recognition Workbench (Unica, США), а також деякі статистичні пакети, наприклад, Statistica.

Читайте також:

<== попередня сторінка	\|	наступна сторінка ==>
Рішення задачі прогнозування	\|	Класифікація Байєсовськая

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

Генерація сторінки за: 0.003 сек.