Інформаційні системи і технології на підприємствах - Плескач В. Л. - Задача кластеризації
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати.
Задачу класифікації розглядають як задачу визначення значення одного з параметрів аналізованого об'єкта на підставі значень інших параметрів. Досліджуваний параметр часто називають залежною змінною, а параметри, що беруть участь у його визначенні - незалежними змінними.
Задача класифікації і регресії розв'язується у два етапи. На першому виділяється навчальна вибірка. До неї входять об'єкти, для яких відомі значення як незалежних, так і залежних змінних.
На підставі навчальної вибірки будується модель визначення значення залежної змінної. її часто називають функцією класифікації або регресії. Для отримання максимально точної функції до навчальної вибірки пред'являються такі основні вимоги:
O кількість об'єктів, що входять до вибірки, має бути досить великою;
O до вибірки мають входити об'єкти, що представляють усі можливі класи у задачі класифікації або всю область значень у задачі регресії;
O для кожного класу в задачі класифікації або кожного інтервалу області значень у задачі регресії вибірка має містити достатню кількість об'єктів.
На другому етапі побудовану модель застосовують до об'єктів аналізу. Задача класифікації і регресії має геометричну інтерпретацію.
Задача пошуку асоціативних правил
Пошук асоціативних правил є поширеним застосуванням Data Mining. Суть задачі полягає у визначенні наборів об'єктів, що часто зустрічаються, в інформаційних масивах. Ця задача є окремим випадком задачі класифікації.
При аналізі потрібною є інформація про послідовність подій, що відбуваються. При виявленні закономірностей у таких послідовностях можна з певною часткою ймовірності передбачати появу подій у майбутньому, що дає змогу приймати правильніші рішення. Така задача є різновидом задачі пошуку асоціативних правил і називається Секвенціональним аналізом.
Він широко використовується, наприклад, в телекомунікаційних компаніях для аналізу даних про аварії на різних вузлах мережі.
Задача кластеризації
Задача кластеризації полягає в поділі об'єктів на групи подібних об'єктів, що називаються кластерами (cluster), тобто сукупності осіб, предметів. Задачі поділу множини елементів на кластери називають Кластер-ним аналізом.
Кластеризація може застосовуватися практично в будь-якій сфері, де необхідне дослідження експериментальних або статистичних даних.
Для задачі кластеризації характерна відсутність яких-не-будь відмінностей між змінними і об'єктами. Кластерний аналіз додає змогу розглядати досить великий обсяг інформації і різко скорочувати, стискати великі масиви інформації, робити їх компактними.
Слід зазначити деякі особливості, властиві задачі кластеризації.
Рішення залежить від природи об'єктів даних (і їх атрибутів), а також від представлення кластерів і передбачуваних відношень об'єктів даних і кластерів. Так, необхідно враховувати такі властивості, як можливість/неможливість приналежності об'єктів кільком кластерам. Необхідне визначення самого поняття приналежності кластеру: однозначна ймовірність приналежності, нечітка ступінь приналежності.
2) дані деталізуються для подальшої обробки, тобто необхідним є виявлення і використання формалізованих закономірностей або дистиляція шаблонів.
При технології дистиляції шаблонів один зразок (шаблон) інформації витягується з початкових даних і перетворюється у певні формальні конструкції, вид яких залежить від методу Data Mining. Цей процес відбувається на стадії вільного пошуку, у першої групи методів ця стадія - відсутня. На стадіях прогностичного моделювання і аналізу виключень використовуються результати стадії вільного пошуку. Методи цієї групи: логічні методи; методи візуалізації; методи крос-табуляції; методи, засновані на рівняннях.
Логічні методи, або методи логічної індукції, включають нечіткі запити й аналізи, символьні правила, дерева рішень, генетичні алгоритми.
Методи цієї групи придатні для інтерпретації. Вони підтримують знайдені закономірності у прозорому вигляді з погляду користувача. Методи крос-табуляції забезпечують пошук шаблонів.
Методи на основі рівнянь виражають наявні закономірності у вигляді математичних виразів - рівнянь. Основні методи цієї групи: статистичні методи і нейронні мережі.
Статистичні методи найчастіше застосовуються для вирішення задач прогнозування. Є багато методів статистичного аналізу даних, наприклад, кореляційно-регресійний аналіз, кореляція рядів динаміки, виявлення тенденцій динамічних рядів, гармонійний аналіз.
Інша класифікація поділяє все різноманіття методів Data Mining на дві групи: статистичні і кібернетичні методи. Ця схема поділу заснована на різних підходах щодо навчання математичним моделям.
Статистичні методи Data Mining. Ці методи включають: попередній аналіз природи статистичних даних (перевірка гіпотез стаціонарності, нормальності, незалежності, однорідності, оцінка виду функції розподілу, її параметрів); виявлення зв'язків і закономірностей (лінійний і нелінійний регресійний аналіз, кореляційний аналіз); багатовимірний статистичний аналіз (лінійний і нелінійний дискримінантний аналіз, кластерний аналіз, компонентний аналіз, факторний аналіз); динамічні моделі і прогноз на основі часових рядів.
Статистичні методи Data Mining поділяються на чотири групи методів: дескриптивний аналіз і опис початкових даних; аналіз зв'язків (кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз); багатовимірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатовимірний регресійний аналіз, канонічні кореляції); аналіз часових рядів (динамічні моделі і прогнозування).
Кібернетичні методи Data Mining. До цієї групи належать такі методи: еволюційне програмування; асоціативна пам'ять (пошук аналогів, прототипів); нечітка логіка; дерева рішень; системи обробки експертних знань, штучні нейронні мережі (розпізнавання, кластеризація, прогноз); генетичні алгоритми (оптимізація).
Нейронні мережі (Neural Networks) - це клас моделей, що базуються на аналогії з роботою мозку людини і призначаються для вирішення різноманітних задач аналізу даних після проходження етапу навчання на даних.
Нейронні мережі - це моделі біологічних нейронних мереж мозку, в яких нейрони імітуються однотипними елементами (штучними нейронами).
Нейронна мережа може бути представлена направленим графом зі зваженими зв'язками, у якому штучні нейрони є вершинами, а синаптичні зв'язки - дугами.
Серед сфер застосування нейронних мереж - автоматизація процесів розпізнавання образів, прогнозування показників діяльності підприємства, медична діагностика, прогнозування, адаптивне управління, створення експертних систем, організація асоціативної пам'яті, оброблення аналогових і цифрових сигналів, синтез й ідентифікація електронних систем.
За допомогою нейронних мереж можна, наприклад, передбачати обсяги продажу виробів, показники фінансового ринку, розпізнавати сигнали, конструювати самонавчальні системи.
Нейронна мережа є сукупністю нейронів, з яких складаються шари. У кожному шарі нейрони пов'язані з нейронами
Схожі статті
-
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати. Задачу класифікації...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Задача класифікації і регресії
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати. Задачу класифікації...
-
Інтелектуальний аналіз даних (ІАД, Data Mining), або розвідка даних - термін, що застосовується для опису здобуття знань у базах даних, дослідження...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.4. Архітектура СППР
Архітектура СППР подається різними авторами по-різному. Наприклад, Г. Мара кас у 1999 р. запропонував узагальнену архітектуру, що складається з таких...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Математичне забезпечення (МЗ)
Це сукупність математичних моделей і алгоритмів для вирішення питань обробки інформації із застосуванням вибраної ІТ, а також комплекс засобів і методів,...
-
Методи кодування техніко-економічної інформації, які використовуються при створенні класифікаторів, безпосередньо пов'язані з методами класифікації....
-
Нині на ринку ІТ є десятки комп'ютерних програм для розрахунку і порівняльного аналізу інвестиційних проектів, як вітчизняних, так і зарубіжних. Серед...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Класифікація експертних систем
ЕС інтерпретації даних призначені для визначення семантики даних. Результати інтерпретації мають бути погодженими і коректними. У таких системах нерідко...
-
При розв'язуванні економічних задач слід забезпечити їх порівнянність. Ця проблема вирішується створенням Єдиної системи класифікації та кодування...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - OLAP-запити
Першим продуктом, що виконував OLAP-запити, був Express (компанія IRI). Інші відомі OLAP-продукти включають Microsoft Analysis Services, DB2 OLAP Server...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Архітектура MicroStrategy
На рис. 8.5 показано архітектуру інформаційно-аналітичної системи, побудованої на балі ВІ-платформи MicroStrategy. MicroStrategy Intelligence Server...
-
Сучасні підприємства змушені збирати й зберігати значні обсяги інформації - відомості про клієнтів та оперативні дані, що надходять в організацію з...
-
Успішне створення єдиної інформаційної бази істотно залежить від процесів уніфікації та стандартизації її складових. Схему перетворення інформації в дані...
-
Термін "безпека" використовується в розумінні мінімізації вразливості активів і ресурсів. Актив - це те, що має якесь значення (вартість), вразливість -...
-
Термін "безпека" використовується в розумінні мінімізації вразливості активів і ресурсів. Актив - це те, що має якесь значення (вартість), вразливість -...
-
Особливість інформації, що описує бізнес-процеси підприємств, полягає в тому, що вона зберігається у вигляді певних однакових структур. Прикладами таких...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Критерії якості ІТ
Інформаційні технології якісно змінюють ключові ресурси розвитку: це уже не простір із закріпленим на ньому виробництвом, а в першу чергу мобільні...
-
Інформаційні технології якісно змінюють ключові ресурси розвитку: це уже не простір із закріпленим на ньому виробництвом, а в першу чергу мобільні...
-
Інформаційні технології якісно змінюють ключові ресурси розвитку: це уже не простір із закріпленим на ньому виробництвом, а в першу чергу мобільні...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Класифікація САSЕ - засобів
Зупинимося на двох найбільш відомих варіантах класифікації САSЕ - засобів: за типами і категоріями. Класифікація за типами відображає функціональну...
-
У структурному аналізі і проектуванні використовуються різні моделі, що описують: O функціональну структуру системи; Визначається як ієрархія діаграм...
-
Видом інтелектуальних 1С можуть бути експертні системи (БС), що орієнтуються на здобуття, обробку і використання додаткової інформації - знань. Це...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Квазіалгоритми
Узагальненням поняття алгоритму є квазіалгоритм. На відміну від алгоритму інструкції квазіалгоритму можуть бути не зовсім чіткими, тому результат...
-
Наявність інтелекту часто сприяє виживанню. Чарльз Дарвін 8.1. Поняття та загальна характеристика інтелектуальних систем Підвищення ефективності...
-
Наявність інтелекту часто сприяє виживанню. Чарльз Дарвін 8.1. Поняття та загальна характеристика інтелектуальних систем Підвищення ефективності...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.6. Тенденції розвитку СППР
Головними напрямами розвитку технологій мережевих обчислень є: архітектура "клієнт - сервер" буде домінантною архітектурою; домашні комп'ютерні засоби...
-
У структурному аналізі і проектуванні використовуються різні моделі, що описують: O функціональну структуру системи; Визначається як ієрархія діаграм...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Класифікація СППР
Для СППР нині немає загальноприйнятої вичерпної класифікації. Різні автори пропонують різні класифікації. На рівні користувача НаеНепзсІтіІег (1999)...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.3. Класифікація СППР
Для СППР нині немає загальноприйнятої вичерпної класифікації. Різні автори пропонують різні класифікації. На рівні користувача НаеНепзсІтіІег (1999)...
-
У середині 60-Х років XX ст. в інформаційних системах першого покоління для кожної задачі готувалися окремі дані і відповідна математична модель...
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Задача кластеризації