Інформаційні системи і технології на підприємствах - Плескач В. Л. - Моделі Data Mining
Мета технології Data Mining - знаходження в даних таких закономірностей, які не можуть бути знайдені традиційними методами. Є два види моделей: предик-тивні та описові.
Предиктивні моделі будуються на підставі набору даних з відомими результатами. Вони використовуються для прогнозу результатів на підставі інших наборів даних. Вимагається, щоб модель працювала максимально точно, була статистично значимою і виправданою. До них належать моделі класифікації - описують правила або набір правил, відповідно до яких можна віднести опис будь-якого нового об'єкта до одного з класів. Такі правила будуються на підставі інформації про наявні об'єкти шляхом поділу їх на класи; моделі послідовностей - описують функції, що дають змогу прогнозувати зміну параметрів. Вони будуються на підставі даних про зміну певного параметра за минулий період часу.
Описові (descriptive) моделі пов'язані із залежностями в наборі даних, взаємного впливу різних чинників, тобто на побудові емпіричних моделей різних систем. Ключовий момент у таких моделях - легкість і прозорість для сприйняття людиною. Можливо, знайдені закономірності будуть специфічною межею саме конкретних досліджуваних даних і більше ніде не зустрінуться, але це все може бути корисним. До них належать такі види моделей:
O кластеризації - описують групи (кластери), на які можна поділити об'єкти, дані про яких піддаються аналізу. Групуються об'єкти (спостереження, події) на основі даних (властивостей), що описують суть об'єктів. Об'єкти усередині кластера мають бути подібними один до одного і відрізнятися від об'єктів, що ввійшли до складу інших кластерів;
O виключень - описують виняткові ситуації в записах, які різко відрізняються від основної множини записів;
O підсумкові (результатні) - виявлення обмежень на даних масиву аналізу. Подібні обмеження важливі для розуміння даних масиву, тобто це нове знання, здобуте в результаті аналізу. Таким чином, Data Summarization - це знаходження яких-небудь фактів, які істинні для всіх або майже всіх записів у вибірці даних, що вивчається, але які досить рідко зустрічалися в усьому різноманітті записів такого самого формату;
O асоціації - виявлення закономірностей між пов'язаними подіями.
Для побудови розглянутих моделей використовуються різні методи й алгоритми Data Mining.
Більшість аналітичних методів, що використовуться у технології Data Mining - це математичні алгоритми і методи. Зокрема до методів і алгоритмів Data Mining відносять штучні нейронні мережі, дерева рішень, символьні правила, метод найближчого сусіда і к-найближчого сусіда, метод опорних векторів, байєсовські мережі, лінійну регресію, кореляційно-регре-сійний аналіз, ієрархічні методи кластерного аналізу, неієрар-хічні методи кластерного аналізу, зокрема алгоритми /с-серед-ніх і к-медіа ми, методи пошуку асоціативних правил, метод обмеженого перебору, еволюційне програмування і генетичні алгоритми, різноманітні методи візуалізації даних тощо.
До базових методів Data Mining належать також підходи, що використовують елементи теорії статистики. Основна їх ідея зводиться до кореляційного, регресійного та інших видів статистичного аналізу. Основним недоліком їх є усереднювання значень, що призводить до втрати інформативності даних. Це у свою чергу спричинює зменшення кількості знань, що здобуваються.
Основним способом дослідження задач аналізу даних є їх відображення формалізованою мовою та їх подальший аналіз за допомогою моделі.
Класифікація стадій Data Mining, Data Mining складається з кількох фаз: 1) виявлення закономірностей (вільний пошук); 2) використання виявлених закономірностей для прогнозу невідомих значень (прогностичне моделювання); 3) аналіз виключень - стадія призначена для виявлення і пояснення аномалій, знайдених у закономірностях.
Класифікація методів Data Mining. Усі методи Data Mining поділяються на дві групи за принципом роботи з початковими навчальними даними: 1) дані після Data Mining зберігаються - кластерний аналіз, метод найближчого сусіда, метод - найближчого сусіда, міркування за аналогією (традукцією);
2) дані деталізуються для подальшої обробки, тобто необхідним є виявлення і використання формалізованих закономірностей або дистиляція шаблонів.
При технології дистиляції шаблонів один зразок (шаблон) інформації витягується з початкових даних і перетворюється у певні формальні конструкції, вид яких залежить від методу Data Mining. Цей процес відбувається на стадії вільного пошуку, у першої групи методів ця стадія - відсутня. На стадіях прогностичного моделювання і аналізу виключень використовуються результати стадії вільного пошуку. Методи цієї групи: логічні методи; методи візуалізації; методи крос-табуляції; методи, засновані на рівняннях.
Логічні методи, або методи логічної індукції, включають нечіткі запити й аналізи, символьні правила, дерева рішень, генетичні алгоритми.
Методи цієї групи придатні для інтерпретації. Вони підтримують знайдені закономірності у прозорому вигляді з погляду користувача. Методи крос-табуляції забезпечують пошук шаблонів.
Методи на основі рівнянь виражають наявні закономірності у вигляді математичних виразів - рівнянь. Основні методи цієї групи: статистичні методи і нейронні мережі.
Статистичні методи найчастіше застосовуються для вирішення задач прогнозування. Є багато методів статистичного аналізу даних, наприклад, кореляційно-регресійний аналіз, кореляція рядів динаміки, виявлення тенденцій динамічних рядів, гармонійний аналіз.
Інша класифікація поділяє все різноманіття методів Data Mining на дві групи: статистичні і кібернетичні методи. Ця схема поділу заснована на різних підходах щодо навчання математичним моделям.
Схожі статті
-
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати. Задачу класифікації...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Задача кластеризації
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати. Задачу класифікації...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Задача класифікації і регресії
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати. Задачу класифікації...
-
Інтелектуальний аналіз даних (ІАД, Data Mining), або розвідка даних - термін, що застосовується для опису здобуття знань у базах даних, дослідження...
-
У структурному аналізі і проектуванні використовуються різні моделі, що описують: O функціональну структуру системи; Визначається як ієрархія діаграм...
-
Стадія формування вимог до ПЗ - це найважливіша стадія, оскільки вона визначає успіх усього проекту. Ця стадія складається з таких етапів: 1) планування...
-
У структурному аналізі і проектуванні використовуються різні моделі, що описують: O функціональну структуру системи; Визначається як ієрархія діаграм...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 3.1. Інженерія вимог
Стадія формування вимог до ПЗ - це найважливіша стадія, оскільки вона визначає успіх усього проекту. Ця стадія складається з таких етапів: 1) планування...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.4. Архітектура СППР
Архітектура СППР подається різними авторами по-різному. Наприклад, Г. Мара кас у 1999 р. запропонував узагальнену архітектуру, що складається з таких...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - OLAP-системи
Основне призначення OLAP-систем - підтримка аналітичної діяльності, довільних запитів користува-чів-аналітиків. OLAP є аналітичним інструментом і...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Архітектура MicroStrategy
На рис. 8.5 показано архітектуру інформаційно-аналітичної системи, побудованої на балі ВІ-платформи MicroStrategy. MicroStrategy Intelligence Server...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Математичне забезпечення (МЗ)
Це сукупність математичних моделей і алгоритмів для вирішення питань обробки інформації із застосуванням вибраної ІТ, а також комплекс засобів і методів,...
-
Сучасні підприємства змушені збирати й зберігати значні обсяги інформації - відомості про клієнтів та оперативні дані, що надходять в організацію з...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Класифікація САSЕ - засобів
Зупинимося на двох найбільш відомих варіантах класифікації САSЕ - засобів: за типами і категоріями. Класифікація за типами відображає функціональну...
-
Немає нічого важчого у плануванні, більш сумнівного в успіху, небезпечнішого в управлінні, ніж створення нового порядку речей. З досвіду керівника 7.1....
-
Немає нічого важчого у плануванні, більш сумнівного в успіху, небезпечнішого в управлінні, ніж створення нового порядку речей. З досвіду керівника 7.1....
-
Нині на ринку ІТ є десятки комп'ютерних програм для розрахунку і порівняльного аналізу інвестиційних проектів, як вітчизняних, так і зарубіжних. Серед...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Етапи життєвого циклу СОА
Побудова СОА є ітераційним циклічним процесом, який включає такі етапи: 1. Створення моделі. Моделлю називають перетворення загального уявлення про цілі...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Референсна модель BBC (OSI/ISO)
Основою, що забезпечує можливість реалізації відкритих систем, є сукупність стандартів, за допомогою яких уніфікується взаємодія апаратури і всіх...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - OLAP-запити
Першим продуктом, що виконував OLAP-запити, був Express (компанія IRI). Інші відомі OLAP-продукти включають Microsoft Analysis Services, DB2 OLAP Server...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Середовище відкритих систем
Основою, що забезпечує можливість реалізації відкритих систем, є сукупність стандартів, за допомогою яких уніфікується взаємодія апаратури і всіх...
-
Методи кодування техніко-економічної інформації, які використовуються при створенні класифікаторів, безпосередньо пов'язані з методами класифікації....
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Класифікація експертних систем
ЕС інтерпретації даних призначені для визначення семантики даних. Результати інтерпретації мають бути погодженими і коректними. У таких системах нерідко...
-
Наявність інтелекту часто сприяє виживанню. Чарльз Дарвін 8.1. Поняття та загальна характеристика інтелектуальних систем Підвищення ефективності...
-
Наявність інтелекту часто сприяє виживанню. Чарльз Дарвін 8.1. Поняття та загальна характеристика інтелектуальних систем Підвищення ефективності...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.6. Тенденції розвитку СППР
Головними напрямами розвитку технологій мережевих обчислень є: архітектура "клієнт - сервер" буде домінантною архітектурою; домашні комп'ютерні засоби...
-
Базисом при розробці стратегії розвитку підприємства є аналіз інформації про зовнішнє і внутрішнє середовища підприємства. Основними складовими...
-
У середині 60-Х років XX ст. в інформаційних системах першого покоління для кожної задачі готувалися окремі дані і відповідна математична модель...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Модель MUSIC
Модель відкритої системи, розроблена AFUU (Французька асоціація користувачів UNIX і відкритих систем) і AFNOR (Французька асоціація стандартизації),...
-
Інформаційні технології якісно змінюють ключові ресурси розвитку: це уже не простір із закріпленим на ньому виробництвом, а в першу чергу мобільні...
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Моделі Data Mining