Інформаційні системи і технології на підприємствах - Плескач В. Л. - Статистичні методи Data Mining
Ці методи включають: попередній аналіз природи статистичних даних (перевірка гіпотез стаціонарності, нормальності, незалежності, однорідності, оцінка виду функції розподілу, її параметрів); виявлення зв'язків і закономірностей (лінійний і нелінійний регресійний аналіз, кореляційний аналіз); багатовимірний статистичний аналіз (лінійний і нелінійний дискримінантний аналіз, кластерний аналіз, компонентний аналіз, факторний аналіз); динамічні моделі і прогноз на основі часових рядів.
Статистичні методи Data Mining поділяються на чотири групи методів: дескриптивний аналіз і опис початкових даних; аналіз зв'язків (кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз); багатовимірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатовимірний регресійний аналіз, канонічні кореляції); аналіз часових рядів (динамічні моделі і прогнозування).
Кібернетичні методи Data Mining
До цієї групи належать такі методи: еволюційне програмування; асоціативна пам'ять (пошук аналогів, прототипів); нечітка логіка; дерева рішень; системи обробки експертних знань, штучні нейронні мережі (розпізнавання, кластеризація, прогноз); генетичні алгоритми (оптимізація).
Нейронні мережі (Neural Networks) - це клас моделей, що базуються на аналогії з роботою мозку людини і призначаються для вирішення різноманітних задач аналізу даних після проходження етапу навчання на даних.
Нейронні мережі - це моделі біологічних нейронних мереж мозку, в яких нейрони імітуються однотипними елементами (штучними нейронами).
Нейронна мережа може бути представлена направленим графом зі зваженими зв'язками, у якому штучні нейрони є вершинами, а синаптичні зв'язки - дугами.
Серед сфер застосування нейронних мереж - автоматизація процесів розпізнавання образів, прогнозування показників діяльності підприємства, медична діагностика, прогнозування, адаптивне управління, створення експертних систем, організація асоціативної пам'яті, оброблення аналогових і цифрових сигналів, синтез й ідентифікація електронних систем.
За допомогою нейронних мереж можна, наприклад, передбачати обсяги продажу виробів, показники фінансового ринку, розпізнавати сигнали, конструювати самонавчальні системи.
Нейронна мережа є сукупністю нейронів, з яких складаються шари. У кожному шарі нейрони пов'язані з нейронами попереднього і наступного шарів. Серед задач Data Mining, що вирішуються за допомогою нейронних мереж, розглядатимемо такі:
1. Класифікація (навчання з учителем). Приклади завдань класифікації: розпізнавання тексту, розпізнавання мови, ідентифікація особи.
2. Прогнозування. Для нейронної мережі задача прогнозування може бути поставленою так: знайти оптимальне наближення функції, заданої кінцевим набором вхідних значень.
3. Кластеризація (навчання без учителя). Прикладом задачі кластеризації може бути завдання стиснення інформації шляхом зменшення розмірності даних.
Генетичні алгоритми - різновид еволюційних обчислень. Засновником генетичних алгоритмів є Дж. Холланд. Суть їх розкривається у книзі "Адаптація у природних і штучних системах".
Генетичні алгоритми (ГА) - це алгоритми, що дають змогу знайти задовільне рішення для аналітично нерозв'язуваних проблем через послідовний підбір і комбінування параметрів з використанням механізмів, що нагадують біологічну еволюцію.
ГА належать до універсальних методів оптимізації, що дають змогу вирішувати задачі різних типів (комбінаторні, загальні задачі з обмеженнями і без обмежень) і різного ступеня складності. ГА характеризуються можливістю як однокри-теріального, так і багатокритеріального пошуку в інформаційному просторі. Інтеграція ГА і нейронних мереж допомагає вирішувати проблеми пошуку оптимальних значень ваг входів нейронів, а інтеграція ГА і нечіткої логіки дає можливість оп-тимізувати систему продукційних правил, які можуть бути використані для управління.
Різні методи Data Mining характеризуються певними властивостями. Серед основних властивостей і характеристик методів Data Mining можна назвати точність, масштабованість, здатність до інтерпретації, перевірки, трудомісткість, гнучкість, швидкість і популярність.
Масштабованість - властивість обчислювальної системи, що забезпечує розгорнення системних характеристик, наприклад, швидкості реакції, загальної продуктивності при додаванні до неї обчислювальних ресурсів.
Для досягнення успіху в інтелектуальному аналізі даних необхідно мати чітке уявлення про мету аналізу; зібрати реле-вантні дані; вибрати адекватні методи аналізу та перевірити передумови їх застосування; обрати програмно-технологічні та математичні засоби, що реалізують ці методи; виконати аналіз та прийняти рішення про використання результатів. Загальна схема використання методів Data Mining складається з таких етапів (рис. 8.8).
Рис, 8.8. Етапи інтелектуального аналізу даних
На першому етапі виконується осмислення поставленої задачі і уточнення цілей, які мають досягатися методами Data Mining, тобто формується гіпотеза (рис. 8.9). Гіпотеза - частково обгрунтована закономірність знань, що слугує для зв'язку між різними емпіричними фактами або для пояснення факту чи групи фактів.
Важливо правильно сформулювати цілі і вибрати необхідні для їх досягнення методи, оскільки від цього залежить подальша ефективність усього процесу. Необхідно підібрати параметри, що якнайкраще описують об'єкт. Після вибору параметрів дані можуть бути представлені у вигляді таблиці. Після підготовки таблиці з описом параметрів потрібно оцінити значимість кожного з них. Можливо, частина з них буде відсіяна у результаті аналізу.
Є кілька методів збору необхідних для аналізу даних: 1) отримання цих даних з облікових систем; 2) отримання відомостей з непрямих даних; 3) використання відкритих джерел; 4) проведення власних маркетингових досліджень і заходів щодо збору даних; 5) збирання даних вручну.
Другий етап полягає у приведенні даних до форми, придатної для застосування методів Data Mining.
Третій етап - це застосування методів Data Mining, сценарії якого можуть бути різними і включати складну комбінацію різноманітних методів, особливо якщо методи дозволяють проаналізувати дані з різних позицій.
Наступний етап - перевірка побудованих моделей. Дуже простий і часто використовуваний спосіб полягає у тому, що всі наявні дані, які необхідно аналізувати, поділяються на дві групи різної розмірності. На більшій групі, застосовуючи методи Data Mining, одержують моделі, а на меншій - перевіряють їх. За різницею в точності між тестовою і навчальною групами можна стверджувати про адекватність побудованої моделі.
Останній етап - інтерпретація одержаних моделей експертом у цілях їх використання для прийняття рішень, додавання нових правил і залежностей у бази знань. Цей етап часто має на увазі використання методів, що знаходяться на стику технології Data Mining і технології експертних систем.
Є інші підходи щодо моделювання та реінжинірингу аналітичного процесу в організації в цілому. Особливість, наприклад, ситеми KXEN полягає у тому, що закладений у ній математичний апарат на основі теорії мінімізації структурного ризику дає змогу практично повністю автоматизувати процес побудови моделей і на порядок збільшити швидкість аналізу, що проводиться. Відмінності традиційного процесу Data Mining і підходу KXEN наведено на рис. 8.9. Таким чином, побудова моделі у KXEN з проекту дослідження перетворюється на функцію аналізу в режимі он-лайн у вигляді "питання-відповідь". Причому відповіді даються в тих термінах, у яких було сформульоване питання, і завдання користувача зводиться до того, щоб ставити потрібні питання і вказувати дані для аналізу. Серед переваг KXEN можна назвати: зручна і безпечна робота з даними; наочність результатів моделювання, легкість для розуміння: графічне відображення моделей; широкі можливості застосування моделей: автоматична генерація коду моделей різними мовами, при цьому модель зможе працювати автономно.
Отже, інтелектуальний аналіз даних дає змогу автоматично, грунтуючись на великій кількості накопичених даних, генерувати гіпотези, які можуть бути перевірені іншими засобами аналізу, наприклад, OLAP.
Перед застосуванням методів Data Mining початкові дані мають бути перетворені. Вид перетворень цих даних залежить від методів.
Методи та інструменти Data Mining можуть ефективно використовуватися в різних сферах людської діяльності: бізнесі, медицині, науці, телекомунікаціях.
Серед подібних інструментів відомі Darwin компанії Thinking Machines, що нині входить в Oracle Corporation, та Intelligent Miner for Data корпорації IBM. Останнім часом намічається тенденція до інтеграції можливостей Data Mining у сервери баз даних. Так, корпорація Microsoft реалізувала деякі алгоритми у версії СУБД SQL Server 2000.
Найважливішим ресурсом сучасного підприємства, здатним значно вплинути на підвищення його конкурентоспроможності, є знання. Знання стають четвертим фактором вироб-
Ництва, а їх значимість стає більш пріоритетною, ніж інші ресурси, капітал, праця.
OLAP, ВІ та Data Mining, що грунтуються на методах статистичної обробки, прогнозування і візуалізації, допомагають аналізувати структуровані дані. Складнішою є задача аналізу неструктурованих даних.
Схожі статті
-
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати. Задачу класифікації...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Моделі Data Mining
Мета технології Data Mining - знаходження в даних таких закономірностей, які не можуть бути знайдені традиційними методами. Є два види моделей:...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Задача кластеризації
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати. Задачу класифікації...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Задача класифікації і регресії
Під час аналізу часто необхідно визначити, до якого з відомих класів відносять досліджувані об'єкти, тобто як їх класифікувати. Задачу класифікації...
-
У структурному аналізі і проектуванні використовуються різні моделі, що описують: O функціональну структуру системи; Визначається як ієрархія діаграм...
-
Інтелектуальний аналіз даних (ІАД, Data Mining), або розвідка даних - термін, що застосовується для опису здобуття знань у базах даних, дослідження...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.4. Архітектура СППР
Архітектура СППР подається різними авторами по-різному. Наприклад, Г. Мара кас у 1999 р. запропонував узагальнену архітектуру, що складається з таких...
-
У структурному аналізі і проектуванні використовуються різні моделі, що описують: O функціональну структуру системи; Визначається як ієрархія діаграм...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - OLAP-системи
Основне призначення OLAP-систем - підтримка аналітичної діяльності, довільних запитів користува-чів-аналітиків. OLAP є аналітичним інструментом і...
-
У середині 60-Х років XX ст. в інформаційних системах першого покоління для кожної задачі готувалися окремі дані і відповідна математична модель...
-
Термін "безпека" використовується в розумінні мінімізації вразливості активів і ресурсів. Актив - це те, що має якесь значення (вартість), вразливість -...
-
Термін "безпека" використовується в розумінні мінімізації вразливості активів і ресурсів. Актив - це те, що має якесь значення (вартість), вразливість -...
-
Термін "безпека" використовується в розумінні мінімізації вразливості активів і ресурсів. Актив - це те, що має якесь значення (вартість), вразливість -...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.6. Тенденції розвитку СППР
Головними напрямами розвитку технологій мережевих обчислень є: архітектура "клієнт - сервер" буде домінантною архітектурою; домашні комп'ютерні засоби...
-
Стадія формування вимог до ПЗ - це найважливіша стадія, оскільки вона визначає успіх усього проекту. Ця стадія складається з таких етапів: 1) планування...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 3.1. Інженерія вимог
Стадія формування вимог до ПЗ - це найважливіша стадія, оскільки вона визначає успіх усього проекту. Ця стадія складається з таких етапів: 1) планування...
-
Немає нічого важчого у плануванні, більш сумнівного в успіху, небезпечнішого в управлінні, ніж створення нового порядку речей. З досвіду керівника 7.1....
-
Немає нічого важчого у плануванні, більш сумнівного в успіху, небезпечнішого в управлінні, ніж створення нового порядку речей. З досвіду керівника 7.1....
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Етапи життєвого циклу СОА
Побудова СОА є ітераційним циклічним процесом, який включає такі етапи: 1. Створення моделі. Моделлю називають перетворення загального уявлення про цілі...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Математичне забезпечення (МЗ)
Це сукупність математичних моделей і алгоритмів для вирішення питань обробки інформації із застосуванням вибраної ІТ, а також комплекс засобів і методів,...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - OLAP-запити
Першим продуктом, що виконував OLAP-запити, був Express (компанія IRI). Інші відомі OLAP-продукти включають Microsoft Analysis Services, DB2 OLAP Server...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Класифікація САSЕ - засобів
Зупинимося на двох найбільш відомих варіантах класифікації САSЕ - засобів: за типами і категоріями. Класифікація за типами відображає функціональну...
-
Сучасні підприємства змушені збирати й зберігати значні обсяги інформації - відомості про клієнтів та оперативні дані, що надходять в організацію з...
-
Видом інтелектуальних 1С можуть бути експертні системи (БС), що орієнтуються на здобуття, обробку і використання додаткової інформації - знань. Це...
-
Обсяг інформації вимірюється кількістю символів (розрядів) у повідомленні. У різних системах обчислення один розряд має різну вагу, і відповідно...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Референсна модель BBC (OSI/ISO)
Основою, що забезпечує можливість реалізації відкритих систем, є сукупність стандартів, за допомогою яких уніфікується взаємодія апаратури і всіх...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Програмне забезпечення
Комп'ютерна програма - це алгоритм вирішення певної задачі на мові, зрозумілій комп'ютеру. Програмне забезпечення складається з операційної системи, мов...
-
Методи кодування техніко-економічної інформації, які використовуються при створенні класифікаторів, безпосередньо пов'язані з методами класифікації....
-
Базисом при розробці стратегії розвитку підприємства є аналіз інформації про зовнішнє і внутрішнє середовища підприємства. Основними складовими...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Концепція ERP II
Поєднання традиційної ERP-системи підприємства з Internet-рішеннями для електронного бізнесу привели до створення нового організаційного та...
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Статистичні методи Data Mining