Інформаційні системи і технології на підприємствах - Плескач В. Л. - 8.4 Інтелектуальні технології Data Mining і Text Mining
Інтелектуальний аналіз даних (ІАД, Data Mining), або розвідка даних - термін, що застосовується для опису здобуття знань у базах даних, дослідження даних, обробки зразків даних, очищення і збору даних. Це процес виявлення кореляції, тенденцій, шаблонів, зв'язків і категорій.
Термін Data Mining дістав назву від двох понять: дані - data і переробка сирого матеріалу (гірської руди) - mining.
Data Mining - предметна область" що виникла і розвивається на базі таких наук, як прикладна статистика, розпізнавання образів, штучний інтелект, теорія баз даних тощо.
Виникнення і розвиток Data Mining зумовлені різними факторами, серед яких вирізняємо основні: вдосконалення програмно-апаратного забезпечення; вдосконалення технологій зберігання і запису даних; накопичення великої кількості ретроспективних даних; вдосконалення алгоритмів обробки інформації.
Сутність і мету технології Data Mining можна описати так: це технологія, призначена для пошуку у великих інформаційних масивах даних неочевидних, об'єктивних, корисних на практиці закономірностей. ІАД здійснюється за допомогою використання технологій розпізнавання шаблонів, а також статистичних і математичних методів.
При розвідці даних багаторазово виконуються операції і перетворення над "сирими" даними (відбір ознак, стратифікація, кластеризація, візуалізація і регресія), що призначені для знаходження:
O структур, які інтуїтивно зрозумілі для людей і краще розкривають суть бізнес-процесів, що лежать в основі їх протікання;
O моделей, які можуть передбачити результат або значення певних ситуацій, використовуючи історичні або суб'єктивні дані.
Інтелектуальний аналіз даних - процес автоматичного пошуку прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних, що поділяється на задачі класифікації, моделювання і прогнозування. Класичне визначення цього терміна дав у 1996 р. один із засновників цього напряму Г. П'ятецький-Шапіро.
Data Mining - це процес виявлення у необроблених даних раніше невідомих нетривіальних, практично корисних і доступних інтерпретацій знань, необхідних для прийняття рішень у різних сферах діяльності.
За визначенням SAS Institute, Data Mining - це процес виділення, дослідження і моделювання великих обсягів даних для виявлення невідомих до цього структур (patterns) з метою досягнення переваг у бізнесі.
За визначенням Gartner Group, Data Mining - це процес, мета якого - виявляти нові кореляції, зразки і тенденції у результаті просіювання великого обсягу даних з використанням методик розпізнавання зразків і статистичних та математичних методів.
В основу технології Data Mining покладено концепцію шаблонів (patterns), що є закономірностями, які властиві вибіркам даних і можуть бути подані у формі, зрозумілій людині.
Задачі Data Mining:
1. Класифікація (Classification) - виявляються ознаки, які характеризують групи об'єктів досліджуваного набору даних - класи; за цими ознаками новий об'єкт можна віднести до того або іншого класу. Для вирішення задач класифікації можуть використовуватися методи: найближчий сусід (Nearest Neighbor); к-найближий сусід (k-Nearest Neighbor); байє-совські мережі (Bayesian Networks); індукція дерев рішень; нейронні мережі (neural networks).
2. Кластеризація (Clustering) - результатом її є поділ об'єктів на групи.
3. Асоціація (Associations) - знаходять закономірності між пов'язаними подіями у наборі даних. Найбільш відомий алгоритм рішення задачі пошуку асоціативних правил - алгоритм Аргіогі.
4. Послідовність (Sequence), або послідовна асоціація (sequential association), - дає можливість знайти часові закономірності між транзакціями. Завдання послідовності подібне до асоціації, але її метою є встановлення закономірностей між подіями, пов'язаними за часом, тобто послідовність визначається високою ймовірністю ланцюжка пов'язаних за часом подій.
5. Прогнозування (Forecasting) - на основі особливостей історичних даних оцінюються майбутні значення показників. Застосовуються методи математичної статистики, нейронні мережі тощо.
6. Визначення відхилень (Deviation Detection), аналіз відхилень або викидів - виявлення й аналіз даних, що найбільше відрізняються від загальної чисельності даних, виявлення нехарактерних шаблонів.
7. Оцінювання (Estimation) - зводиться до прогнозу безперервних значень ознак.
8. Аналіз зв'язків (Link Analysis) - задача знаходження залежностей у наборі даних.
9. Візуалізація (Visualization, Graph Mining) - створюється графічний образ аналізованих даних. Для вирішення задач візуалізації використовуються графічні методи, що показують наявність закономірностей в даних.
10. Підбивання підсумків (Summarization) - опис конкретних груп об'єктів за допомогою аналізованого набору даних.
Зазначені вище задачі поділяються за призначенням на описові і предиктивні.
Описові, або дескриптивні (descriptive), задачі пов'язані з поліпшенням розуміння аналізованих даних. Ключовий момент у таких моделях - простота і прозорість результатів для сприйняття людиною. До такого типу задач належать кластеризація і пошук асоціативних правил.
Рішення предиктивних (predictive), або прогнозуючих, задач поділяється на два етапи. На першому етапі на підставі набору даних з відомими результатами будується модель. На другому етапі вона використовується для прогнозу результатів на підставі нових наборів даних. Вимагається, щоб побудовані моделі працювали максимально точно. До цього типу задач відносять задачі класифікації і регресії. Сюди можна віднести і задачу пошуку асоціативних правил, якщо результати її рішення можуть бути використані для прогнозу появи деяких подій.
За способами рішення задачі поділяють на такі, що вирішують за допомогою вчителя і без його допомоги. Категорія навчання з учителем представлена такими задачами Data Mining: класифікація, оцінка, прогнозування, категорія навчання; без учителя - задачею кластеризації.
У випадку рішення з допомогою вчителя задача аналізу даних розв'язується у кілька етапів. Спочатку за допомогою конкретного алгоритму Data Mining будується модель аналізованих даних - класифікатор. Потім класифікатор піддається навчанню. Іншими словами, перевіряється якість його роботи і, якщо вона незадовільна, відбувається додаткове навчання класифікатора. Так продовжується доти, доки не буде досягнуто необхідного рівня якості або не стане зрозуміло, що обраний алгоритм не працює коректно з даними, або дані не мають структури, здатної проявитися. До цього типу задач відносять задачі класифікації і регресії.
Рішення без допомоги вчителя об'єднує задачі, що виявляють описові моделі, наприклад, закономірності в часових рядах макропоказників. Очевидно, якщо ці закономірності існують, то модель має їх проявити. Перевагою цих задач є можливість їх рішення без будь-яких попередніх знань про дані аналізу. До них належать кластеризація і пошук асоціативних правил.
Схожі статті
-
Немає нічого важчого у плануванні, більш сумнівного в успіху, небезпечнішого в управлінні, ніж створення нового порядку речей. З досвіду керівника 7.1....
-
Немає нічого важчого у плануванні, більш сумнівного в успіху, небезпечнішого в управлінні, ніж створення нового порядку речей. З досвіду керівника 7.1....
-
Наявність інтелекту часто сприяє виживанню. Чарльз Дарвін 8.1. Поняття та загальна характеристика інтелектуальних систем Підвищення ефективності...
-
Наявність інтелекту часто сприяє виживанню. Чарльз Дарвін 8.1. Поняття та загальна характеристика інтелектуальних систем Підвищення ефективності...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.4. Архітектура СППР
Архітектура СППР подається різними авторами по-різному. Наприклад, Г. Мара кас у 1999 р. запропонував узагальнену архітектуру, що складається з таких...
-
У середині 60-Х років XX ст. в інформаційних системах першого покоління для кожної задачі готувалися окремі дані і відповідна математична модель...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Архітектура MicroStrategy
На рис. 8.5 показано архітектуру інформаційно-аналітичної системи, побудованої на балі ВІ-платформи MicroStrategy. MicroStrategy Intelligence Server...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Квазіалгоритми
Узагальненням поняття алгоритму є квазіалгоритм. На відміну від алгоритму інструкції квазіалгоритму можуть бути не зовсім чіткими, тому результат...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.6. Тенденції розвитку СППР
Головними напрямами розвитку технологій мережевих обчислень є: архітектура "клієнт - сервер" буде домінантною архітектурою; домашні комп'ютерні засоби...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Класифікація СППР
Для СППР нині немає загальноприйнятої вичерпної класифікації. Різні автори пропонують різні класифікації. На рівні користувача НаеНепзсІтіІег (1999)...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 7.3. Класифікація СППР
Для СППР нині немає загальноприйнятої вичерпної класифікації. Різні автори пропонують різні класифікації. На рівні користувача НаеНепзсІтіІег (1999)...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Oracle ВІ Server
Доступ до Oracle ВІ Server надається через стандартний, сумісний з ODBC 2.0 інтерфейс. Сервер виконує дві основні функції: компіляцію вхідних запитів у...
-
Сучасні підприємства змушені збирати й зберігати значні обсяги інформації - відомості про клієнтів та оперативні дані, що надходять в організацію з...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Етапи життєвого циклу СОА
Побудова СОА є ітераційним циклічним процесом, який включає такі етапи: 1. Створення моделі. Моделлю називають перетворення загального уявлення про цілі...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Референсна модель BBC (OSI/ISO)
Основою, що забезпечує можливість реалізації відкритих систем, є сукупність стандартів, за допомогою яких уніфікується взаємодія апаратури і всіх...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Середовище відкритих систем
Основою, що забезпечує можливість реалізації відкритих систем, є сукупність стандартів, за допомогою яких уніфікується взаємодія апаратури і всіх...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 1.3. Інформаційні системи
Вся діяльність підприємства стосовно ІС зводиться до таких базових операцій: доходи, видатки, залишок, баланс, аналіз і планування. Ці операції...
-
Зростання інформаційних потоків приводить до збільшення кількості людей, що працюють в інформаційній сфері. З розвитком продуктивних сил, ускладненням...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 1.4. Відкриті системи
Для різних категорій спеціалістів та підприємств термін "відкриті системи" розуміється по-різному. За визначенням Асоціації французьких користувачів UNIX...
-
Термін "безпека" використовується в розумінні мінімізації вразливості активів і ресурсів. Актив - це те, що має якесь значення (вартість), вразливість -...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Моделі життєвого циклу ПЗ
Модель ЖЦ ПЗ залежить від специфіки, масштабу і складності проекту та особливостей умов, за яких система створюється та функціонує. Модель ЖЦ ПЗ - це...
-
Процес проектування і розробки інформаційної системи не може бути подібним до процесу приготування їжі за кулінарною книгою, необхідно бути завжди...
-
Процес проектування і розробки інформаційної системи не може бути подібним до процесу приготування їжі за кулінарною книгою, необхідно бути завжди...
-
При розв'язуванні економічних задач слід забезпечити їх порівнянність. Ця проблема вирішується створенням Єдиної системи класифікації та кодування...
-
Методи кодування техніко-економічної інформації, які використовуються при створенні класифікаторів, безпосередньо пов'язані з методами класифікації....
-
Базисом при розробці стратегії розвитку підприємства є аналіз інформації про зовнішнє і внутрішнє середовища підприємства. Основними складовими...
-
Термін "безпека" використовується в розумінні мінімізації вразливості активів і ресурсів. Актив - це те, що має якесь значення (вартість), вразливість -...
-
Термін "безпека" використовується в розумінні мінімізації вразливості активів і ресурсів. Актив - це те, що має якесь значення (вартість), вразливість -...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - Типи АРМ офісних систем
Автоматизоване робоче місце (АРМ) - це програмно-технічний комплекс, що забезпечує автоматизацію функцій його діяльності, поєднуючи комплекс технічних,...
-
Інформаційні системи і технології на підприємствах - Плескач В. Л. - OLAP-запити
Першим продуктом, що виконував OLAP-запити, був Express (компанія IRI). Інші відомі OLAP-продукти включають Microsoft Analysis Services, DB2 OLAP Server...
Інформаційні системи і технології на підприємствах - Плескач В. Л. - 8.4 Інтелектуальні технології Data Mining і Text Mining