Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 11.3. Призначення пошукових роботів
Коли обсяги Інтернет почали перевищувати декілька десятків сайтів, виникла задача пошуку потрібних даних без перегляду всієї наявної інформації. Почалися розробки програм (пошукових роботів), що автоматично переглядають Інтернет: сторінка за сторінкою, йдучи за посиланнями на інші сторінки.
Робот - програмна система, що отримує інформацію з Web-вузлів, використовуючи стандартні протоколи Інтернет
Найперші роботи були створені для підрахунку кількості WWW-серверів, тобто для збирання статистичної інформації. Сучасні роботи можуть також підраховувати інші параметри, наприклад, середню кількість документів на один сервер, пропорцію заданих типів файлів, середній розмір Web-сайту.
Одна з основних проблем підтримки Інтернет виникає, коли не працюють посилання на інші сторінки - у випадку неуважності розробника вузла, чи сторінку було переміщено або знищено. Зазначимо, що на сьогоднішній день не існує автоматичного механізму, який повідомляв би розробників про такі зміни. Відповідно, автори дізнаються про неправильні лінки (посилання) на своїх сторінках, якщо помітять самі, або коли користувачі повідомлять їх по електронній пошті.
Робот, що перевіряє посилання, допомагає розробнику знайти так звані "биті" адреси (посилання на неіснуючі сторінки) і підтримує сайт в робочому стані. Роботи можуть підтримувати як структуру, так і зміст, перевіряючи правильність HTML-коду та регулярність оновлення інформації. Цей вид функціональності є вбудованим у HTML редакторі, але роботи можуть повторювати ці перевірки при кожній модифікації сайту. Детальніше структуру HTML-коду буде розглянуто в третій лекції.
Роботи можуть також забезпечити дзеркальність - популярну техніку для підтримки архівів в сервісі FTP (файлообмінники). Дзеркало містить копію усього дерева каталогів FTP-сайту і регулярно оновлює ті документи, що додаються до оригінального сайту. Це дозволяє зменшити трафік до кожного з вузлів, їх завантаженість та працювати з архівом, якщо доступ до оригінального серверу відсутній.
Трафік - потік інформації в каналі зв'язку. В іншому значенні використовується для показників популярності WEB-сайту - кількість відвідувачів за певний період часу
Існують роботи, що формують дерево каталогів WEB-вузла та записують його локально, проте вони не мають можливості оновлювати ту інформацію, що змінилася - лише можуть записати всі дані з сайту. Необхідність таких засобів зменшилася з появою сучасних серверів, які можуть робити вибіркове оновлення.
Найчастіше роботів використовують для пошуку інформації та ресурсів. Там, де люди не можуть впоратись з величезною кількістю інформації, комп'ютер здійснює сортування та пошук швидко і якісно. Пошукові роботи переглядають дані на серверах і надають доступ до зібраної інформації за допомогою пошукової системи.
Користувач може одночасно використовувати перегляд та пошук для знаходження потрібної інформації. Навіть, якщо зібрана роботом база даних не містить саме ту інформацію, що потрібна, ймовірно в ній знайдуться сторінки з потрібними посиланнями.
Часто роботів використовують комбіновано - для виконання декількох задач. Наприклад, робот для web-вузла Вікіпедії - Інтернет-енциклопедії (uk. wikipedia. org ) в результаті пошуку видає перелік знайдених даних одночасно із зазначенням ступеня відповідності слову-запиту:
Рис.11.4. Ілюстрація дії пошукового робота для web-вузла Вікіпедії
Недоліки використання пошукових роботів. Для якісного функціонування роботів потрібні канали зв'язку (телекомунікаційні канали) із високою пропускною здатністю, оскільки використовують значну частину трафіку.
Зазначимо, що перші роботи працювали протягом тривалого часу, інколи місяцями. Щоб прискорити виконання завдання, деякі роботи працюють у паралельному режимі, перевантажуючи телекомунікації. Сервери можуть уповільнити роботу, якщо робот отримає велику кількість запитів за короткий час. Це приводить до зменшення швидкості роботи інших користувачів, особливо на повільних лініях зв'язку.
Крім висування високих вимог до мережі, роботи можуть потребувати і відповідних серверів. В залежності від частоти отримування даних з сервера, одночасне завантаження багатьох документів може привести до перевантаженості. Відповідно, буде знижено рівень сервісу для інших користувачів або відмовлено їм в доступі. Як рішення цієї проблеми власники серверів ввели обмеження на частоту звернень робота до сервера.
Навантаження на мережу та сервери також може збільшуватись внаслідок неякісної реалізації роботів, наприклад, якщо робот звертається декілька разів до одного й того ж ресурсу. Повторні звертання трапляються, коли автоматично не записується історія завантажених ресурсів, або коли робот не розпізнає випадки різних індексів (DNS - Domain Name System) для однієї IP-адреси. Також надлишкове навантаження на систему відбувається у випадку, коли робота не призначено обробляти певні типи файлів (наприклад, GIF). Проте, запитується весь вміст вузла.
Використання пошукових роботів може також виявитись шляхом до здійснення несанкціонованого доступу до інформації.
Сучасні розробки в галузі Інтернет-технологій відбуваються в напрямку створення "розумного" робота, для збільшення ефективності обробки і пошуку інформації. Як і всі дослідження в області штучного інтелекту, вони знаходяться лише на початковій стадії.
Проблеми індексації ресурсів мережі Інтернет. Існує декілька проблем, що обмежують використання роботів для пошуку ресурсів: великі обсяги динамічного матеріалу, критерії індексування web-сторінок, порядок аналізу сайту, альтернативи для пошуку ресурсів.
Схожі статті
-
10.1. Комп'ютерні мережі. Види мереж На початку створення комп'ютерні мережі призначались та використовувались винятково як середовище передачі файлів і...
-
Практично всі сервіси мережі Інтернет побудовані на технології клієнт-сервер. Для роботи в мережі необхідно: O фізично приєднати комп'ютер до одного з...
-
Технології, що реалізують модель процесу з розподіленими ресурсами, дають змогу всім користувачам мережі спільно використовувати дані та пристрої:...
-
10.1. Комп'ютерні мережі. Види мереж На початку створення комп'ютерні мережі призначались та використовувались винятково як середовище передачі файлів і...
-
5.1. Структура сховища даних та оптимізація його обсягів Методи інтелектуального аналізу інформації часто розглядають як природний розвиток концепції...
-
5.1. Структура сховища даних та оптимізація його обсягів Методи інтелектуального аналізу інформації часто розглядають як природний розвиток концепції...
-
Дані представляють собою спосіб представлення, збереження та елементарних операцій обробки інформації. Дані - це основа інформації. Поняття "дані" -...
-
Структурування інформації пов'язане з необхідністю її зберігання, обробки чи передачі. Структуру економічної інформації визначає її будова, відокремлення...
-
Для забезпечення ефективного використання ресурсів мережі Інтернет, захисту інформації, визначення і розмежування прав доступу до різних ресурсів ІС на...
-
В даний час питанням безпеки даних у розподілених комп'ютерних системах приділяється значна увага. Розроблено ряд засобів для забезпечення інформаційної...
-
Різноманітність сфер і форм застосування сучасних інформаційних технологій породжує різноманітність способів їх класифікації. За масштабністю...
-
Життєвий цикл (ЖЦ) фіксує найбільш істотні, характерні для певного об'єкту стани, визначає їх основні характеристики та значення в даних станах, а також...
-
Основною метою систем чи підсистем, що розробляються, є необхідність отримання бажаного результату в межах деякого інтервалу часу. В інформаційних...
-
На сьогоднішній день штучний інтелект (Artifical Intelligence, AI) залишається одним із найбільш перспективних і нерозкритих напрямків розвитку...
-
Системи підтримки прийняття рішень, які містять базу знань і розробляються з використанням методів штучного інтелекту, називаються системами підтримки...
-
Self Organizing Maps - SOM, або мапи Кохонена, що самоорганізуються, є різновидом нейронної мережі і використовуються для вирішення задач кластеризації і...
-
Окрім вибору системи шифрування, яка оптимально відповідає характеру інформації, що обробляється, зберігається та передається в інформаційній системі,...
-
Обов'язковим реквізитом електронного документа є електронний підпис. Його визначення вказано у Законі України "Про електронний цифровий підпис": Це вид...
-
Інформація, що циркулює в системі управління, об'єднується в групи за змістом та фіксується на конкретному матеріальному носії. Таке об'єднання носить...
-
Комплексна автоматизація інформаційних потоків підприємства, організації, відомства, галузі вимагає створення єдиного інформаційного простору для...
-
4.1. Принципи функціонування автоматичних засобів видобування знань Для аналізу і розв'язання задач різного характеру, в тому числі і економічних,...
-
Історія створення і розвитку інформаційних систем тісно пов'язана з автоматизацією діяльності підприємств та організацій, розвитком моделей їх...
-
11.1. Основи структури та функціонування мережі Інтернет У 1961 році Defence Advanced Research Agensy (DARPA) за завданням Міністерства оборони США...
-
11.1. Основи структури та функціонування мережі Інтернет У 1961 році Defence Advanced Research Agensy (DARPA) за завданням Міністерства оборони США...
-
Data Mining (добування знань, даних) - технологія аналізу сховищ даних, що грунтується на методах штучного інтелекту та інструментах підтримки прийняття...
-
4.1. Принципи функціонування автоматичних засобів видобування знань Для аналізу і розв'язання задач різного характеру, в тому числі і економічних,...
-
Практика використання інформаційних технологій для моделювання та автоматизації підтримки прийняття рішень в управлінні соціально-економічними процесами...
-
Кодування представляє собою процес присвоєння коду об'єкту класифікації. Кодування забезпечує унікальну ідентифікацію об'єктів, яка в сукупності з...
-
Інформаційна технологія представляє собою комплекс збору, передачі, обробки, збереження і доведення до користувача інформації, що реалізована сучасними...
-
Запишемо принцип оптимальності у формалізованій формі. Для цього позначимо через Fn (So) максимальний виграш, який одержується за n кроків при переході...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 11.3. Призначення пошукових роботів