Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - Великі обсяги динамічного матеріалу
Оскільки інформації в Інтернет є надзвичайно багато і вона постійно змінюється, кожний пошуковий робот створює свою локальну базу даних, в якій і відбувається пошук. Від обсягів цієї бази і частоти її оновлення залежить факт знаходження в ній потрібної інформації - відповідно, чим більша і динамічніша база, тим більша ймовірність успішного пошуку.
Для порівняння, наведемо кількість сторінок, знайдених в результаті запиту "+а" у базах даних популярних пошукових систем, станом на 12.01.11 (табл.11.2). Запит було сформовано при дослідженнях кількості сторінок інтернет-спільнотою і відображає найбільш вживані символи (запит проводився при англійській розкладці клавіатури).
Критерії індексування web-сторінок
Робот не може автоматично визначити, чи потрібно включати до своєї бази (індексувати) певний документ з серверу чи ні. Web-сервери можуть містити документи, що використовуються локально, наприклад, список внутрішньої бібліотеки, тимчасові файли. Практично роботи зберігають майже все, що вони знаходять. Причому, навіть якщо робот визначив, що цю сторінку не потрібно включати у базу даних, він вже отримав її з Інтернет.
Компанія Robot Community спробувала змінити цю ситуацію, створивши спеціальний стандарт "A standard for robot exclusion". Він описує використання структурованого текстового файлу для визначення частин серверу, що не потрібні роботу для перегляду. Цю можливість можна також використовувати, аби повідомити робота про так звані "чорні дірки", коли заглиблюючись у систему вкладених сторінок робот не зможе з них повернутися. В такий спосіб роботам можна давати окремі інструкції, якщо кожен з них спеціалізується по окремій галузі.
Таблиця 11.2. Результат запиту до пошукових систем
■S Порядок аналізу сайту
Визначення напрямку обходу сайту для аналізу представляє собою дилему: оскільки більшість сайтів організовано ієрархічно, обхід в ширину (з вершини до заданої глибини) дає більший набір документів, ніж обхід в глибину (по вкладених посиланнях). Проте пошук в глибину швидше знайде сторінки користувачів, в яких є посилання на інші сторінки - тому швидше знайдуться нові сайти для подальшого обходу.
Проаналізований документ підлягає індексуванню. Перші роботи просто зберігали назви документів та тексти посилань, але сучасні роботи використовують більш складні механізми, і як правило індексують весь зміст документу.
Незважаючи на продуктивний пошук сучасними пошуковими системами, методи, що використовуються роботами, є менш ефективними за індексування сторінки вручну. Мова HTML дає можливість розробнику вузла додати спеціальну інформацію до документів, яка спрощує пошук. Правильно підібраною інформацією для пошукових систем можна також підвищити рейтинг (трафік) своєї сторінки - оскільки робот буде видавати її в числі перших результатів пошуку.
Альтернативи для пошуку ресурсів
Існує альтернативний підхід до пошуку локальних ресурсів, коли сумарна індексна інформація про сервер вже зібрана на ньому. Вона може бути створена вручну, а може автоматично з заголовків, або засобом мови HTML. Зібрана інформація додається до пошукової бази даних за допомогою Інтернет-протоколів.
У цього способу є свої переваги. Якість індексу, створеного людьми, поєднується з ефективністю автоматичного оновлення. Цілісність інформації у цього способу вища, ніж у звичайних індексів, оскільки підтримується виключно локальна індексна інформація. Не потребує високої пропускної здатності мережі.
До недоліків можна віднести створення додаткових проблем провайдеру, у разі зміни індексної інформації для основних документів (що відбувається не часто), коли весь індексний файл необхідно повністю переписати, навіть якщо змінився лише один запис.
Схожі статті
-
Коли обсяги Інтернет почали перевищувати декілька десятків сайтів, виникла задача пошуку потрібних даних без перегляду всієї наявної інформації. Почалися...
-
Інформація, що циркулює в системі управління, об'єднується в групи за змістом та фіксується на конкретному матеріальному носії. Таке об'єднання носить...
-
Дані представляють собою спосіб представлення, збереження та елементарних операцій обробки інформації. Дані - це основа інформації. Поняття "дані" -...
-
5.1. Структура сховища даних та оптимізація його обсягів Методи інтелектуального аналізу інформації часто розглядають як природний розвиток концепції...
-
3.1. Етапи розвитку інформаційних технологій Інформаційні технології посідають чільне місце в нашому житті, тому це поняття є багатофункціональним та...
-
Технології, що реалізують модель процесу з розподіленими ресурсами, дають змогу всім користувачам мережі спільно використовувати дані та пристрої:...
-
3.1. Етапи розвитку інформаційних технологій Інформаційні технології посідають чільне місце в нашому житті, тому це поняття є багатофункціональним та...
-
5.1. Структура сховища даних та оптимізація його обсягів Методи інтелектуального аналізу інформації часто розглядають як природний розвиток концепції...
-
Життєвий цикл (ЖЦ) фіксує найбільш істотні, характерні для певного об'єкту стани, визначає їх основні характеристики та значення в даних станах, а також...
-
Практика використання інформаційних технологій для моделювання та автоматизації підтримки прийняття рішень в управлінні соціально-економічними процесами...
-
Основною метою систем чи підсистем, що розробляються, є необхідність отримання бажаного результату в межах деякого інтервалу часу. В інформаційних...
-
Опис класифікаційних угруповань, кодових позначень та найменувань об'єктів міститься в документі, який називається класифікатором. Класифікатор -...
-
Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
-
Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
-
Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
-
Під терміном ERP (Enterprise Resource Planning) розуміють спеціалізоване програмне забезпечення, яке виконує функції автоматизації певних напрямів...
-
Кодування представляє собою процес присвоєння коду об'єкту класифікації. Кодування забезпечує унікальну ідентифікацію об'єктів, яка в сукупності з...
-
Інформаційна база (ІБ) представляє собою сукупність впорядкованої інформації, що використовується об'єктом. Вона є основою інформаційної системи...
-
Комплексна автоматизація інформаційних потоків підприємства, організації, відомства, галузі вимагає створення єдиного інформаційного простору для...
-
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 6.4. Експертні системи
Експертною системою (EC) називають систему підтримки прийняття рішень, яка містить знання з певної вузької предметної області, а також може пропонувати...
-
Різноманітність сфер і форм застосування сучасних інформаційних технологій породжує різноманітність способів їх класифікації. За масштабністю...
-
Історія створення і розвитку інформаційних систем тісно пов'язана з автоматизацією діяльності підприємств та організацій, розвитком моделей їх...
-
Для забезпечення ефективного використання ресурсів мережі Інтернет, захисту інформації, визначення і розмежування прав доступу до різних ресурсів ІС на...
-
В даний час питанням безпеки даних у розподілених комп'ютерних системах приділяється значна увага. Розроблено ряд засобів для забезпечення інформаційної...
-
OLAP (On-Line Analytical Processing) є ключовим компонентом організації сховищ даних. Ця технологія заснована на побудові і візуалізації багатовимірних...
-
10.1. Комп'ютерні мережі. Види мереж На початку створення комп'ютерні мережі призначались та використовувались винятково як середовище передачі файлів і...
-
10.1. Комп'ютерні мережі. Види мереж На початку створення комп'ютерні мережі призначались та використовувались винятково як середовище передачі файлів і...
-
Структурування інформації пов'язане з необхідністю її зберігання, обробки чи передачі. Структуру економічної інформації визначає її будова, відокремлення...
-
1.1. Визначення поняття технології Словник іншомовних слів визначає технологію як сукупність способів переробки матеріалів, виготовлення виробів і...
-
Для забезпечення повноцінного і ефективного обміну інформацією як всередині ІС, так і між різними ІС, автоматизації роботи з даними різних типів,...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - Великі обсяги динамічного матеріалу