Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 11.4. Принципи функціонування пошукової системи Google
Google Inc. (Гугл), www. google. com - приватна американська відкрита акціонерна компанія, заснована 7 вересня 1998 року, що займається розробкою, розвитком і дизайном найпопулярнішого в Інтернет пошукового сервісу. В компанії, розташованій в Маунтін В'ю (Каліфорнія) працюють близько 8000 робітників. Засновники - Леррі Пейдж та Сергій Брін, в 1998 році були співробітниками Стенфордського університету і прагнули створити систему пошуку з більш гнучким механізмом, ніж існували на той час - Altavista і Inktomi (останню було поглинуто в 2002 році пошуковою системою Yahoo!).
Назва "Google" - спотворене написання слова "гугол" (англ. googol), яке придумав Мілтон Сіротта, племінник американського математика Едварда Кайзера. "Гугол" - це число 10100, десятковий запис його містить одиницю та сто нулів.
Найголовнішою задачею розробників інформаційно-пошукової системи (ІПС) Google був такий розв'язок задачі сортування результатів пошуку, щоби на перших позиціях вихідного списку знаходились потрібні користувачеві документи - з максимальним співпадінням відповіді.
Майже кожна ІПС має свою внутрішню систему оцінки "якості" документів. В Google вона називається PageRank (рис.11.5). Сутність її в тому, що на порядок формування списку результатів пошуку впливає деякий коефіцієнт, який залежить від популярності сторінки та кількості посилань на неї з інших сторінок. Ще однією важливою властивістю ІПС Google є те, що в ній зберігаються опис посилань на проіндексовані сторінки - це дозволяє більш адекватно проводити пошук по базі даних. Наприклад, якщо автор сторінки забув вказати її назву (що є важливим для ІПС), Google буде орієнтуватись по текстам посилань на цю сторінку.
Для Google має значення також, яким шрифтом написано в документі шукане слово - чим більші букви, тим більший в них коефіцієнт. Якщо в запиті міститься декілька слів, найпершими в списку результатів будуть сторінки, на яких ці слова розташовані максимально близько.
Рис.11.5. Структура інформаційної пошукової системи Google
Всю основну роботу по "просіюванню" вмісту мережі виконують пошукові роботи. Кожний з них бере одну адресу URL з бази даних URL-сервера, скачує і передає вміст вузла на сервер збереження документів, де він залишається у заархівованому вигляді. Інша програма - індексатор - розкладає текст документу на складові слова, запам'ятовуючи його формат. Отримана інформація зберігається у наборі контейнерів (рис.11.5, прямий індекс). Для пошуку сторінок існують інші контейнери (рис.11.5, зворотний індекс).
Ідентифікатори слів беруться зі словника, що постійно поповнюється. Одночасно з цим індексатор переглядає текст посилань і перевіряє коректність самих посилань в службі DSN. Якщо знайдений URL відсутній в базі даних, індексатор поповнює базу. Пізніше ця адреса попадає на URL-сервер і система пошуку стає самодостатньою - вона поновлює сама себе. Нові сторінки, які ще ніхто не встиг відвідати, попадають до системи шляхом ручної реєстрації.
Додатково розглянемо оператори пошуку, що використовуються для підвищення ефективності роботи з ІПС Google:
Таблиця 11.3. Опції пошуку Google
Використання вказаних опцій при пошуку потрібної інформації може спричинити несанкціоноване отримання даних - ненавмисне чи спеціальне. Наприклад, якщо в рядок пошуку Google ввести filetype:pwd, пошуковик виведе список посилань на файли з паролями, що наявні в його реєстрі. Або відповіддю на запит site:gov буде перелік державних вузлів.
Наведемо декілька порад від професійних розробників web - сайтів для успішної популяризації сторінок:
O створювати сайти із чіткою структурою;
O називати кожну сторінку унікальним ім'ям, що буде відображати її зміст (наприклад, назва Photos. htm буде більш інформативною для пошуковика, ніжPage_07.htm);
O уникати навігації елементами, що погано індексуються (анімація);
O ключові слова розташовувати у верхній або нижній частині сторінки і виділяти їх крупнішим шрифтом.
Пошукові системи продовжують розвиватись; з'являються нові системи на основі сучасних технологій. Цікавим є науковий проект "Інтелектуальна пошукова система Nigma", розроблена в МДУ ім. М. В. Ломоносова в 2006 році. Зазначимо, що ця система окрім власних
Роботів використовує також результати роботи всіх популярних пошуковиків (Google, Altavista, Yahoo!, Aport, MSN, Yandex, Rambler).
За результатом розглянутого вище запиту (див. табл. 11.2) Nigma видала 47 908 247 423 документів. Цікавою є також ідея, покладена в основу соціального пошуковика Anoox - результати автоматичного рейтингу коригуються відвідувачами шляхом голосування.
Резюме
На сьогоднішній день, приблизно 1/4 світу є користувачами глобальної мережі Інтернет. Для кожного типу ресурсу Інтернет є свій протокол доступу, наприклад: FTP - передача файлів; HTTP (Hypertext Transfer Protocol) - передача гіпертексту; SMTP (Simple Mail Transfer Protocol) - передача поштових повідомлень; SNTP (Simple Network Time Protocol) - синхронізація часу в мережі або у світовому масштабі.
Коли обсяги Інтернет почали перевищувати декілька десятків сайтів, виникла задача пошуку потрібних даних без перегляду всієї наявної інформації - почались розробки програм (пошукових роботів), що автоматично переглядають Інтернет.
Google Inc. - приватна американська відкрита акціонерна компанія, що займається розробкою, розвитком і дизайном популярного пошукового сервісу. Для підвищення релевантності результатів пошуку в запитах до Google використовують опції пошуку.
Ключові слова
Інтернет, користувачі, хост, маршрутизатор, Інтернет-провайдер, домен, пакетна передача даних, протоколи мережі Інтернет, сервіси мережі Інтернет, доступ, ресурс, електронна пошта, пошуковий робот, трафік, індексація web-сторінок, пошукова система.
Запитання і завдання для обговорення та самоперевірки:
► Назвіть етапи появи мережі Інтернет.
► Який принцип покладено в структуру глобальної мережі?
► Дайте означення хосту.
► Опишіть призначення маршрутизатора.
► Дайте визначення поняття комп'ютерного протоколу.
► На якому рівні моделі ISO OSI відбувається реальна взаємодія двох комп'ютерів?
► Яка відмінність між on-line та off-line доступом?
► Опишіть призначення сервісу електронної пошти.
► Дайте означення Інтернет-робота і поясніть його призначення.
► Які недоліки використання пошукових роботів?
► Опишіть призначення компоненти PageRank в структурі Google.
► Чи має значення для пошукової системи формат тексту в Web-документі? Обгрунтуйте відповідь.
► Який результат видасть Google, якщо в рядку пошуку ввести наступне: intitle бібліотека?
Схожі статті
-
Оскільки інформації в Інтернет є надзвичайно багато і вона постійно змінюється, кожний пошуковий робот створює свою локальну базу даних, в якій і...
-
Оскільки інформації в Інтернет є надзвичайно багато і вона постійно змінюється, кожний пошуковий робот створює свою локальну базу даних, в якій і...
-
Оскільки інформації в Інтернет є надзвичайно багато і вона постійно змінюється, кожний пошуковий робот створює свою локальну базу даних, в якій і...
-
Коли обсяги Інтернет почали перевищувати декілька десятків сайтів, виникла задача пошуку потрібних даних без перегляду всієї наявної інформації. Почалися...
-
6.1. Інформаційні системи і технології в сучасному суспільстві В наш час відбувається глобальний перехід від індустріального суспільства до...
-
Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
-
Комплексна автоматизація інформаційних потоків підприємства, організації, відомства, галузі вимагає створення єдиного інформаційного простору для...
-
6.1. Інформаційні системи і технології в сучасному суспільстві В наш час відбувається глобальний перехід від індустріального суспільства до...
-
10.1. Комп'ютерні мережі. Види мереж На початку створення комп'ютерні мережі призначались та використовувались винятково як середовище передачі файлів і...
-
10.1. Комп'ютерні мережі. Види мереж На початку створення комп'ютерні мережі призначались та використовувались винятково як середовище передачі файлів і...
-
На сьогоднішній день штучний інтелект (Artifical Intelligence, AI) залишається одним із найбільш перспективних і нерозкритих напрямків розвитку...
-
11.1. Основи структури та функціонування мережі Інтернет У 1961 році Defence Advanced Research Agensy (DARPA) за завданням Міністерства оборони США...
-
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 6.4. Експертні системи
Експертною системою (EC) називають систему підтримки прийняття рішень, яка містить знання з певної вузької предметної області, а також може пропонувати...
-
4.1. Принципи функціонування автоматичних засобів видобування знань Для аналізу і розв'язання задач різного характеру, в тому числі і економічних,...
-
Практично всі сервіси мережі Інтернет побудовані на технології клієнт-сервер. Для роботи в мережі необхідно: O фізично приєднати комп'ютер до одного з...
-
Різноманітність сфер і форм застосування сучасних інформаційних технологій породжує різноманітність способів їх класифікації. За масштабністю...
-
Для забезпечення ефективного використання ресурсів мережі Інтернет, захисту інформації, визначення і розмежування прав доступу до різних ресурсів ІС на...
-
В даний час питанням безпеки даних у розподілених комп'ютерних системах приділяється значна увага. Розроблено ряд засобів для забезпечення інформаційної...
-
Комп'ютерні мережі будуються за багаторівневим принципом. Для організації зв'язку між комп'ютерами, необхідно спочатку розробити набір правил їх...
-
Інформаційна база (ІБ) представляє собою сукупність впорядкованої інформації, що використовується об'єктом. Вона є основою інформаційної системи...
-
Історія створення і розвитку інформаційних систем тісно пов'язана з автоматизацією діяльності підприємств та організацій, розвитком моделей їх...
-
Пакет бізнес-додатків Oracle Applications - це 55 інтегрованих програмних модулів, кожний з яких представляє повністю функціональні рішення в області...
-
Пакет бізнес-додатків Oracle Applications - це 55 інтегрованих програмних модулів, кожний з яких представляє повністю функціональні рішення в області...
-
Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
-
Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
-
Структурування інформації пов'язане з необхідністю її зберігання, обробки чи передачі. Структуру економічної інформації визначає її будова, відокремлення...
-
Життєвий цикл (ЖЦ) фіксує найбільш істотні, характерні для певного об'єкту стани, визначає їх основні характеристики та значення в даних станах, а також...
-
Опис класифікаційних угруповань, кодових позначень та найменувань об'єктів міститься в документі, який називається класифікатором. Класифікатор -...
-
11.1. Основи структури та функціонування мережі Інтернет У 1961 році Defence Advanced Research Agensy (DARPA) за завданням Міністерства оборони США...
-
Дані представляють собою спосіб представлення, збереження та елементарних операцій обробки інформації. Дані - це основа інформації. Поняття "дані" -...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 11.4. Принципи функціонування пошукової системи Google