WWW.REFERATCENTRAL.ORG.UA - Я ТУТ НАВЧАЮСЬ

... відкритий, безкоштовний архів рефератів, курсових, дипломних робіт

ГоловнаІнформатика, Компютерні науки → Пошук за допомогою системи Yahoo та його основні технологічні операції. Порівняльні характеристики пошукових систем - Реферат

Пошук за допомогою системи Yahoo та його основні технологічні операції. Порівняльні характеристики пошукових систем - Реферат


Реферат
на тему:
Пошук за допомогою системи Yahoo та його основні технологічні операції. Порівняльні характеристики пошукових систем
Типовим представником системи пошуку типу каталогу є система Yahoo. Вона є найпопулярнішою системою в США, оскільки не потребує спеціальної підготовки для пошуку інформації. Не потрібно знати правил формування запитів, достатньо просто переходити за гіперпосиланнями у необхідні розділи каталогу. Розбивка на розділи здійснювалася відповідно до американських стандартів.
Адреса системи: http://www.yahoo.com
Після набору адреси на адресному полі броузера за допомогою клавіатури комп'ютера та ініціалізації клавішею мишки на екрані монітора з'явиться початкова сторінка системи Yahoo (рис. 1).
Початкова сторінка Yahoo! Розміщує поле введення запитів, клавішу відправки запитання та індекси каталогів. В системі синтаксис запитань ідентичний системі простого пошуку AltaVista. Але система цікава тим, що розміщує інформаційний каталог, де зібрані посилання на найбільш популярні вузли мережі Internet. Ці ієрархічні структури вміщують добре підібрані посилання з короткою анотацією.
Наявність каталогу позбавляє необхідності складати пошукове запитання. Потрібно лише вибрати зі списку каталогу найбільш точну тему пошуку.
Оскільки каталоги складаються людьми, у переліках завжди знаходяться дані, що найбільш точно відповідають темі (це називається "релевантність"). Як правило, в каталог потрапляють найпотужніші вузли Web.
Деревом каталогу можна рухатись в різних напрямках, але в результаті все одно повинні дійти однієї точки.
Крім великого тематичного каталогу, сервер Yahoo! вміщує безліч малих баз даних. Систему зручно використовувати для пошуку спортивних подій, новин, прогнозу погоди, розважальних програм тощо.
Рис. 1. Початкова сторінка пошукової системи Yahoo!
Порівняльні характеристики пошукових систем
В таблиці 1 наведені деякі основні пошукові системи та їх адреси.
Таблиця 1. Структуризація пошукових систем
Пошукові системи типу AltaVista Пошукові системи типу Yahoo!
Назва Адреса Назва Адреса
Excite http://www.excite.com
Infoseek http://www.infoseek.com
Inktomi http://inktomi.berkeley.edu/query.html
Magellan http://www.magellan.com
Lycos http://www.lycos.com
Point http://www.point.com
Opentext http://www.opentext.com:8080
Galaxy http://www.galaxy.com
Webcrawler
http://www.webcrawler.com
WWW Virtual Library http://www.virtuallibrary.com
Hot Bot http://www.hotbot.com
InfoSeek Guide - відомий сервер з програмою-роботом, що виконує пошук документів форматів HTML та PDF, індексує їх по всьому тексту та генерує по кожному документу короткий реферат. InfoSeek дозволяє шукати інформацію у Web, групах Usenet та FAQ Web. Його індекси є розподіленими. Підтримується пошук, що чутливий до регістру символів, а також пошук окремих символів, формул, та пошук по власним іменам. Допускається також пошук зображень (по заголовкам або асоційованим з ними термінам індексу). InfoSeek рангує результати вибірки та обчислює RFS, присвоюючи більші вагові коефіцієнти документам, що вміщують пошукові терміни на початку тексту. Видаються також короткий реферат, значення оцінки релевантності та розмір документа. Infoseek передбачає і пошук сторінок, що подібні заданим.
В сервері Lycos застосовується програма-робот, яка використовує для навігації в Web та побудови індексного каталогу евристичні алгоритми. Для кожного індексуючого документу ця програма зберігає в черзі зовнішні посилання (текст кривизни або дескриптори посилань), звідки і вибирає URL-адреси. Наприклад, одна з евристик спонукає програму-робота вибирати URL, що показує на титульну сторінку Web-сервера. Користувачі можуть надсилати для індексування свої URL-адреси. Lycos індексує назву, заголовки та підзаголовки документів HTML, FTP та Gopher. Коли число індексних термінів перевищує 100, то зберігаються тільки 100 термінів з максимальною вагою, яка визначається згідно зі схемою tf.idf. Засіб індексування зберігає також перші 20 рядків документу, його розмір в байтах та число слів. Lycos допускає пошук будь-якого терміну, усіх термінів або заданого їх числа. Виконується пошук фрагментів слів, при цьому допускається слабке, середнє, близьке, додатне та від'ємне співвідношення. Підтримується булева операція NOT. RSV обчислюється як сума ваги термінів документу, що приймають участь у запиті. Максимальний ваговий коефіцієнт присвоюється індексним термінам, що зустрічаються в назві та на початку документу. Виведення рангується, в ньому представлені активізовані клацанням "мишки" посилання URL. В результаті включаються також розмір документу та RSV.
Система OpenText використовує програму-робота, що переглядає вузли Web шляхом почергової вибірки URL. Документ прочитується з даного вузла та індексується. Всі URL-адреси, що вміщуються в цьому документі, вилучаються. Користувачі можуть надсилати свої URL-адреси для включення їх в індексний каталог. OpenText індексує HTML-документи по всьому тексту і безперервно поновлює індекси. Засіб індексування генерує коротку анотацію, що вміщує перші сто слів документу. Підтримується булевий пошук, а також пошук по власним іменам, символам та фразам.
Система WebGrawler має програму-робота, яка починає пошук з деякого відомого набору HTML-документів та використовує відомі в них URL-адреси для отримання нових документів. Даний сервер виконує перебір вузлів в режимі пошуку "переважно в ширину". Він веде список Web-серверів та URL-адрес, вибираючи їх по методу кругового обслуговування, що дозволяє уникнути послідовного вибору документу з одного серверу. Мета WebGrawler - проіндексувати хоча б по одному документу на кожному сервері.
Користувачі також можуть надсилати свої URL-адреси. Індексується назва та повний текст HTML-документу, а сама індексна база поновлюється щотижня. Термінам присвоюється вага, що дорівнює частці від ділення частоти їх входження в документ на частоту зустрічі в даній предметній області (схема tf.idef). Термін, що часто зустрічається в документі та рідко в предметній області, отримує більшу вагу, а рідко зустрічаючі терміни - менші вагові коефіцієнти. WebGrawler підтримує повний булевий пошук та пошук фраз. Для обчислення RSV процесор обробки запиту використовує просторово-векторну модель. Результат представляє собою ранговий та впорядкований список з URL-адресами, що активізуються клацанням мишки. Вивід вміщує також короткі реферати та оцінки релевантності. Передбачається можливість пошуку "подібних сторінок".
World Wide Web Worm (WWWW) складається з двох компонентів: локатора ресурсів та пошукової машини. Локатор ресурсів виконує пошук у системі Web "переважно в ширину", індексуючи назви, текст прив'язки та URL-адреси HTML-документів. Він зберігає індекс в звичайному "плоскому" неструктурованому файлі. WWWW індексує також вмонтовані зображення (по їх заголовкам HTML) та активнігіпертекстові посилання, коли вони присутні. Підтримуються булеві операції AND та OR. На жаль, можливості системи WWWW обмежені, оскільки індексування змісту документів відсутнє. Назва, частина тексту та URL-адреси не можуть повноцінно представляти весь текст документу. Крім того, за деякими оцінками, приблизно 20% HTML-документів у Web взагалі не мають назв та заголовку.
Loading...

 
 

Цікаве