Мировые информационные ресурсы/Принципы работы поисковых систем
Поисковые системы включают следующие программные компоненты:
- spider (паук): браузероподобная программа, которая скачивает веб-страницы;
- crawler «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице;
- indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками;
- the database (база данных): хранилище скаченных и обработанных страниц;
- search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Назад | Вперед |
Spider: Паук – это программа, которая скачивает веб-страницы.
Он работает как браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу.
Паук не имеет никаких визуальных компонент.
То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
Crawler: Как и паук, скачивает страницы, он анализирует страницу и находит все ссылки.
Его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer: Индексатор разбирает страницу на различные ее части и анализирует их.
Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов стилевых частей страницы вычленяются и анализируются.
Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует.
Search Engine Results Engine – система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя.
Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.
Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев.
Алгоритмом называется метод, по которому поисковая система принимает решение.
Профессиональные оптимизаторы иногда употребляют термин «algos».
Поисковые системы отбирают результаты поиска на основании следующих критериев:
- Title (заголовок): Присутствует ли ключевое слово в заголовке?
- Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?
- Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или текстовых заголовках?
- Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
- MetaInformation (мета данные): – мета ключевые слова (meta keywords) и мета описания (meta description).
- Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
- Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется «внестраничный» критерий, потому что автор страницы не всегда может им управлять.
- Insite Links (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница?
Т.о., поисковой системе необходимо делать множество уточняющих запросов, используя страницу целиком.
Результаты поиска оцениваются на основе семантических оценок качества, таких как: информационный шум, полнота выдачи документов, точность выдачи, потеря информации.