Мировые информационные ресурсы/Принципы работы поисковых систем

Поисковые системы включают следующие программные компоненты:

  • spider (паук): браузероподобная программа, которая скачивает веб-страницы;
  • crawler «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице;
  • indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками;
  • the database (база данных): хранилище скаченных и обработанных страниц;
  • search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Содержание

Информация и бизнес

Рынки информационных ресурсов

МИР: определение, классификация и характеристика основных структур по различным признакам
Мировые информационные сети. Структура представления информации в мировых информационных сетях
Характеристика Интернета
Принципы работы поисковых систем
Правила поиска информационных ресурсов в мировых информационных сетях
Технология и практика взаимодействия пользователей с мировыми ресурсами через сетевые структуры
Компьютерная информационная гиперсреда
Связь между абонентами
Сайты. Создание Web-страниц
Познавательные и развлекательные технологии Internet
Реклама в Internet
Оценка эффективности использования мировых ресурсов
Информационный рынок РФ
Государственные информационные ресурсы
Библиотечная сеть РФ
Информационные ресурсы архивного фонда
Статистическая информация
Научно-техническая информация
Информационные ресурсы, распространяемые на коммерческой основе
Справочные правовые системы, распространяемые негосударственными структурами
Биржевая и финансовая информация
Коммерческая информация
Презентации

Назад | Вперед

Spider: Паук – это программа, которая скачивает веб-страницы.

Он работает как браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу.

Паук не имеет никаких визуальных компонент.

То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.

Crawler: Как и паук, скачивает страницы, он анализирует страницу и находит все ссылки.

Его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.

Indexer: Индексатор разбирает страницу на различные ее части и анализирует их.

Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов стилевых частей страницы вычленяются и анализируются.

Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует.

Search Engine Results Engine – система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя.

Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.

Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев.

Алгоритмом называется метод, по которому поисковая система принимает решение.

Профессиональные оптимизаторы иногда употребляют термин «algos».

Поисковые системы отбирают результаты поиска на основании следующих критериев:

  • Title (заголовок): Присутствует ли ключевое слово в заголовке?
  • Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?
  • Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или текстовых заголовках?
  • Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
  • MetaInformation (мета данные): – мета ключевые слова (meta keywords) и мета описания (meta description).
  • Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
  • Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется «внестраничный» критерий, потому что автор страницы не всегда может им управлять.
  • Insite Links (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница?

Т.о., поисковой системе необходимо делать множество уточняющих запросов, используя страницу целиком.

Результаты поиска оцениваются на основе семантических оценок качества, таких как: информационный шум, полнота выдачи документов, точность выдачи, потеря информации.

Список литературы

править