Поиск информации в Интернете/Подводные камни

Поиск информации в Интернете: подводные камни.

Этой публикацией пойдёт разговор о проблемах поиска в сети Интернет, с которыми неизбежно приходится сталкиваться пользователям — и рядовым, и поисковикам-профессионалам. Те из этих проблем, которые не лежат на поверхности, нередко дают о себе знать лишь «задним числом», после того как определенный этап поисковых работ завершен, и, возможно, исходя из его результатов уже принято какое-либо решение. Что же мешает сделать ситуацию прозрачной с самого начала эксплуатации той или иной информационно-поисковой системы?Ответ довольно прост-отсутствие исчерпывающей информации о ней со стороны разработчика. Прямым следствием этого становятся недостоверность получаемых данных и их неконтролируемая потеря. Редко удается встретить в Сети поисковую систему, которая не обладала бы некоторыми «недокументированными» особенностями. Казалось бы, что пользователю необходимо не так уж много сведений, а именно:1) как происходит наполнение базы данных ИПС и каков ее объем;2)полный спектр возможностей поискового языка системы;3)основные особенности представления результатов поиска, прежде всего, алгоритма ранжирования записей из списка отклика на поисковый запрос. Увы, источником этой информации обычно является не документ, доступный с головной страницы поискового сервера, а разбросанные по Сети, книгам и компьютерным журналам публикации отдельных авторов. Причинами такого положения дел, по-видимому, оказывается не только небрежность разработчика, но и фактор, именуемый маркетинговой политикой. Проще говоря, предоставление поисковой системой наиболее полной информации о себе не всегда положительно сказывается на ее рейтинге. Тем не менее взять ситуацию под контроль в ряде случаях оказывается под силу пользователю. Выяснить особенности работы избранного поискового сервиса часто удается с помощью тестирования. Построение специальных тестовых запросов, быстро проясняющих именно тот аспект работы системы, который наиболее важен для текущей задачи, во многих случаях оказывается нетривиальным. Тому, как избежать некоторых неприятностей при работе, мы и посвятим наше обсуждение. В качестве примеров, иллюстрирующих изложение, будут рассмотрены широко известные поисковые системы Интернета.

Проблема:наполнение базы данных

Любая поисковая машина или каталог регламентируют свою работу по сбору данных из Сети. Очевидно, что формирование поискового образа информационного объекта, или другими словами, его «отражения» в «зеркале» поисковой системы неизбежно связано с некоторыми искажениями. По сути главным при этом становится вопрос о том алгоритме, на основе которого создается поисковый образ. Объектом-оригиналом при этом может стать как Web-страница, так и файл «закрытого» формата, который не доступен для проникновения сканирующих программ, например, видео или аудио-запись. Определенный шаблон обычно используется и при построении поискового образа для физического лица или компании в момент их регистрации в поисковой службе. Отсечение, фильтрация информации от оригинала свойственны всем без исключения, в том числе и полнотекстовым системам глобального охвата и самого общего назначения.

Фильтрация может регламентироваться как на техническом, так и на лингвистическом уровне, однако задача у нее одна-при минимальных материальных затратах добиться реальной эффективности поиска.

В связи с этим на практике часто возникает вопрос-что становится причиной неудачного поиска?Отсутствие в Сети с высокой вероятностью на данный момент времени информации, релевантной запросу, или то, что эта информация потенциально не доступна для рассматриваемой поисковой системы. «Подводным камнем» этот аспект становится тогда, когда получен ненулевой отклик на поисковый запрос, а доля недополученных данных оказывается неконтролируемой. Однако, если детали алгоритма фильтрации не известны, наиболее чувстельные потери данных возникают именно при использовании специализированных поисковых служб.