Grab: различия между версиями

Содержимое удалено Содержимое добавлено
HOC (обсуждение | вклад)
HOC (обсуждение | вклад)
Нет описания правки
Строка 1:
grab библиотека парсинга вебсайтов для языка Python. Обладает широким набором возможностей.
Основные области использования Grab:
Ее основные функции:
* Извлечение данных с веб-сайтов (site scraping)
* Подготовка сетевого запроса (cookies, http-заголовки, POST/GET данные)
* Работа с сетевыми API
* Запрос на сервер (возможно через HTTP/SOCKS прокси)
* Автоматизация работы с веб-сайтами, например, регистратор профилей на каком-либо сайте
* Получение ответа сервера и его первоначальная обработка (парсинг заголовков, парсинг cookies, определение кодировки документа, обработка редиректа (поддерживаются даже редирект в meta refresh тэге))
Grab состоит из двух частей:
* Работа с DOM-деревом ответа (если это HTML-документ)
* Главный интерфейс Grab для создания сетевого запроса и работы с его результатом. Этот интерфейс удобно использовать в простых скриптах, где не нужна большая многопоточность, или непосредственно в python-консоли.
* Работа с формами (заполнение, автозаполнение)
* Интерфейс Spider, позволяющий разрабатывать асинхронные парсеры. Этот интерфейс позволяет, во-первых, более строго описать логику парсера, во-вторых, разрабатывать парсеры с большим числом сетевых потоков.
* Отладка: логирование процесса в консоль, сетевых запросов и ответов в файлы
 
 
= Установка =