Dicas Windows e Linux: Heritrix Web Crawler

Por Pedro Pinheiro

Olá, Pessoal

Se você é um GeeK ou um UbberGeeK e gosta de fuçar em Web, etc... vai aí uma dica valiosa para os fãs dos Sistemas de Pesquisa (ou em inglês Search Engine), trata-se do Heritrix WebCrawler. Se você conhece o Web.Archive.Org (Internet Wayback Machine), saiba que graças ao trabalho desse Aplicativo que você pode visualizar páginas da Web em diferentes épocas. Veja a dica do Web Archive:

Bom, parando de conversa, vamos explicando como funciona: Um bot ou WebCrawler pode ter várias funções, como a de Indexar (como o GoogleBot) ou Documentar, como é o caso do Heritrix. Os Bot de documentação, entram num site e baixam em sua configuração padrão todo o conteúdo possível que se refira a HTML, URI's, Imagens, SWF (Flash), etc... É possível configurar para DOC, PDF e Outros, mas por enquanto vou me limitar a configuração padrão.

Os requisitos básicos para rodar Heritrix bem são:
- Linux x86
- 256 Mb de RAM
- 40 Mb de HD para o Bot e mais o espaço para os trabalhos do Bot (Isso vai depender do seu tipo de uso)
- Java JRE
Eu testei o Bot na seguinte configuração:
- Kurumin Linux 7.0 x86
- 512 Mb de RAM

Primeiramente baixe e Descompacte o Crawler para uma pasta, tipo, /home/SEU_USUARIO/heritrix. Se estiver tudo certo, dentro da pasta heritrix, vão ter 4 pastas e uns arquivos, se só houver uma pasta, dentro dela deverão estar as 4 pastas e os outros arquivos.

Agora que você descompactou, abra o terminal de sua preferência (eu usei o Kommander) e dê os seguintes comandos:
$ export $HERITRIX_HOME=/caminho/do/bot (por exemplo: /home/kurumin/heritrix/ ou /home/kurumin/heritrix/heritrix)
$ cd $HERITRIX_HOME
Agora inicie-o com o seguinte comando:
$ $HERITRIX_HOME/bin/heritrix --bind / --admin USUARIO:SENHA (Aqui você deve escolher um usuário e senha para acessar a interface de Administração do Bot)

Agora você já pode acessar a interface de Admistração do Bot abrindo o Navegador e acessando http://localhost:8080

NOTA: Antes de iniciar o Bot desative os demais servidores ou daemos que possam estar usando a porta 8080!

Agora você deverá acessar Profiles, em Default clique em Editar, clique na guia Modules, localize ARCWriterProcessor, e clique em Remover. No menu suspenso abaixo localize: org.archive.crawler.writer.Kw3WriterProcessor, e clique em Adicionar. Agora vá até o Final e selecione a guia Settings. Em Description, Crawl Operator e Crawl Organization, você coloca respectivamente a Descrição do Bot (Um nome só pra você saber), o Seu nome (Nome do responsável pelo Bot) e a Empresa, você pode botar assim por exemplo:
Description: Meu bot de Pesquisa
Crawl Operator: Dr. Doidão
Crawl Organization: Minha casa
Agora procure HTTP-Headers
Temos lá:
User-Agent: Coloque aqui um agente para o Bot seguindo este esquema: (um_nome_para_o_bot (compatible; os-heritrix/1.12.1; operational_system +http://endereco.do.projeto.ou.do.seu.site.com), eu por exemplo usei: prppsoft_ia_archiver (compatible; unix-kurumin-heritrix/1.12.1 +http://prppsoft.uni.cc).
From: Seu e-mail (Ex.: support_meunome_meubot@domain.com), eu por exemplo usei: support_pedro@hotmail.com.

Após isso, vá até o Final novamente e clique em Finish.

Agora vamos criar um trabalho (job). Clique em Jobs, no menu do Cabeçalho.
Onde está Create a New Job, clique em Based on a Profile. Clique em Default. Em Name of New Job, coloque um nome para o trabalho, como: Documentação do meu site, em Description, insira uma descrição para o trabalho. Agora em Seeds, temos a parte mais importante: os sites a serem "Crawlados", coloque um site simples em HTML de preferência, mas pode colocar o seu site também por exemplo. Clique em Submit Job. Agora o Status do trabalho pode ser conferido na guia Console do menu do cabeçalho. Em Crawler Status: HOLDING, clique em Start. Agora aparecerá o Status do trabalho, para ver o avanço do trabalho aperte F5 ou clique em Refresh.

Bom, é issso. Espero que gostem, ah! Uma nota, quando o trabalho for terminado, ele pode ser encontrado em : /pasta/do/heritrix/jobs/nomedotrabalho-xxxxxxx/arcs.

Divirtão-se!

Links:

Site Oficial e Download: http://crawler.archiver.og/
Web Archive: http://web.archive.org
Rodando Heritrix no Windows (Inglês): http://www.si.umich.edu/mirror/how_to/heritrix_windows.html

Dicas Windows e Linux

22 de mar. de 2008

Heritrix Web Crawler

Um comentário: