Houndwc - [mi web crawler]

Linux•8/14/2011

#web #Open Source #python #Crawler #houndwc #web crawler

Envíos De Dinero a México Envía dinero por Internet a México de manera rápida por tan solo $4.99 www.xoom.com HoundBuenas! Hago un minipost para presentarles esta herramienta que desarrolle hace unos meses. Se trata de un crawler web, que parte de un sitio y recopila información sobre él. No es una aplicación muy grande, pero me sirvió para varias cosas, asi que decidí compartirla acá.El tipo de información que se recopilará, dependerá de los plugins que se tengan activados. La aplicación trae un archivo de configuración que nos permite elegir qué plugins activaremos y con qué parámetros. La forma en la que el crawler trabaja es la siguiente:- Se le debe pasar una URL inicial, desde la que comenzará a crawlear.- Houndwc tomará esta URL y bajará su contenido. Luego, un conjunto de plugins llamados "Collectors" serán los encargados de tomar información del código HTML descargado y agregarán todos los links que encuentren en ellos(esto dependiendo de cada plugin, algunos buscan en tags "form", otros en tags "a", etc).- Por otro lado, existen plugins "Collectors" que toman el código HTML y buscan links para seguir visitando. Estos links serán el output del programa. Existen además "CollectFilters" que sirven para restringir los links que se quieren agregar como output. Por ejemplo, tal vez encontremos un link a google, y no queremos que este forme parte de la salida de nuestro crawling...- Por defecto todos los links que se encuentren serán agregados a una cola de URLs a visitar. Esto puede ser un problema, ya que rápidamente podríamos terminar crawleando google, youtube, facebook y nunca terminaríamos. Por esto existen los "CrawlFilters" plugins. Una URL será agregada a la cola si y sólo si todos los filtros aceptan dicha URL. Existen múltiples filtros para que el crawler se mantenga en un solo host, o que solo se mueva por los sitios que se encuentran en una red determinada, etc.PluginsNo voy a mencionar todos los plugins que hay porque son bastantes. En el .tar.gz se incluye un archivo de configuración bastante comun, en general con ese bastaría. Permite recolectar emails y links de un sitio, sin nunca salir de el(no se manda a crawlear por otros sitios).Y para qué sirve?Si, seguramente te preguntas para qué carajo sirve. Bueno, si querés auditar un sitio web por ejemplo, podés poner a correr el crawler y en poco tiempo vas a tener TODOS las URL válidas del sitio. Con esta información se puede analizar mejor si queremos que todos los links que se encontraron, estén realmente disponibles al público, ver si tienen vulnerabilidades, etc. Además usando el plugin EmailCollector(viene habilitado en el .conf del .tar.gz) podemos buscar todas las direcciones de email que se encuentran en el sitio. Si se encuentran forms en el sitio, usando el parametro "-p forms" podremos recontruir el código HTML de las forms que se encontraron, haciéndo que auditar sus parámetros sea mucho más simple.DescargaPara descargarlo, clickeen aca. Está hecho en python 3.0, por lo que tal vez tengan que descargar esta versión para poder correrlo.Acá un ejemplo para que vean como funciona. Lo tire 5 segundos en taringa y encontre 1470 links. Al final le pifie al comando, era "-p form:0" para que genere el html de esa form.link: http://www.youtube.com/watch?v=Tt-Nv7OXo7M

Datos archivados del Taringa! original

30puntos

998visitas

0comentarios

Actividad nueva en Posteamelo

0puntos

2visitas

0comentarios

Dar puntos:

Houndwc - [mi web crawler]

Dejá tu comentario

Autor del Post