StormCrawler

StormCrawler

StormCrawler es un SDK de código abierto para construir rastreadores web distribuidos con Apache Storm.El proyecto está bajo la licencia Apache v2 y consiste en una colección de recursos y componentes reutilizables, escritos principalmente en Java.El objetivo de StormCrawler es ayudar a construir rastreadores web que sean: escalable, resistente, de baja latencia, fácil de extender, cortés pero eficiente StormCrawler es una biblioteca y una colección de recursos que los desarrolladores pueden aprovechar para construir sus propios rastreadores.La buena noticia es que hacerlo puede ser bastante sencillo.A menudo, todo lo que tendrá que hacer será declarar al rastreador de tormentas como una dependencia de Maven, escribir su propia clase de topología (consejo: puede extender la topología configurable), reutilizar los componentes proporcionados por el proyecto y tal vez escribir un par de personalizados.para tu propia salsa secreta.¡Un poco de ajustes a la configuración y listo! ... Además de los componentes principales, proporcionamos algunos recursos externos que puede reutilizar en su proyecto, como por ejemplo nuestro pico y pernos para ElasticSearch o un ParserBolt que usa Apache Tikapara analizar varios formatos de documentos.StormCrawler es perfectamente adecuado para usar casos en los que la URL para buscar y analizar viene como flujos, pero también es una solución adecuada para rastreos recursivos a gran escala, particularmente donde se requiere baja latencia.El proyecto es utilizado en producción por varias compañías y se desarrolla y mantiene activamente.
stormcrawler

Categorias

Alternativas a StormCrawler para todas las plataformas con cualquier licencia