Apache Nutch

Apache Nutch

Apache Nutch es un proyecto de software de rastreador web de código abierto altamente extensible y escalable.Nutch está codificado completamente en el lenguaje de programación Java, pero los datos se escriben en formatos independientes del lenguaje.Tiene una arquitectura altamente modular, lo que permite a los desarrolladores crear complementos para el análisis de tipo de medios, recuperación de datos, consultas y agrupación.El buscador ("robot" o "rastreador web") se ha escrito desde cero específicamente para este proyecto.
apache-nutch

Categorias

Alternativas a Apache Nutch para todas las plataformas con cualquier licencia