12
ArchiveBox
🗃 El archivo web de código abierto autohospedado.Toma el historial del navegador / marcadores / Pocket / Pinboard / etc., guarda HTML, JS, PDF, medios y más.
- Gratis
Debido a que los sitios web modernos son complicados y a menudo dependen de contenido dinámico, ArchiveBox archiva los sitios en varios formatos diferentes más allá de lo que los servicios de archivo público como Archive.org y Archive.is son capaces de guardar.ArchiveBox importa una lista de URL de stdin, url remota o archivo, luego agrega las páginas a una carpeta de archivo local usando wget para crear un clon html navegable, youtube-dl para extraer medios y una instancia completa de Chrome sin cabeza para PDF,Captura de pantalla, volcados DOM y más ... El uso de múltiples métodos y el navegador dominante en el mercado para ejecutar JS garantiza que podamos guardar incluso los sitios web más complejos y delicados en al menos algunos formatos de datos a largo plazo y de alta calidad.### Puede importar enlaces desde: - Pocket, Pinboard, Instapaper - RSS, XML, JSON o listas de texto sin formato - Historial del navegador o marcadores (Chrome, Firefox, Safari, IE, Opera y más) - Shaarli, Delicious, RedditPublicaciones guardadas, Wallabag, Unmark.it y cualquier otro texto con enlaces.### Puede guardar estas cosas para cada sitio: - favicon.ico` favicon del sitio - `example.com / page-name.html` wget clon del sitio, con .html agregado si no está presente -` salida.pdf` PDF impreso del sitio usando Chrome sin cabeza - `screenshot.png` Captura de pantalla 1440x900 del sitio usando Chrome sin cabeza -` output.html` DOM Descarga del HTML después de renderizar usando Chrome sin cabeza - `archive.org.txt` Un enlace alsitio guardado en archive.org - `warc /` para el archivo warc html + gzipped.gz - `media /` cualquier mp4, mp3, subtítulos y metadatos encontrados usando youtube-dl - `git /` clon de cualquier repositorio para github, bitbucket o gitlab links - `index.html` &` index.json`Archivos de índice HTML y JSON que contienen metadatos y detalles El archivado es aditivo, por lo que puede programar `. / Archive` para que se ejecute regularmente y extraiga nuevos enlaces al índice.Todo el contenido guardado es estático e indexado con archivos JSON, por lo que vive para siempre y es fácilmente analizable, no requiere un backend siempre en ejecución.
archivebox