|
||
---|---|---|
_servidorweb_ | ||
bbdd | ||
ficheros | ||
scraping | ||
README.md | ||
ejemplo.txt | ||
main.py |
README.md
Ejercicio Thread04
- git init
- git config --global user.name "Juanjo"
- git config --global user.email "juanjo@fp.ieslamar.org"
- git add .
- git commit -m "first commit"
- git remote add origin https://git.ieslamar.org/gitea/thread4.git
- git push -u origin main
Objetivo del programa
- Simular el funcionamiento de un rastreador web (bot crawler)
Estrategia
- Al programa se le pasa la URL inicial
- Guardamos el contenido de la página en un fichero
- Buscamos enlaces
- Guardamos el enlace en base de datos
- Volvemos a lanzar la URL encontrada
- Se repite hasta que no haya más enlaces