everything scraping

This commit is contained in:
Pau 2024-11-17 17:33:54 +01:00
parent ab06747069
commit 646b94e1e4
6 changed files with 466 additions and 49 deletions

1
query Normal file
View File

@ -0,0 +1 @@
MySQL

444
scraping_output.txt Normal file
View File

@ -0,0 +1,444 @@
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1
URL: http://localhost:8081/thread04/
Inicio
Ir a página 1

View File

@ -1,11 +0,0 @@
<html>
<head>
<title>Página 1</title>
</head>
<BODY>
<a href="2.html">Ir a página 2</a>
<br>
<a href="index.html">Volver</a>
</BODY>
</html>

View File

@ -1,10 +0,0 @@
<html>
<head>
<title>Página 2</title>
</head>
<BODY>
<a href="1.html">Ir a página 1</a>
<br>
<a href="index.html">Volver</a>
</BODY>
</html>

View File

@ -1,8 +0,0 @@
<html>
<head>
<title>Inicio</title>
</head>
<BODY>
<a href="1.html">Ir a página 1</a>
</BODY>
</html>

View File

@ -71,32 +71,33 @@ def save_to_file_thread():
# Hilo D: Guarda los enlaces en la base de datos MySQL y los vuelve a pasar al hilo A # Hilo D: Guarda los enlaces en la base de datos MySQL y los vuelve a pasar al hilo A
def save_to_database_thread(): def save_to_database_thread():
try: try:
db_conn = mysql.connector.connect( # Conexión a la base de datos
conexion = mysql.connector.connect(
host="localhost", host="localhost",
user="thread04", user="thread4",
password="1234", password="1234",
database="thread04", database="thread4"
port=3307
) )
while True:
cursor = conexion.cursor()
link = link_database_queue.get() link = link_database_queue.get()
print(link)
if link is None:
break
print(f"[Hilo D] Guardando enlace en base de datos: {link}")
cursor = db_conn.cursor()
# Consulta para insertar la cadena
consulta = "INSERT IGNORE INTO enlaces (enlace) VALUES (%s)"
cursor.execute(consulta, (link,))
cursor.execute("INSERT INTO enlaces (url) VALUES (%s)", (link,)) # Confirmar la transacción
db_conn.commit() conexion.commit()
print("Cadena guardada exitosamente.")
except mysql.connector.Error as err:
print(f"Error: {err}")
# Añadir el enlace a la cola de scraping para ser procesado por el hilo A
scraping_queue.put(link)
except Exception as err:
print(f"[Hilo D] Error de base de datos: {err}")
finally: finally:
if conexion.is_connected():
cursor.close() cursor.close()
link_database_queue.task_done() conexion.close()
# Inicializar colas para comunicación # Inicializar colas para comunicación
scraping_data_queue = queue.Queue() scraping_data_queue = queue.Queue()