From 646b94e1e434fd0694d9b2f5afc3003530791970 Mon Sep 17 00:00:00 2001 From: Pau Date: Sun, 17 Nov 2024 17:33:54 +0100 Subject: [PATCH] everything scraping --- query | 1 + scraping_output.txt | 444 ++++++++++++++++++++++++++++++++++++++++++ threads04/1.html | 11 -- threads04/2.html | 10 - threads04/index.html | 8 - threads04/scraping.py | 41 ++-- 6 files changed, 466 insertions(+), 49 deletions(-) create mode 100644 query create mode 100644 scraping_output.txt delete mode 100644 threads04/1.html delete mode 100644 threads04/2.html delete mode 100644 threads04/index.html diff --git a/query b/query new file mode 100644 index 0000000..4546ff9 --- /dev/null +++ b/query @@ -0,0 +1 @@ +MySQL diff --git a/scraping_output.txt b/scraping_output.txt new file mode 100644 index 0000000..ef88878 --- /dev/null +++ b/scraping_output.txt @@ -0,0 +1,444 @@ + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + + + +URL: http://localhost:8081/thread04/ + + + +Inicio + + +Ir a página 1 + + diff --git a/threads04/1.html b/threads04/1.html deleted file mode 100644 index d27ac86..0000000 --- a/threads04/1.html +++ /dev/null @@ -1,11 +0,0 @@ - - - Página 1 - - - Ir a página 2 -
- Volver - - - \ No newline at end of file diff --git a/threads04/2.html b/threads04/2.html deleted file mode 100644 index 820bc43..0000000 --- a/threads04/2.html +++ /dev/null @@ -1,10 +0,0 @@ - - - Página 2 - - - Ir a página 1 -
- Volver - - \ No newline at end of file diff --git a/threads04/index.html b/threads04/index.html deleted file mode 100644 index a4eaf95..0000000 --- a/threads04/index.html +++ /dev/null @@ -1,8 +0,0 @@ - - - Inicio - - - Ir a página 1 - - \ No newline at end of file diff --git a/threads04/scraping.py b/threads04/scraping.py index 5322057..f022bac 100644 --- a/threads04/scraping.py +++ b/threads04/scraping.py @@ -71,32 +71,33 @@ def save_to_file_thread(): # Hilo D: Guarda los enlaces en la base de datos MySQL y los vuelve a pasar al hilo A def save_to_database_thread(): try: - db_conn = mysql.connector.connect( + # Conexión a la base de datos + conexion = mysql.connector.connect( host="localhost", - user="thread04", + user="thread4", password="1234", - database="thread04", - port=3307 + database="thread4" ) - while True: - link = link_database_queue.get() - print(link) - if link is None: - break - print(f"[Hilo D] Guardando enlace en base de datos: {link}") - cursor = db_conn.cursor() + cursor = conexion.cursor() + link = link_database_queue.get() + + # Consulta para insertar la cadena + consulta = "INSERT IGNORE INTO enlaces (enlace) VALUES (%s)" + cursor.execute(consulta, (link,)) + + # Confirmar la transacción + conexion.commit() + + print("Cadena guardada exitosamente.") + + except mysql.connector.Error as err: + print(f"Error: {err}") - cursor.execute("INSERT INTO enlaces (url) VALUES (%s)", (link,)) - db_conn.commit() - - # Añadir el enlace a la cola de scraping para ser procesado por el hilo A - scraping_queue.put(link) - except Exception as err: - print(f"[Hilo D] Error de base de datos: {err}") finally: - cursor.close() - link_database_queue.task_done() + if conexion.is_connected(): + cursor.close() + conexion.close() # Inicializar colas para comunicación scraping_data_queue = queue.Queue()