HORARIO: 16:30 a 18:30 horas
PRESENTACIÓN:
El presente curso está orientado a quienes necesitan recolectar datos que no se encuentran disponibles mediante APIs públicas o repositorios ya estructurados. A lo largo de los encuentros se abordará el diseño y la implementación de flujos de recolección de información mediante scraping asistido por inteligencia artificial, combinando herramientas de R, Python y Playwright para extraer datos desde prensa digital, redes sociales y archivos en línea.
El curso propone una aproximación eminentemente práctica, centrada en la construcción de agentes y rutinas de scraping capaces de adaptarse a entornos web heterogéneos, incluyendo páginas estáticas, dinámicas y sitios con múltiples niveles de navegación. Junto con ello, se trabajará sobre criterios para documentar procesos de captura, organizar datos recolectados y evaluar la calidad, trazabilidad y reproducibilidad de los resultados obtenidos.
Asimismo, se prestará especial atención a las dimensiones éticas y legales del scraping web, considerando que la recolección automatizada de datos exige evaluar restricciones de acceso, términos de uso, privacidad, derechos sobre contenidos y buenas prácticas de investigación responsable. Durante el curso se compartirán materiales, scripts, ejemplos de trabajo y referencias de apoyo para que cada estudiante pueda adaptar los procedimientos aprendidos a sus propios proyectos de investigación académica o profesional.
OBJETIVOS:
Objetivo general:
Objetivos de aprendizaje específicos:
PROGRAMA:
Presentación general del curso. ¿Qué es el web scraping y cuándo conviene utilizarlo con asistencia de la IA generativa? Datos accesibles, datos no estructurados y límites de las APIs. Introducción a los agentes de scraping con IA. Panorama de herramientas: R, Python, Playwright y modelos de apoyo para extracción y parsing.
HTML, CSS, selectores, XPath y carga dinámica de contenidos. Inspección de páginas con herramientas del navegador asistida por IA. Diferencias entre páginas estáticas y dinámicas. Criterios para decidir entre scraping simple, automatización del navegador o extracción asistida por IA.
Introducción a flujos de trabajo en R con IA. Uso de paquetes orientados a scraping y parsing. Extracción de nodos, tablas, textos y metadatos. Limpieza inicial y transformación de datos semiestructurados en estructuras tabulares.
Introducción a Python con IA para scraping. Requests, BeautifulSoup, pandas y estrategias de paginación. Desarrollo de scripts reutilizables para captura seriada de información. Registro de errores, validación de resultados y almacenamiento de datos.
Automatización asistida por IA para la navegación en sitios dinámicos. Renderizado de JavaScript, interacción con botones, formularios, scroll, login y esperas. Extracción de contenidos en contextos más complejos. Introducción a patrones de scraping resiliente.
Estrategias diferenciales para medios de prensa, plataformas sociales y repositorios documentales. Captura de textos, enlaces, imágenes, metadatos y series documentales. Problemas frecuentes: bloqueos, cambios de estructura, duplicados y normalización de resultados con IA.
Integración de modelos de IA para asistir la detección de patrones, la generación de selectores, la clasificación de páginas y la extracción contextual de información. Diseño de pipelines híbridos entre scraping tradicional y agentes inteligentes. Evaluación de costos, ventajas y límites.
Términos de uso, robots.txt, privacidad, consentimiento, derechos sobre contenidos, trazabilidad metodológica y documentación reproducible. Buenas prácticas para investigación responsable. Cierre del curso y discusión de casos aplicados a proyectos de quienes cursan.
PROFESORADO:
Agustín Nieto, (ORCID) Profesor y doctor en historia por la Universidad Nacional de Mar del Plata. Se desempeña como docente en el Departamento de Sociología de la Facultad de Humanidades del UNMdP. En los últimos cinco años ha impartido cursos sobre el uso de R en las ciencias sociales y las humanidades en carreras de grado y posgrado. Sus temas de interés se articulan en torno al análisis computacional de la conflictividad social pasada y presente. En el ámbito de la investigación se ha vinculado con proyectos de alto nivel académico y profesional desarrollados por prestigiosas instituciones internacionales y del sistema de investigación científica en Argentina (AUIP, CONICET). Actualmente es investigador independiente del CONICET con lugar de trabajo en el Instituto de Humanidades y Ciencias Sociales. Es autor y desarrollador de “ACEP” y “TweetScraperR”. ACEP: se trata de un paquete de funciones en lenguaje R útiles para la detección y el análisis de eventos de protesta en corpus de textos periodísticos. Sus funciones son aplicables a cualquier corpus de textos (https://agusnieto77.github.io/ACEP/). TweetScraperR: se trata de un paquete de funciones en lenguaje R útiles para extraer datos de X/Twitter, incluidos tweets, usuarixs y metadatos asociados. (https://github.com/agusnieto77/TweetScraperR).
NECESIDADES (alumnos):
· Para participar en el curso, cada estudiante debe disponer de un ordenador con permisos para instalar programas y acceso estable a internet. Es recomendable tener instalados previamente R, RStudio, Python y Visual Studio Code (o algún entorno equivalente), además de un navegador actualizado y Playwright configurado desde las primeras sesiones.
· Se trabajará principalmente con software libre y bibliotecas de código abierto, sin necesidad de licencias privativas. Si se utilizan servicios externos o modelos restringidos, se facilitarán alternativas gratuitas. Se espera que quienes cursan tengan conocimientos básicos o intermedios de programación orientada al análisis de datos y experiencia mínima en R o Python, además de familiaridad con estructuras de archivos y navegación web.
CARACTERÍSTICAS DEL CURSO
BONIFICACIONES
Acumulables hasta un máximo del 40% del importe de la matrícula:
ANULACIONES
La cancelación será gratuita hasta 4 días antes del inicio del curso; en caso de realizarse con posterioridad, se aplicará un recargo del 40%.
Dos días antes del curso sólo se devolverá el importe por motivos de causa mayor debidamente justificados.
La Fundación CENTRA se reserva el derecho de cancelación o aplazamiento.
| L | M | X | J | V | S | D |
|---|---|---|---|---|---|---|
|
1
|
2
|
3
|
4
|
5
|
||
|
6
|
7
|
8
|
9
|
10
|
11
|
12
|
|
13
|
14
|
15
|
16
|
17
|
18
|
19
|
|
20
|
21
|
22
|
23
|
24
|
25
|
26
|
|
27
|
28
|
29
|
30
|
|||