Debe estar registrado para inscribirse en esta actividad
Del lunes 21 nov 2022 al 16 ene 2023 lunes

Data parsing: cómo conseguir que mis datos sean legibles

Cursos
Online a través de plataforma virtual (en directo) 
21, 23, 28,30 de noviembre. 12 y14 diciembre 2022 y 11 y 16 de enero de 2023
160 €

Curso Data parsing: cómo conseguir que mis datos sean legibles

Fecha: 21, 23, 28, 30 de noviembre, 12,14 diciembre 2022 y 11 y 16 de enero de 2023

Horas: 20 horas

Horario: 16:30h-19:00h

Matrícula: 160 euros

PRESENTACIÓN

En la era del Big data, la capacidad de crear conjuntos de datos a partir de documentos no-estructurados disponibles en la web, abre un abanico de posibilidades para el uso de materiales primarios digitalizados, archivos web y textos. Data parsing es el proceso de transformación de datos de un tipo a otro, transformando los formatos, haciendo que los datos sean legibles.

Los documentos y archivos web aunque representan un conjunto válido y “bien-formado” de contenido, como el caso de XML, su estructura no es usable para análisis posteriores y extraer significado de los datos.

En el presente curso, además de introducir qué es el Data parsing y su relevancia en el contexto de las Humanidades digitales, se enseñará al alumno a utilizarlo en la práctica a través de proyectos reales de humanidades digitales y aprovechando las potencialidades de la herramienta Open Refine para la limpieza y transformación de datos.


OBJETIVOS

  • Comprender la naturaleza y estructura de los datos en Humanidades digitales
  • Introducir los conceptos y procesos da Data parsing y su relevancia en las Humanidades digitales
  • Fomentar la práctica del Data parsing con proyectos reales en Humanidades digitales 
  • Construir queries URL para recuperar información de una simple web API
  • Transformar archivos HTML y JSON para extraer datos relevantes

 

PROGRAMA

Módulo 1: Fundamentos de los datos. Datos en abierto.  

  • Introducción
  • Los datos como activo. El valor de los datos.
  • Open data. Linked Open Data. Open government
  • Estructura de los datos.
  • La forma de los datos en Humanidades digitales
  • Fuentes de datos.
  • Calidad de los datos. Fuentes de ruidos en los datos
  • Relevancia de la limpieza y transformación masiva de datos
  • Descarga de datos
  • Guías para la lectura de datos en CSV
  • Actividad práctica

Módulo 2.  Introducción  al Data parsing

  •  Introducción
  • Conceptos.
  • Tipos de data parsing. Estructura
  • El proceso de data parsing: análisis léxico y análisis sintáctico
  • Cómo construir un data parser
  • Usos del Data parsing. Relevancia para las Humanidades digitales
  • Tecnologías y herramientas
  • Actividad práctica

 Módulo 3.  Limpieza y Transformación de los datos. Caso práctico: Powerhouse Museum

  •  Explora tus datos
  • Elimina filas en blanco y duplicados
  • Transformación de formatos
  • Separación de datos
  • Facetado y filtros
  • Desambiguación de autoridades
  • Técnicas de clustering
  • Trasponer filas y columnas
  • Expresiones regulares y GREl útiles
  • Actividad práctica

 Módulo 4. Data parsing en la práctica. Ejemplo 1: Proyecto “THE SONNETS”

  • Obtención de los datos
  • Parsing de los datos HTMl
  • Particionando los datos HTMl
  • Extraer información con funciones de matriz
  •  Limpieza y exportación

 

 Módulo 5. Data parsing en la práctica. Ejemplo 2: Proyecto “Chronicling America”                                      

  • Construye la query
  • Extrae URLs
  • Parsing de los datos JSON para obtener ítems
  • Divide las celdas multivalores
  • Parsing de los datos JSON

 

Módulo 6. Data parsing en la práctica. Ejemplo 3: APIs avanzadas     

  •  Las APIs para extraer datos
  •  Jython en la expresión Window
  • Solicitud Jython GET
  • Solicitud POST
  • Comparando “sentimientos”
  • Herramienta Sentiment Tool

 

DOCENTE : Yusnelkis Milanés Guisado. Doctora en Documentación por la UGR (2016).

Postgrado experto en Visualización de datos (Big data analytics) por la Escuela de Organización Industrial (EOI), además de toda una formación continuada en plataformas para el análisis de datos, Business intelligence y Ciencia de datos. Desarrolla las líneas de Gestión de datos de investigación, Visualización de datos y Comunicación científica en el Servicio de Datos de Investigación en la Biblioteca/CRAI de la Universidad Pablo de Olavide, a través de actividades de formación y consultoría.

Durante 6 años ha sido gestor y analista de datos en la Unidad de Enfermedades Infecciosas, VIH / SIDA (Hospital Virgen del Rocío, España). Consultor y formador independiente en temas de gestión, análisis y visualización de datos. Ha co-publicado cerca de 20 artículos en revistas internacionales.

Forma parte del panel de expertos de la Fundación Progreso y Salud para evaluar proyectos de análisis de cohortes de datos de pacientes. Ha sido profesora asociada en la Universidad de La Habana y actualmente enseña temas relacionados con Estadística, Gestión y Visualización de datos en distintos hospitales de Andalucía.

DESTINATARIOS
Investigadores, estudiantes de doctorado, gestores de datos y gestores de proyectos, bibliotecarios y documentalistas.

 NECESIDADES (Alumnos): Open Refine 

[+] INFORMACIÓN COMÚN A TODOS LOS CURSOS/MICROCURSOS (PDF)

L M X J V S D
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
 
Hoy
10
Agosto
2022

Calendario de actividades

13/Aug/2022 Otras
Presentacion del libro Y sin Huelva no hay fandango Villanueva de las Cruces
30/Aug/2022 Congresos
XVII Congreso Anual de la Sociedad Española de Epidemiología. Retos del siglo XXI: medio ambiente, cambio climático y desigualdades sociales
01/Sep/2022 Cursos
Microcurso Introducción a Git y Github
01/Sep/2022 Cursos
Microcurso Introducción a R
01/Sep/2022 Cursos
Microcurso Introducción a la minería de datos con ORANGE
05/Sep/2022 Otras
Presentacion libro 'Y sin Huelva no hay fandango' en La Palma del Condado
07/Sep/2022 Congresos
XVI Congreso Español de Ciencia Politica y de la Administración: La Ciencia Política ante los nuevos retos globales
14/Sep/2022 Otras
Francisco Coello (1822-2022): Pionero de la cartografia moderna
19/Sep/2022 Cursos
Utilización de NVivo para revisiones sistemáticas de literatura y fundamentaciones teóricas
19/Sep/2022 Cursos
Análisis y visualizaciones efectivas con Tableau' (AVANZADO)
20/Sep/2022 Cursos
Visualización de datos con Shiny
20/Sep/2022 Cursos
Análisis de datos con Python (Inicial- Intermedio)
26/Sep/2022 Cursos
Perspectiva de género en la investigación social
30/Sep/2022 Congresos
XVII Congreso de Andalucismo Histórico: 'El Andalucismo, hoy'
03/Oct/2022 Cursos
Técnicas y herramientas de Design Research para mejorar productos y servicios
06/Oct/2022 Cursos
Orientación personalizada de la investigación utilizando las estrategias de análisis del software NVivo Release
17/Oct/2022 Cursos
Introducción a la divulgación científica. Cómo comunicar tu ciencia de forma efectiva y comprensible para un público general
18/Oct/2022 Cursos
Análisis reproducibles y generación de informes con R y Rmarkdown
03/Nov/2022 Cursos
Análisis Sociológico del Discurso
03/Nov/2022 Cursos
Analítica avanzada y Dashboard con Power BI
07/Nov/2022 Cursos
Fundamentos de Git y GitHub y su aplicación en proyectos colaborativos y reproducibles en R y RStudio
21/Nov/2022 Cursos
Data parsing: cómo conseguir que mis datos sean legibles
28/Nov/2022 Cursos
Mapeo y creación de gráficos con Python

Mapa web del
Centro de Estudios Andaluces