Airflow: procesos con flujos de trabajo y datos

Airflow[1] es una plataforma open-source creada por la Apache Software Foundation[2] que sirve para gestionar, monitorizar y automatizar flujos de trabajo que culminen en complejos pipelines.

Se utiliza frecuentemente en arquitecturas de datos y de Machine Learning por su buena relación entre facilidad de uso, flexibilidad/customización y escalabilidad a la hora de trabajar las capas de procesamiento y transformación de datos.

¿Qué se necesita para trabajar con Airflow?

Para trabajar con Airflow, básicamente solo necesitamos tener claro cómo se ve el pipeline que queremos montar usando esa tecnología, y conocer una serie de conceptos básicos de éste.

Sabiendo eso, solo tenemos que saber ubicar los distintos elementos de ese pipeline y de los distintos flujos de trabajo que lo conforman dentro de la terminología de la herramienta, y finalmente prepararlo. En el siguiente apartado se comentan, entre otras cosas, los distintos elementos que existen dentro de Airflow, que terminan conformando los flujos.

Sigue leyendo «Airflow: procesos con flujos de trabajo y datos»
Anuncio publicitario

Etiquetamiento de datos no estructurados

Para muchos el Santo Grial en el área de aprendizaje supervisado viene dado por los conjuntos de datos etiquetados[1]. En efecto, generalmente lo primero que hacemos nosotros como buenos científicos de datos, luego de haber sido encargados con un proyecto, es investigar para determinar si ya existen conjuntos de datos adecuados. Sin embargo, en realidad es muy difícil disponer de conjuntos de datos adecuados y etiquetados.

Lo siguiente que haremos como buenos científicos de datos es buscar conjuntos de datos estructurados, incluso si no están etiquetados. Por suerte, en la gran mayoría de los casos nos encontraremos con una buena disponibilidad de datos sin etiquetar.

Aquí es donde entran las técnicas de etiquetamiento manual de datos. Como su nombre indica, el etiquetado depende de la interacción con un usuario experto que pueda identificar los datos y sepa reconocer cómo han de ser etiquetados. Ésta puede ser una tarea laboriosa y por ello existen muchas herramientas y técnicas que permiten al etiquetador ser más productivo.

Ahora bien, existen tantas herramientas como tipos de datos haya que etiquetar. Por ejemplo, si se tiene una serie de tiempo y se quiere etiquetar un intervalo de ésta como anómalo, entonces es necesaria una herramienta sencilla con un UI adecuado y capacidades de persistencia de datos (Ilustración 1).

Ilustración 1: ejemplo de herramienta de etiquetamiento para series temporales[2]

Sigue leyendo «Etiquetamiento de datos no estructurados»