Airflow[1] es una plataforma open-source creada por la Apache Software Foundation[2] que sirve para gestionar, monitorizar y automatizar flujos de trabajo que culminen en complejos pipelines.
Se utiliza frecuentemente en arquitecturas de datos y de Machine Learning por su buena relación entre facilidad de uso, flexibilidad/customización y escalabilidad a la hora de trabajar las capas de procesamiento y transformación de datos.
¿Qué se necesita para trabajar con Airflow?
Para trabajar con Airflow, básicamente solo necesitamos tener claro cómo se ve el pipeline que queremos montar usando esa tecnología, y conocer una serie de conceptos básicos de éste.
Sabiendo eso, solo tenemos que saber ubicar los distintos elementos de ese pipeline y de los distintos flujos de trabajo que lo conforman dentro de la terminología de la herramienta, y finalmente prepararlo. En el siguiente apartado se comentan, entre otras cosas, los distintos elementos que existen dentro de Airflow, que terminan conformando los flujos.
Sigue leyendo «Airflow: procesos con flujos de trabajo y datos»
Debe estar conectado para enviar un comentario.