Etiquetamiento de datos no estructurados

Para muchos el Santo Grial en el área de aprendizaje supervisado viene dado por los conjuntos de datos etiquetados[1]. En efecto, generalmente lo primero que hacemos nosotros como buenos científicos de datos, luego de haber sido encargados con un proyecto, es investigar para determinar si ya existen conjuntos de datos adecuados. Sin embargo, en realidad es muy difícil disponer de conjuntos de datos adecuados y etiquetados.

Lo siguiente que haremos como buenos científicos de datos es buscar conjuntos de datos estructurados, incluso si no están etiquetados. Por suerte, en la gran mayoría de los casos nos encontraremos con una buena disponibilidad de datos sin etiquetar.

Aquí es donde entran las técnicas de etiquetamiento manual de datos. Como su nombre indica, el etiquetado depende de la interacción con un usuario experto que pueda identificar los datos y sepa reconocer cómo han de ser etiquetados. Ésta puede ser una tarea laboriosa y por ello existen muchas herramientas y técnicas que permiten al etiquetador ser más productivo.

Ahora bien, existen tantas herramientas como tipos de datos haya que etiquetar. Por ejemplo, si se tiene una serie de tiempo y se quiere etiquetar un intervalo de ésta como anómalo, entonces es necesaria una herramienta sencilla con un UI adecuado y capacidades de persistencia de datos (Ilustración 1).

Ilustración 1: ejemplo de herramienta de etiquetamiento para series temporales[2]

Sigue leyendo «Etiquetamiento de datos no estructurados»
Anuncio publicitario