Datos Enlazados de Aragón: modelo semántico en Aragón Open Data

Introducción

La web semántica nació para ofrecer más valor a la web tradicional, que se construía en lenguaje HTML. Esta nueva web quería otorgar a cada archivo, recurso o contenido de la red, un contexto o definición que permitieran a las máquinas comprender el significado de estos. El objetivo final no era solo el de poder mostrarlo a través de una pantalla, sino que pudiera ser interpretado o reutilizado. Para ello fue imprescindible complementar la tecnología actual con el lenguaje estructurado XML.

Poco a poco, el concepto Linked Data es menos desconocido en la web. Y eso es porque cada vez se utiliza más, sobre todo los gigantes de la tecnología y las redes sociales. El Linked Data o datos enlazados, describe un método de publicación de datos estructurados para que puedan ser interconectados.

La web semántica demandaba utilizar un identificador único para cada dato, para ello se necesitaba utilizar una forma estandarizada de distinguir los datos unos de otros y se escogió el URI (Uniform Resource Identifier).

Con el objetivo de hacer más entendible la teoría de las ontologías, se va a intentar dar forma con dos casos concretos que se utilizan en Aragón Open Data. Por un lado, la Estructura de Información Interoperable de Aragón (Ei2A) y, por otro, del Identificador Europeo de Legislación.

Estructura de Información Interoperable de Aragón

El objetivo principal es que el EI2A sea el marco en el que los datos abiertos y en general la información del Gobierno de Aragón pueda comenzar a automatizarse en base a una estructura común. Para ello es necesario de seguir una serie de elementos técnicos, organizativos y legales.

Una de las herramientas más utilizadas, y que se ejecuta a diario, llamada Datacube, se basa en la Estructura de Información Interoperable de Aragón. Esta ontología posee la capacidad de apoyar la interoperabilidad de datos del dominio del Gobierno de Aragón, con el objetivo de estandarizar información y explotarla en un presente y en un futuro.

De acuerdo a las recomendaciones de la Web Semántica, la ontología EI2A reutiliza diversas ontologías, esquemas y vocabularios para describir entidades que se adecuen al dominio del Gobierno de Aragón. Reutilizar ontologías facilita el intercambio de conocimiento y la comunicación entre personas, agentes inteligentes y sistemas.

Algunas de las ontologías y vocabularios usados para el desarrollo de la propuesta ontológica de Información Interoperable de Aragón son las siguientes:


Simple Knowledge Organization System (SKOS) (https://www.w3.org/TR/vocab-org/): Ontología desarrollada por W3C para describir organizaciones.
Owl (http://www.w3.org/2002/07/owl): un lenguaje de marcado para publicar y compartir datos usando ontologías en la WWW. OWL tiene como objetivo facilitar un modelo de marcado construido sobre RDF y codificado en XML.
RDF Schema (http://www.w3.org/2000/01/rdf-schema): Vocabulario de uso general que se utiliza en el modelado de esquemas en RDF para la creación de otros Vocabularios.
XML Schema (http://www.w3.org/2001/XMLSchema): Lenguaje de esquema utilizado para describir la estructura y las restricciones de los contenidos de los documentos XML de una forma muy precisa.
Dublin Core Metadata Terms (http://dublincore.org/): Conjunto complete de términos elaborado por la iniciativa de metadatos de Dublin Core, entidad de referencia en el desarrollo de metadatos de amplio ámbito de actuación, así como en las buenas prácticas para su gestión.
ELI: legislación en un formato normalizado, de manera que puede localizarse, intercambiarse y reutilizarse por encima de las fronteras. Es la siguiente ontología que se explica en el artículo.

Identificador Europeo de Legislación

Al igual que se comentaba la importancia de una estructura común para los datos del Gobierno de Aragón, es sumamente importante utilizar identificadores permanentes y metadados estructurados para mejorar la calidad y la fiabilidad de la información jurídica online.

Esto favorece la interoperabilidad entre los sistemas de información estructurando la legislación de manera normalizada, pero teniendo en cuenta al mismo tiempo las características específicas de los distintos ordenamientos jurídicos.

El Boletín Oficial de Aragón está colaborando con la iniciativa europea ELI, que permite acceder online a la legislación en un formato normalizado. Desde el proyecto de Aragón Open Data se desarrollaron unos esquemas para leyes, decretos y órdenes que relacionaba los datos del BOA con el formato del ELI.

La web semántica en Aragón Open Data

Todos los datos enlazados que se exponen a través del portal de datos abiertos del Gobierno de Aragón son almacenados en Virtuoso. Es un servidor universal, un híbrido de Servidor de Aplicaciones Web y Sistema de Gerenciamiento de Banco de Datos Objeto-Relacional (ORDBMS).

Su arquitectura permite la persistencia de datos en los formatos relacional, RDF, XML, texto, documentos, Datos Conectados, etc.

Virtuoso es una de las plataformas de Linked Data más utilizadas en la actualidad. Además posee un banco de tripletas nativo, como la DBpedia, un repositorio de conjuntos de datos, abierto y gratuito, con información estructurada proveniente de Wikipedia.

Una tripleta semántica es la entidad atómica de datos en el modelo de datos Resource Description Framework (RDF). Como su nombre indica, una tripleta o una terna es un conjunto de tres entidades que codifica una declaración sobre datos semánticos en forma de expresiones sujeto-predicado-objeto.

En la actualidad, en Aragón Open Data, hay dos servicios que insertan tripletas semánticas en Virtuoso. Una gran parte de los datos disponibles para cada municipio, provincia, comarca y para la Comunidad Autónoma de Aragón, están disponibles utilizando un vocabulario estándar del consorcio W3C, como es DataCube.

Esta herramienta se encarga de descargar estos cubos de datos del BI del Instituto Aragonés de Estadística, trasnformarlos a formato de terna e insertarlo en la base de datos semántica.

Desde el servicio de Aragopedia, que es un frontal estático, se hace consultas SPARQL a los distintos cubos de datos insertados para ofrecer una herramienta de consulta para cualquier usuario sin conocimientos previos de web semántica o consultas SPARQL.

El otro servicio que nutre Aragón Open Data de datos enlazados es el proyecto Aragón Open Data Pool, una herramienta innovadora dentro del panorama de los datos abiertos nacionales, que demuestra la importancia de centralizar datos y servirlos para favorecer su uso y explotación.

El AOD Pool, con ayuda de esquemas XML previamente construidos, relaciona con la ontología EI2A los datos existentes en Aragón Open Data bajo la temática de transporte, gestión del agua, turismo y agricultura-PAC (Política Agrícola Común de la Unión Europea), genera tripletas y las almacena en Virtuoso.

Una vez que las ternas están cargadas en Virtuoso, desde un frontal desarrollado en PHP con el framework Symfony, se puede visualizar, por ejemplo, todos los datos relacionados de un municipio de Aragón, como se aprecia en la siguiente imagen.

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s