miércoles, 26 de octubre de 2011

No es abierto todo lo que reluce. Experimento con Aporta.

El Opendata Avanza pero ¿Es Opendata todo lo que reluce?
El viernes 21-10-11 hemos conocido la nota de prensa del consejo de ministros sobre el reglamento de la apertura de datos públicos (veremos lo que nos depara, esperemos que sea bueno).
Un día antes, el jueves 20 Octubre 2011, se celebro un evento sobre periodismo de datos con 4 ponentes de excepción (Xaquín González Veira (The New York Times), Annamarie Cumiskey (Bureau of Investigative Journalism), Mar Cabra (International Consortium of Investigative Journalists - ICIJ) y David Cabo (Pro Bono Público)) con la colaboración de Helen Dabishire de access-info.
Y una de las conclusiones de los ponentes fue la dificultad de utilizar informaciones que ya eran 'open data' como fuentes para las noticias.
Este post describe un experimento sobre una de las principales referencias de fuentes open data de España, el proyecto aporta.

¿Que es Opendata?
En concreto el proyecto aporta, lista  703 fuentes de 'datos' de la AGE.
Y la pregunta, a la luz de las conclusiones del evento es ¿Son realmente fuentes de datos abiertas? ¿Alguien puede hacer algo de utilidad con esas fuentes?
Bajo esta misma pregunta (¿Cuan abierta es una fuente de datos?) una metodología (MELODA) permite  evaluar cuantitativamente la apertura de estas fuentes (documento completo). Sin embargo tras el evento la realidad ha demostrado que estamos en momentos previos y que lo que se necesita antes de ese analisis cuantitativo es una defínición de minimos de lo que es Opendata de cara a su reutilización básica.

Meloda for journalists cualifica fuentes opendata
Meloda for journalists (M4J) es una definición experimental para diferenciar lo que es opendata utilizable y lo que no y se basa en 4 principios muy simples y básicos
Para ser considerado Opendata M4J.
  1. Tienen que ser datos (no vale un escaneado de imágenes, o un informe de texto, nota de prensa, etc debe ser posible volcar a una bbdd u hoja de cálculo), que, sin despreciar su utilidad, deberían estar bajo otra etiqueta como open documents, u otro nombre.
  2. Tiene que tener un formato abierto que nos permita su reutilización sin tener que adquirir onerosas licencias de herramientas para la reutilización.
  3. Tiene que ser posible su reutilización con fines comerciales (como podría hacer un periodista o cualquier infomediario).
  4. Tiene que ser accesible sin intervención humana cada vez que se acceda. De otra forma necesitaríamos una persona cada vez que tuviéramos que acceder a un dato, lo que en la práctica es una forma de restricción del acceso.
Y ahora, definidos estos mínimos acudamos a la red para poder cualificar las fuentes del proyecto aporta.

A la base de datos
Lo primero fue descargar la lista de fuentes del propio proyecto y con la ayuda de una herramienta online transformarlas en sql e incorporarlas en una base de datos (aquí tienes el sql para mysql) para poder añadirles información.

Listado accesible
Utilizando nada más que esta base de datos y el programa index.php que puedes descargarte dentro de los ficheros del final de este post, tienes este listado donde podemos ver además del nombre de  las distintas fuentes, un enlace para acceder a ellas , y un enlace a un formulario para poder cualificarlas.

Formulario de google docs
Como genialmente gestionaron Javier De La Cueva y David Cabo en la iniciativa apadrina un senador y apadrina un diputado, utilizaron un documento de google docs para fomentar  la participación. Y  haciendo caso de su posterior reflexión, se ha evitado abrirlo de forma indiscriminada y publica, ya que esto atrajo a algunos de los vándalos de la red.
Para solucionar esto incluyo aquí una solución bastante simple (a la escasa altura técnica de su implementador) pero al alcance de cualquiera, que es personalizar el código del formulario que google docs puede crear asociado a cualquier hoja de cálculo.
Dicho y hecho, unas líneas de php (disponibles en el descargable del final) y ya tenemos el formulario (viewform.php) que recibe un parámetro y completa los datos principales del formulario dejando al cooperante sólo aquellos campos que requieren de inteligencia. Incluye una pequeña ayuda, fichero help.php.

Esto nos permite que aunque haya vándalos, que siempre los podrá haber, su impacto sería el de rellenar formularios, sin trastornar los datos de otros usuarios que si quieran colaborar fielmente.

Finalmente a la base de datos de vuelta
Gracias a un programa para acceder en lectura a hojas de cálculo y que se adapto (lee_oocalc.php) podemos leer los registros e incoporar los datos a la base de datos original y así poder ayudar a las personas que quieren reutilizar datos a encontrar dentro de las fuentes públicas aquellas que son realmente Open data, y por tanto útiles para su reutilización, por que no es abierto todo lo que reluce.

¿Que podemos obtener?
Pues una lista cualificada de las fuentes del proyecto aporta, una a una o todas juntas para descargar y que sea de utilidad para periodistas e infomediarios.
El experimento está en marcha, abierto a la participación y compartiremos aquí los resultados de si las fuentes recogidas en el proyecto Aporta son opendata M4j o no.

Dedicado a Mar Cabra y a Anna Cumiskey que inspiraron este artículo.

ANEXO:

Todos los ficheros usados en el experimento.

ACTUALIZACIÓN 26-10 3:29
De las primeras 13 fuentes analizadas, ninguna puede ser cualificada como opendata M4J (13/703) aprox 2%.


ACTUALIZACIÓN 28-10 2:38
De las primeras 41 fuentes analizadas, 2 pueden ser cualificadas como opendata M4J (13/703) aprox 4,9%.

No hay comentarios: