miércoles, 26 de octubre de 2011

No es abierto todo lo que reluce. Experimento con Aporta.

El Opendata Avanza pero ¿Es Opendata todo lo que reluce?
El viernes 21-10-11 hemos conocido la nota de prensa del consejo de ministros sobre el reglamento de la apertura de datos públicos (veremos lo que nos depara, esperemos que sea bueno).
Un día antes, el jueves 20 Octubre 2011, se celebro un evento sobre periodismo de datos con 4 ponentes de excepción (Xaquín González Veira (The New York Times), Annamarie Cumiskey (Bureau of Investigative Journalism), Mar Cabra (International Consortium of Investigative Journalists - ICIJ) y David Cabo (Pro Bono Público)) con la colaboración de Helen Dabishire de access-info.
Y una de las conclusiones de los ponentes fue la dificultad de utilizar informaciones que ya eran 'open data' como fuentes para las noticias.
Este post describe un experimento sobre una de las principales referencias de fuentes open data de España, el proyecto aporta.

¿Que es Opendata?
En concreto el proyecto aporta, lista  703 fuentes de 'datos' de la AGE.
Y la pregunta, a la luz de las conclusiones del evento es ¿Son realmente fuentes de datos abiertas? ¿Alguien puede hacer algo de utilidad con esas fuentes?
Bajo esta misma pregunta (¿Cuan abierta es una fuente de datos?) una metodología (MELODA) permite  evaluar cuantitativamente la apertura de estas fuentes (documento completo). Sin embargo tras el evento la realidad ha demostrado que estamos en momentos previos y que lo que se necesita antes de ese analisis cuantitativo es una defínición de minimos de lo que es Opendata de cara a su reutilización básica.

Meloda for journalists cualifica fuentes opendata
Meloda for journalists (M4J) es una definición experimental para diferenciar lo que es opendata utilizable y lo que no y se basa en 4 principios muy simples y básicos
Para ser considerado Opendata M4J.
  1. Tienen que ser datos (no vale un escaneado de imágenes, o un informe de texto, nota de prensa, etc debe ser posible volcar a una bbdd u hoja de cálculo), que, sin despreciar su utilidad, deberían estar bajo otra etiqueta como open documents, u otro nombre.
  2. Tiene que tener un formato abierto que nos permita su reutilización sin tener que adquirir onerosas licencias de herramientas para la reutilización.
  3. Tiene que ser posible su reutilización con fines comerciales (como podría hacer un periodista o cualquier infomediario).
  4. Tiene que ser accesible sin intervención humana cada vez que se acceda. De otra forma necesitaríamos una persona cada vez que tuviéramos que acceder a un dato, lo que en la práctica es una forma de restricción del acceso.
Y ahora, definidos estos mínimos acudamos a la red para poder cualificar las fuentes del proyecto aporta.

A la base de datos
Lo primero fue descargar la lista de fuentes del propio proyecto y con la ayuda de una herramienta online transformarlas en sql e incorporarlas en una base de datos (aquí tienes el sql para mysql) para poder añadirles información.

Listado accesible
Utilizando nada más que esta base de datos y el programa index.php que puedes descargarte dentro de los ficheros del final de este post, tienes este listado donde podemos ver además del nombre de  las distintas fuentes, un enlace para acceder a ellas , y un enlace a un formulario para poder cualificarlas.

Formulario de google docs
Como genialmente gestionaron Javier De La Cueva y David Cabo en la iniciativa apadrina un senador y apadrina un diputado, utilizaron un documento de google docs para fomentar  la participación. Y  haciendo caso de su posterior reflexión, se ha evitado abrirlo de forma indiscriminada y publica, ya que esto atrajo a algunos de los vándalos de la red.
Para solucionar esto incluyo aquí una solución bastante simple (a la escasa altura técnica de su implementador) pero al alcance de cualquiera, que es personalizar el código del formulario que google docs puede crear asociado a cualquier hoja de cálculo.
Dicho y hecho, unas líneas de php (disponibles en el descargable del final) y ya tenemos el formulario (viewform.php) que recibe un parámetro y completa los datos principales del formulario dejando al cooperante sólo aquellos campos que requieren de inteligencia. Incluye una pequeña ayuda, fichero help.php.

Esto nos permite que aunque haya vándalos, que siempre los podrá haber, su impacto sería el de rellenar formularios, sin trastornar los datos de otros usuarios que si quieran colaborar fielmente.

Finalmente a la base de datos de vuelta
Gracias a un programa para acceder en lectura a hojas de cálculo y que se adapto (lee_oocalc.php) podemos leer los registros e incoporar los datos a la base de datos original y así poder ayudar a las personas que quieren reutilizar datos a encontrar dentro de las fuentes públicas aquellas que son realmente Open data, y por tanto útiles para su reutilización, por que no es abierto todo lo que reluce.

¿Que podemos obtener?
Pues una lista cualificada de las fuentes del proyecto aporta, una a una o todas juntas para descargar y que sea de utilidad para periodistas e infomediarios.
El experimento está en marcha, abierto a la participación y compartiremos aquí los resultados de si las fuentes recogidas en el proyecto Aporta son opendata M4j o no.

Dedicado a Mar Cabra y a Anna Cumiskey que inspiraron este artículo.

ANEXO:

Todos los ficheros usados en el experimento.

ACTUALIZACIÓN 26-10 3:29
De las primeras 13 fuentes analizadas, ninguna puede ser cualificada como opendata M4J (13/703) aprox 2%.


ACTUALIZACIÓN 28-10 2:38
De las primeras 41 fuentes analizadas, 2 pueden ser cualificadas como opendata M4J (13/703) aprox 4,9%.

lunes, 17 de octubre de 2011

Lo que falta en el #15O

Que sin organizaciones sólidas realmente establecidas se lance una protesta a nivel mundial da una muestra de que nuestro mundo ha cambiado, mientras que sus formas de gobierno no lo han hecho al mismo ritmo. 
Sin embargo su impacto real, puede verse limitado por no tener una serie de medidas globales concretas a implantar. Las medidas locales serían imposibles de consensuar.

Es decir unos mínimos que pedir a los actuales sistemas de gobierno antes de que la falta de cambio desemboque en protestas menos civilizadas.  Es un hecho que el actual sistema imperante en una parte del mundo (la democracia representativa) no está respondiendo a las necesidades de los ciudadanos.
Y al contrario de lo que se opina no es por que tengamos una caterva de chorizos en las instituciones o en los principales partidos de todos estos países, sino por que el sistema casi no da más de sí.
Recordemos que cuando se 'diseño' este sistema (siglo XIX e incluso XVIII) no existía no ya internet, ni aviones, ni barcos de transporte, ni electricidad, ni televisión, ni radio, etc, por tanto pensar en un cambio no parece una temeridad.

Se me ocurren 5 consensos planteables al #15O, muy idealistas, pero no por ello menos necesarios.
Consenso 1: Un sistema de gobierno global elegido por mayoría democrática, libre y secreta
Los problemas globales como el cambio climático, las epidemias, las crisis económicas, los paraísos fiscales, el terrorismo, la inmigración, etc no pueden ser abordados por países aislados, por muy poderosos que sean. 
La falta de este sistema de gobierno (y la ONU no sirve por que es una aristocracia) la estamos viviendo en su peor faceta.
Además la falta de este gobierno permite que los 'esquiroles' o  'defraudadores' salgan beneficiados, a corto plazo, de no adoptar las medidas globales (como por ejemplo la lucha contra el cambio climático, contra los movimientos opacos de capitales, etc). Tal vez nuevas tendencias a la participación como al democracia liquida podrían ayudar en este camino.

Consenso 2: Cambios en los sistemas económicos hacia la transparencia.
Buena parte de esta crisis se ha fraguado gracias a la ocultación de información al público de lo que realmente contenían ciertos activos financieros, al fraude de países respecto a su situación económica real, etc.
Las entidades económicas (empresas, países, ong) de cierta dimensión deberían publicar en tiempo real su información de forma que pueda ser contrastada por cualquiera, no solo por organismos reguladores que a su vez han sido opacos o simplemente negligentes.
Si un negocio debe basarse en la ocultación sistemática de sus datos, probablemente para nuestra sociedad será mejor que no se produzca.

Consenso 3: Cambios en los mecanismos y métricas para calificar la bondad de una medida gobernativa
Si los principales parámetros de medida de la realidad son económicos resultará que tomaremos medidas para arreglarlos, no para mejorar la vida de los ciudadanos. P.e. si un país tuviera 5 Millones de parados pero todos tuvieran una vivienda y un salario mínimo no es lo mismo que si están en la calle y sin cobertura.
El crecimiento del PIB no es tan importante como de qué forma se distribuye  la riqueza a lo largo de los ciudadanos, y realizar gasto sanitario no quiere decir que la salud sea accesible (EEUU gasta casi el dobledel %  PIB que España). Los actuales parámetros de medida además de ser obsoletos y retardados no miden el bienestar real de los ciudadanos y condicionan las políticas de los gobiernos.

Consenso 4. Gobiernos transparentes, abiertos y 'accountables'.
Los gobiernos tendrán que publicar de forma inmediata, publica y reutilizable las argumentaciones y justificaciones de su acción de gobierno. Una medida legislativa no podría ser puesta en práctica sin que le acompañe un análisis de los efectos esperados, en materia de gastos, impacto administrativo y resultados. Auditable por cualquier ciudadano.
Además los gobiernos deberían utilizar la tecnologías para permitir una participación más activa de los ciudadanos en las medidas de generación legislativa mucho más allá de la mera democracia representativa.

Consenso 5. Compartir fomenta el desarrollo.
Es cierto que la inversión en la innovación debe ser remunerada, siempre que se traduzca en una actividad para la sociedad. Sin embargo el sistema actual permite que se investigue no para generar productos/servicios sino para poder demandar a otros innovadores que pudieran ser competidores.
El maluso de la protección legal así otorgada por la sociedad al innovador para que pueda financiar su innovación queda así pervertida por este tipo de prácticas.
Las políticas de licencias no abiertas de la investigación  y desarrollo deberían  ser la excepción y su justificación sólo debería estar apoyada en el caso de que realmente se implemente algún tipo de producto/servicio basado en ello en un plazo 'corto'.
Especialmente cuando se genere con apoyo de dinero público parece que la reutilización abierta maximizaría las posibilidades de uso y por tanto el beneficio para la sociedad en su globalidad.

Seguro que hay muchas más, pero es por dar ideas.....