miércoles, 2 de noviembre de 2011

El Proyecto aporta se queda al 3%

Mínimos para la reutilización profesional
(viene del anterior post )
Como se define en opendata M4J, los requisitos mínimos para la reutilización profesional de la información contenida en una fuente de opendata son:
1) Que sean realmente datos (no documentos q aunque posiblemente valiosos son 'otra cosa')
2) Tengan una licencia que permita su reutilización más allá de la consulta privada (uso profesional).
3) Se liberen en formatos abiertos *
4) Sean accesibles sin necesidad de intervención manual (URL directa, aunque sea con parámetros)
Estas condiciones, no demasiado exigentes por otra parte, son necesarias para fomentar una  utilización profesional de los datos y por tanto la creación de valor económico (empleo) alrededor de unas fuentes cuyo gasto de generación ya ha sido realizado.
Quedan muy lejos de los requerimientos del linked data.

El dato del 3% es desolador para la reutilización comercial

Como se describía en un post anterior,  tras un muestreo de 72 de las 703 fuentes del proyecto aporta, y que ahora parece que forman la base del nuevo portal de la administración general del estado, tan sólo hubo 2 (La agenda de red.es y las noticias del ministerio de justicia) que cumplieran las condiciones de opendata M4J. Lo cual excedió con mucho nuestras peores previsiones. Además las fuentes incluidas son los rss que ni siquiera son los que se inventarían en la lista de fuentes de aporta.
Las fuentes analizadas y los datos parciales sobre las mismas están disponibles.

El detalle de los datos también revela sorpresas
La sorpresa global ha sido mayúscula, por que las condiciones anteriores no parecían inicialmente tan restrictivas si lo que queremos es que haya una reutilización efectiva como se describe en el propio proyecto.
El detalle de los resultados reflejaron también algunos otros datos interesantes

Fuentes reales de datos un 39%
Que realmente fueran datos y no documentos (como notas de prensa) o catálogos de las publicaciones a la venta eran cumplidos sólo por el 39%. (P.e. fuentes descartadas han sido la búsqueda dentro de los estatutos  de la Real Academia Nacional de Farmacia o el enlace  a los datos de 2 libros).
Seguro que hay muchos otros conjuntos de datos liberables en todas las entidades que se publican.

Formatos bien al 88%. Mejorar al alcance de la mano
Los formatos no plantearon tanto problema*, se llegaba al 88% de las fuentes. Si bien en general no facilitaban su reutilización por ser formatos poco incorporables como pantallas html o documentos texto pdf.
Curiosamente en la mayoría estos, html o pdf, vienen de bases de datos cuya liberación haría muchísimo más sencilla su reutilización.

Acceso directo a la información sólo al 40%
La accesibilidad a los datos también fue un problema ya que solo en un 40% de los casos se podía acceder de forma sistemática y automatizable a la fuente de datos.**
Es decir en el 60% de las fuentes requerían de una intervención manual, en la mayoría de los casos a través de un formulario con mayor o menor complicación, y en algunos casos se limitaba el número de resultados proporcionados.
No sería complicado incluir un enlace para la descarga completa.

El licenciamiento merece especial atención. Solo el 15% permite reutilización
Lo que mayor sorpresa ha causado ha sido el licenciamiento de los contenidos, ya que en un 85% de los casos prohibían la reutilización profesional de los contenidos.
Merece destacar que no son pocas las fuentes que cuentan con copyrights anticuados (hasta del año 2006) o con el copyright asignado a una empresa privada o con casos más extremos que incluyen licencias prohibiendo expresamente la reutilización, el scrapping y la utilización para menores como en Correos.

Conclusión
Aunque este basado en un muestreo aleatorio (para que sea estadísticamente significativo) los resultados excedieron, por lo inferiores nuestras peores pervisiones. 
Pero esta situación actual puede ser un buen punto de partida, ya que con sólo cambiar o actualizar las políticas de publicación, cambio realmente estético y de mínimo coste, multiplicaríamos por 5 (15%) la información disponible para su reutilización.
Si además en lugar de crear pdf intratables de cara a su reutilización se volcaran las bases de datos desde las que se generan, probablemente se podría duplicar este 15% hasta un 30%. 
Lo cual supone que con inversiones mínimas podríamos abrir realmente las puertas a un #opendata.
Como dicen en Cuba "Por el dinero no te preocupes que dinero no hay". En este caso no es cuestión de dinero, solo con voluntad podemos multiplicar por 8 la situación actual.

* en este caso se ha inbcluido en los formatos abiertos .xls aunque no .xlsx.
** incluso en el caso de que la evaluación determinara que no era una fuente de datos opendata.

No hay comentarios: