domingo, 28 de noviembre de 2010

Método LTCA de valoración del open data

Cuando hoy estamos mas cerca de un nuevo reglamento que desarrolle la ley 37/2007 y profundizando en las reflexiones que se volcaron en el FICOD sobre los catálogos de informaciones de las administraciones públicas, se echo en falta la valoración de las distintas fuentes o una catalogación que pusiera en contexto unas frente a otras. 
En el anterior post, y bajo unas hipótesis muy concretas se determinaba que  la utilidad crecía con el cuadrado del número de fuentes, siempre que esas fuentes fueran 'perfectas'. 
Que sean 'perfectas' es como decir fueran L·T·C·A =1, me explico:
LTCA
Que sean L de Legalmente reutilizables y como ejemplo podríamos considerar que un CC by sería un 1 para este parámetro y un copyright estaría cerca del 0.
T de Técnicamente accesible, es decir que si la fuente se ofrece en un formato crudo, basado en un estándar abierto (Ver definición en anexo k de la ley 11/2007) y bien documentado estaríamos en un 1 y si se ofrece la fuente en un pdf en formato imagen estaríamos cerca del 0.
C de Completa en su ámbito, es decir que si el ámbito es el de un mapa geográfico imaginemos  un mapa de un país donde faltan ciudades o provincias, su utilidad sería muy cuestionada
A de Actualizada respecto a su tasa de variación natural. De igual modo, con un ejemplo la situación del tráfico de hace 8 horas puede tener una utilidad muy limitada para un conductor.
Por tanto para las mejoras al reglamento que desarrolle la ley 37/2007 deberían pedirse medidas que garantices que además de tener muchas fuentes  fueran LTCA 1, es decir legalmente muy reutilizables, técnicamente accesibles, completas (para lo cual sería deseable la coordinación de administraciones )y  bien actualizadas, y conforme a esta prioridad aplicar la financiación adecuada, por que aunque la sociedad se va a beneficiar, quien tiene que dar el primer paso son las administraciones actuales.

Estrategias de inversión en el open data publico y privado

El catalogo de fuentes de datos del proyecto aporta muestra actualmente 719 'fuentes publicas de datos'.(28-11-10)
Durante los debates que tuvieron lugar en el pasado FICOD en la sesión sobre catalogos de información publica y los subsiguientes comentarios en twitter lo que quedó claro es que se demandaban más información, más fuentes y en datos crudos que permitieran un tratamiento comercial posterior, eso siempre con respecto a la legalidad vigente.
 Si el valor/utilidad de estas fuentes viniera por la capacidad de combinarse  la fórumla que reflejaría este valor (tomando como N el número de fuentes) se estaría reflejado en la siguiente fórmula, 
pero que si suponemos que la vaca es redonda crece con N2.
Simplificando, esta fórmula supone que un crecimiento del 40% en el número de fuentes casi duplica la utilidad global, y duplicar el número de fuentes supone cuadruplicar su utilidad, etc.
Por otra parte para que esa combinación sea posible han de existir estándares comunes (por supuesto abiertos) que permitan esa combinación.
El número de pasarelas a desarrollar para que la combinación sea posible crece con el factorial de su número, por ello introducir una nueva serie de fuentes de datos basados en un estándar distinto puede no suponer un avance en la utilidad global del sistema.
(N número de fuentes y K número de estándares)
Es evidente que no todas las combinaciones proporcionan una utilidad (y que muchas de ellos proporcionarán casi la misma, y deben ser los usuarios y el sector privado los que muestren el camino de aquellas que realmente proporcionan valor.
De cara a las inversiones unas condiciones legales que permitan la reutilización son absolutamente necesarias, difícilmente puede catalogarse algo como  fuente como fuente, sino es posible combinarlo con otras informaciones y sería deseable que el próximo decreto que desarrolla la ley 37/2007 así lo establezca.
Para concluir el resumen de la sesión sería "libera mucho, libera crudo y en estándares conocidos" para que una vez superadas las barreras legales, no sean las tecnológicas las que lastren el despliegue de los potenciales beneficios del open data tanto de índole económica como de índole social y política.

martes, 2 de noviembre de 2010

Que si tiene futuro el opendata y cuanto

Pregunta 1
¿Es una moda el open data, es decir la libración de caudales de datos tanto del ámbito público como privado?.

Respuesta 1
No. Está de moda por que hoy es posible tanto desde el punto de vista de usuario y de fuentes por que hay una masa suficiente de fuentes de información que son de interés.

Pregunta 2
¿Por que está tan de moda el RISP o la reutilización de datos públicos?

Respuesta 2
Por que la digitalización de las aapp permite que grandes fuentes de datos puedan ser hechas publicas. Que los usuarios puedan acceder hoy a millones de fuentes privadas contrasta con su contrapartida pública.

Pregunta 3
¿cual es la perspectiva de crecimiento de los modelos de negocio alrededor del open data?

Respuesta
Mi estimación es que la función de crecimiento tiene una formula como la siguiente.



donde:
K es un parámetro que mide la conversión entre la disponibilidad de las fuentes y el potencial de negocio € / Gb
T es el tamaño de las fuentes medidas en Gb
To es el parámetro de normalización de la cantidad de datos (Gb)
N es el número de fuentes dispares de información
No es un número umbral de fuentes dispares (informaciones distintas) y que representa las dificultades técnicas a la conexión de fuentes
alfa es un parámetro entre 0 y 2 que sintetiza las restricciones económicas y legales a la utilización de las fuentes (adimensional)

F es el valor económico medida en euros generados por las fuentes.

Dado que tanto T (el tamaño de las fuentes de datos), como N (los tipos de información disponible) crecen con el tiempo a medida que se liberan más fuentes de información, parecería imparable el creciente valor económico de este sector. Pero ha de tenerse en cuenta también que tanto No es creciente en el tiempo a medida que se crean nuevos formato de liberación de información, y que alfa depende del esfuerzo del legislador y de los particulares por hacer legal la reutilización económica de la información y de la disposición económica de los consumidores a pagar por la información. Finalmente To también crece con el tiempo a medida que los consumidores somos más exigentes con las fuentes de información (lo que ayer era estupendo como un mapa estático en pdf ahora estamos pidiendo mapas interactivos que consecuentemente requieren de mayores necesidades de almacenamiento).

La evolución factorial de N es la lógica de un sistema realimentado donde cada nuevo tipo de fuente puede ser interconectado con todo el resto de tipos de fuentes generando nuevas posibilidades.

Próximo post: valores de los parámetros en el sector nacional.