Cuestiones tecnológicas: 2016

viernes, 21 de octubre de 2016

Del bit al qbit, la promesa del gato de Schrödinger.

Imposible de entender no implica imposible de utilizar

Richard Feynman, premio Nobel de Física en 1965, sin duda una de las mentes más deslumbrantes en el campo científico y dueño de una personalidad peculiar, escribió en uno de sus libros que podría decir con seguridad que nadie entiende la mecánica cuántica, y sin duda tenía razón.

Los fenómenos de la mecánica cuántica son inadmisibles y contraintuitivos para nuestro sentido común. Extrapolar ideas y tratar de encajar conceptos como la dualidad onda-partícula o la superposición de estados en los fenómenos que observamos en el mundo macroscópico y cotidiano es imposible e improductivo. Sencillamente nuestro sentido común no está preparado para asimilar la naturaleza cuántica de la materia a escalas microscópicas.

Sin embargo y afortunadamente, la mecánica cuántica cobra un sentido casi mágico y sorprendente en el lenguaje de las matemáticas. En cierto modo todo cobra sentido, y aunque su interpretación sea un tema complejo, incluso polémico, sus resultados son absolutamente predecibles, y por tanto asombrosamente prácticos.

La piedra filosofal del mundo moderno, los semiconductores, pudieron ser desarrollados gracias a los conceptos surgidos en la mecánica cuántica. Las bandas de energía y la naturaleza estadística de las partículas juegan un papel fundamental en el diseño y construcción de dispositivos como diodos, transistores y circuitos integrados, elementos fundamentales para todos los aparatos y equipos electrónicos sobre los cuales la humanidad ha construido las bases del mundo moderno.

Por tanto, aun si no entendemos la mecánica cuántica, y sus principios y leyes son totalmente inverosímiles para nuestro sentido común, el mundo tal como lo conocemos en la actualidad no sería posible sin su estudio y los constantes intentos por entenderla e interpretarla.

Carl Sagan, en respuesta a las críticas que afirmaban que la mecánica cuántica no era menos misteriosa que el shamanismo o las creencias teológicas del new age, dijo que aun si no podemos entenderla, la mecánica cuántica sencillamente funciona.

Un salto cuántico para escapar al colapso de la ley de Moore

En 1965 Gordon Moore, quien entonces trabajaba para Farichild Semiconductors, recibió una pregunta de la revista Electronics respecto al futuro de la industria de los componentes semiconductores. Él predijo que cada año la complejidad de los componentes se incrementaría en un factor aproximado de 2, y que no había razón para no pensar que eso podría continuar por los próximos 10 años.

Esa predicción se cumplió de forma casi inequívoca desde ese año hasta 1980, desde cuando el incremento en un factor de 2 se ha venido dando aproximadamente cada dos años. En 1971 un microprocesador tenía alrededor de 2300 transistores, para 2016 esta cantidad se ha incrementado a 10 billones. La miniaturización en el mismo rango de tiempo ha ido desde los 10 micrómetros hasta los 10 nanómetros.

A esta escala se está llegando al límite de la miniaturización y por tanto al final de la ley de Moore. Tal límite no es impuesto tanto por la capacidad técnica como por los principios que rigen la mecánica cuántica, los que sin embargo abren el camino para una nueva tecnología cuya frontera apenas estamos bordeando.

El gato de Schrödinger tiene la clave

A pesar de que la mecánica cuántica tiene una formulación matemática clara, coherente y precisa, la interpretación de sus fenómenos en la realidad cotidiana es un tema complejo y que más de una vez ha levantado polémica. El problema de la interpretación es que su naturaleza es tan íntima que compromete nuestra percepción de la misma realidad.

La interpretación tradicional de la mecánica cuántica, y sin duda la más difundida y tal vez aceptada, es la Interpretación de Copenhague, formulada alrededor de 1927 por Niels Bohr y Werner Hesienberg.

La interpretación de Copenhague se basa en la idea de que los sistemas a nivel cuántico no tienen un valor definido hasta el instante en que son medidos. Por tanto la mecánica cuántica únicamente puede predecir la probabilidad de un resultado. Esto implica que antes de realizar una medición un sistema contiene todos los posibles estados, cada uno de los cuales tiene una probabilidad calculable de suceder. Es solamente después de la medición que surge un estado específico a través de lo que se conoce como el colapso de la función de onda. Antes de la medición, y por tanto previo al colapso, un sistema se encuentra en una superposición de estados cuánticos.

En 1935 Erwin Schrödinger propuso un experimento mental con el cual la superposición de estados pudiese ser llevada al mundo macroscópico. Imaginó una caja totalmente aislada en la que se encontraría un gato cuya vida dependería del estado cuántico de un átomo radioactivo. Así, antes de abrir la caja el átomo se encontraría en dos posible estados, habría decaído o no, lo que implicaría que el gato estaría en dos posibles estados simultáneos vivo y muerto! De alguna manera Schrödinger trataba de demostrar lo absurdo de la superposición cuántica. Sin embargo, en lugar de esto estableció una idea que se utiliza como una paradoja a través de la cual se evalúan otras interpretaciones de la mecánica cuántica.

El gato de Schrödinger es la piedra angular de la computación cuántica, pues su capacidad de estar simultáneamente en estados vivo y muerto es análoga a un bit en estados 1 y 0.

El poder de los qbits

En 1981 Richard Feynman en una charla en el MIT dijo que la evolución de un sistema cuántico en principio no podría ser simulada por un computador clásico, así que propuso el modelo básico de un computador cuántico que podría realizar tal tarea. Luego, en 1985 David Deutsch de la Universidad de Oxford propuso el primer modelo de un computador cuántico universal, equivalente a lo que fue la propuesta de la máquina de Turing para los computadores actuales.

A diferencia de un computador convencional que utiliza bits, un computador cuántico utiliza qbits, los que análogamente al gato de Schrödinger, pueden estar en dos estados simultáneamente, en 1 y en 0. Esto significa que un solo qbit representa al mismo tiempo dos estados, por tanto 2 qbits representarían 4 estados, 3 qbits 8 estados, y en general N qbits 2^N estados simultáneos.

Esta particularidad de los qbits tiene implicaciones notables, pues la búsqueda y el procesamiento de los registros no se hace uno a uno, sino 2^N registros a la vez, en un solo paso. Así, un computador cuántico con 8 bits sería capaz de procesar simultáneamente 256 registros en un solo paso. En un computador con 300 qbits se tendría tantos estados posibles como átomos en el universo visible! Tener la capacidad de procesar tal cantidad de información resulta imposible para un computador convencional, pero para un computador cuántico sería una tarea de un solo paso.

Tal vez si pensamos en un computador cuántico como una herramienta para tareas como navegar por la Internet, ver nuestras fotografías, ver una película o revisar nuestro correo no estaremos ganando nada interesante.

Por otro lado, imaginemos un computador con estas características para realizar tareas de minería de datos de grandes volúmenes de información, para obtener la predicción del clima a nivel mundial utilizando cada variable disponible en tiempo real, para realizar el análisis de los genotipos de organismos biológicos existentes o simulados, para simular el comportamiento de complejas estructuras de ingeniería bajo cualquier condición, para analizar los masivos volúmenes de datos provenientes de un acelerador de partículas, para analizar hasta el más mínimo desplazamiento de las placas tectónicas en todo el mundo, para analizar la estructura del universo, para entender la dinámica del cerebro humano, para el desarrollo e implementación de sistemas de Inteligencia Artificial, etc. Es entonces cuando se entiende que esta tecnología no es un simple avance para las tecnologías de la información, sino que se trata de un verdadero salto cuántico para la humanidad.

Cuestión de coherencia

El mayor desafío técnico que enfrenta el desarrollo de los computadores cuánticos es mantener los qbits totalmente aislados, y evitar así que su interacción con el entorno interfiera con su estado y por tanto con la información que contengan.

Cuando un sistema cuántico interactúa se produce un "entrelazamiento" con su entorno lo que provoca que la información sea transferida. En este sentido, la información se pierde, pues se dispersa en el entorno a través del mecanismo de entrelazamiento, y al encontrarse dispersa no se puede recuperar, o al menos no es un proceso simple.

La interacción de un sistema con su entorno, lo que se conoce como decoherencia, provoca por tanto que los qbits pierdan información, la que al dispersarse por el mecanismo de entrelazamiento cuántico no puede ser recuperada, o al menos ya no es utilizable.

La decoherencia es necesaria solamente en el momento en que la información va a ser leída a través del proceso de medición, pues en nuestro entorno macroscópico necesitamos información concreta. La información superpuesta o "mezclada" no puede ser directamente utilizada.

Un aspecto importante de la información contenida en sistemas cuánticos es que una vez leída es destruida, pues la medición provoca el colapso de la función de onda y por tanto la superposición de estados de los qbits queda reducida a un único estado.

El hecho de que la información de un sistema cuántico sea destruida en el instante en que es medida, o leída para el caso, es la piedra angular de nuevos sistemas de encriptación cuántica, pues este proceso ocasiona que los datos que sean "secuestrados" por un intermediario que tenga el objetivo de leerlos de manera oculta, destruya la información original lo que puede ser detectado por el receptor.

Del Y2K al Y2Q

Aunque en la actualidad existen empresas como Swiss Quantum que fabrican equipos de encriptación cuántica a nivel comercial, o D-Wave que utiliza principios cuánticos como el quantum tunnelling para resolver problemas complejos, la computación cuántica está aun en una etapa muy temprana, y podría llegar a ser una realidad concreta alrededor de 2030 según algunos expertos.

La llegada de los computadores cuánticos sin duda marcará una revolución en el desarrollo de las tecnologías de la información, y aunque abre una ventana de posibilidades inimaginables su llegada también puede significar un enorme desafío para sociedades que se hayan mantenido al margen de sus avances, incrementando de forma considerable la brecha tecnológica entre naciones desarrolladas y naciones en vías de desarrollo.

Quizás el efecto más dramático y el primero en aparecer con el surgimiento de la computación cuántica será la anulación de los mecanismos de seguridad en los sistemas de información. El problema radica en que los sistemas actuales confían su seguridad a algoritmos que se basan en la dificultad matemática que implica la factorización de grandes números primos.

Así por ejemplo, todas las páginas seguras utilizadas por instituciones de gobierno, instituciones bancarias, servicios de correo, los monederos electrónicos de bitcoins, etc., se basan en la estructura PKI (Public Key Infrestrcture) misma que utiliza un sistema de claves asimétricas, es decir una clave para encriptar la información y otra clave para desencriptarla. Una de las claves es pública y la otra se mantiene privada, lo que permite que la clave privada no deba ser difundida y por tanto se mantenga segura.

Sin embargo, en 1994 el matemático Peter Shore formuló un algoritmo que podría ser utilizado en un computador cuántico para romper los esquemas de criptografía de claves asimétricas como el RSA, que basa su seguridad en la dificultad computacional que supondría obtener los factores primos de la clave privada. Esto implica el fin de la seguridad en la transferencia de información tal como la conocemos actualmente. Por tanto es necesario que se desarrollen nuevo sistemas de criptografía cuya aleatoriedad no dependa de la complejidad matemática de un problema de números primos, sino de conceptos más profundos como el principio de incertidumbre de Heisenberg, que postula que la imposibilidad de realizar medidas exactas no se debe a la dificultad técnica de la medición sino a la naturaleza inherente al comportamiento cuántico de la materia a escala microscópica.

El enorme poder de procesamiento de los computadores cuánticos ofrece un gran impulso a tecnologías como minería de datos, inteligencia artificial y Big Data en las que el principal desafío es el manejo de grandes volúmenes de datos a gran velocidad. El salto cuántico que se dará en este punto hará posible la ejecución de procesos mucho más complejos y avanzados con los que el análisis de perfiles de usuarios y la búsqueda de patrones hará posible identificar de forma unívoca a cualquier usuario de la red, lo que supondrá un nuevo desafío la confidencialidad y la privacidad de las personas en un entorno en el que la red no solamente será más inteligente, sino que evolucionará con mayor rapidez.

El establecimiento de nuevas estrategias y políticas inteligentes es indispensable para asegurar que la computación cuántica se convierta en una oportunidad valiosa, y no en un desafío insalvable para las sociedades menos desarrolladas.

Quizás el Y2K (years to 2000) no fue un evento tan dramático como se esperaba, y aun así es considerable el esfuerzo y la inversión que realizaron muchos gobiernos y empresas para atenuar sus efectos. Sin embargo el Y2Q (years to quantum) puede ser un evento mucho más dramático y con mayores consecuencias, muchas de las cuales aun no se han entendido en toda su magnitud.

domingo, 16 de octubre de 2016

Open Data, materia prima para el desarrollo tecnológico

El valor de los bits

Nicholas Negroponte, fundador del Media Lab del MIT en su libro "Ser Digital" de 1995 cuenta que en alguna ocasión en una conferencia le solicitaban en la recepción del hotel indicar el precio de su computador portátil. Él respondía entre unos dos mil y unos dos millones de dólares!

La respuesta puede parecer absurda hasta que consideramos que, en términos del mismo Negroponte, el valor de los bits puede ser muy superior al valor de los átomos, o dicho de otra manera, el valor de la información puede ser muy superior al valor de equipo que la contiene.

Pero claro, el valor de los bits no siempre es objetivo. Así, las fotografías digitales que ha tomado un explorador en el viaje de su vida pueden tener un enorme valor simbólico y emocional, pero quizás ser triviales para otra persona. Sin embargo la clave privada de una billetera de bitcoins tendrá un valor concreto y objetivo para cualquier persona. Bajo esta perspectiva, el valor de los bits depende de su naturaleza y su origen, pero también puede llegar a depender de su destino.

El valor de los bits, o más bien de la información, cuando se habla de su naturaleza y de su origen, es un valor que ya sea objetiva o subjetivamente está definido, y por tanto es como si se hablase de un producto terminado y listo para ser utilizado. Así las fotografías, piezas musicales, claves privadas, algoritmos, libros digitales, módulos de software, etc., son producto de un procesamiento, ya sea este automático o manual, y por tanto ya incluyen un valor definido.

Cuando se habla del valor de los bits dependiendo de su destino, la historia es diferente. Aquí no se habla de un valor concreto sino más bien de un valor potencial. No se trata de un producto terminado y listo para ser utilizado, sino que se trata de materia prima o "bits en bruto" que deben ser procesados para obtener un producto final. En este caso es más complicado hablar de un valor, sea este objetivo o subjetivo, pues quien establecerá ese valor no es solo la naturaleza de la información contenida, sino la eficiencia y sofisticación de los procesos con que estos bits van a ser tratados.

La fuente más prometedora y con el mayor potencial a nivel de bits como materia prima es sin duda el Open Data o los datos abiertos. El Open Data Institute ODI, cofundado por Sir Tim Berners-Lee en 2012 hace referencia a algunos estudios que presentan datos interesantes sobre el valor de la utilización de datos abiertos a nivel mundial.

Por ejemplo, en Estados Unidos los datos liberados de Lansat habrían generado ahorros de entre 350 y 436 millones de dólares. En este mismo país una empresa de Open Data se habría vendido por 930 millones de dólares.

Por otro lado, un estudio del European Data Portal que indica que en la EU28+ la utilización de datos abiertos habría reducido los costos asociados con la administración pública en un estimado de 1.7 billones de euros además de ahorrar alrededor de 629 millones de horas de trabajo innecesario.

Así mismo, un estudio de McKinsey de 2013 muestra que el Open Data podría ayudar a liberar entre 3 y 5 trillones de dolares anuales en 7 sectores de la economía.

Estas cifras dan una idea del valor de los bits, del valor de la información y de su enorme impacto en la economía mundial.

Open Data es más que transparencia

La transparencia surge de forma espontánea del Open Data. El hecho de declarar un set de datos como Open Data es por sí mismo un ejercicio de transparencia. Sin embargo no son sinónimos y por tanto no deberían ser el único fin que persiguen las instituciones gubernamentales.

En múltiples reuniones de trabajo, charlas y conferencias en las que se menciona Open Data se habla de transparencia de forma casi exclusiva, y esto va generando una incómoda sensación de paranoia con respecto a la liberación de datos, va degradando el concepto de los datos abiertos hasta dejarlos reducidos a una simple herramienta de control de gasto público.

En nuestra región este tipo de conceptos errados respecto al Open Data ha desnaturalizado tanto su principio fundamental que Open Data se considera un sinónimo de Open Government. Ambos conceptos son equivalentes en muchos ámbitos y tienen principios similares, sin embargo el Open Data es más amplio y no se puede tratar como una simple política de control gubernamental.

Los datos liberados por las instituciones gubernamentales o privadas deben ser vistos como lo que realmente son, como materia prima, como un insumo primordial con el que existe la posibilidad de desarrollar múltiples productos y servicios enfocados no solamente en transparencia sino además en productividad.

Productividad a partir de Open Data es un concepto que los gobiernos de la región deben empezar a desarrollar con mayor decisión, apoyo y convicción. Tristemente es algo que hasta el momento no se ve y a lo que se ha prestado una atención muy marginal. A nivel de tecnologías de información las consecuencias de no tomar las decisiones correctas en el momento correcto nos dejarán nuevamente en una posición del tipo "las venas abiertas de América Latina", y esta vez no serán lamentos por el oro, la plata o el azúcar, sino por un recurso menos tangible pero más poderoso, nuestros datos.

A nivel de todo el mundo surgen cada día nuevas herramientas capaces de procesar la información con niveles de sofisticación que nunca antes se habían conseguido. La Inteligencia Artificial y la Minería de Datos extraen valor de grandes "minas de información" de manera cada vez más eficiente y el Big Data es una herramienta que cada vez se hace más común en las empresas.

Bajo estos precedentes y en este contexto resulta irónico, ridículo y hasta indignante que en nuestro entorno se hable de Open Data de forma tan tibia y apenas pensando en transparencia como un gran logro.

Materia prima para una nueva revolución industrial

Estamos parados en medio de una nueva revolución industrial de la que tal vez no somos de todo conscientes. En esta nueva revolución los datos ya no constituyen el valor agregado, sino que son la materia prima.

Conseguir que los gobiernos de nuestra región lleguen a entender este concepto puede ser la piedra angular para garantizar el desarrollo de la sociedad en esta nueva era de información. Una idea que puede parecer tan simple y básica sin embargo tiene un gran alcance y requiere de un cambio total de mentalidad y conceptos para muchas instituciones, empresas y sobre todo la misma sociedad.

Existen varios pasos a seguir para que este concepto se concrete y los datos puedan ser utilizados efectivamente como materia prima.

El primer paso es definir los sets de datos que pueden y deben ser liberados tanto por empresas como por instituciones. Así mismo se deben establecer los criterios a través de los cuales un set de datos se puede considerar como apto para ser liberado. Esta parte puede ser compleja desde el punto de vista de la negociación, pues tradicionalmente las empresas e incluso las instituciones se creen dueñas de toda la información que generan, un concepto que debe discutirse y modificarse.

El segundo paso es garantizar la generación de materia prima, esto implica que las actividades y procesos realizados por las empresas y entidades gubernamentales deben llevar asociados procesos virtuales que se conviertan en fuentes de datos. Dichos datos deben respetar criterios que garanticen su reusabilidad (formatos apropiados) y que aseguren su calidad.

El tercer paso es el favorecimiento de la adopción de tecnologías que permitan un flujo libre, constante y predecible de datos por parte de empresas e instituciones. Este paso puede incluir el mejoramiento de la infraestructura de red y servicios tecnológicos de las empresas e instituciones. Es chocante escuchar que ciertas entidades hablan de que tienen datos abiertos porque tienen página web. Esta miopía tanto técnica como conceptual debe ser corregida.

El último paso es involucrar en este proceso a participantes claves de la sociedad para construir una industria sobre los sets de datos disponibles y los que seguirán liberándose. Dichos participantes deben incluir a la academia, las empresas de tecnología, expertos, aficionados y entusiastas. La realización de eventos como hackatones y ferias tecnológicas generan expectativa y pueden dar un impulso a iniciativas frescas, nuevas e interesantes.

En resumen, se deberían seguir al menos cuatro pasos de la siguiente manera:

Exploración y liberación de datasets de interés.
Establecimiento de mecanismos para asegurar la generación, disponibilidad y continuidad de los datasets.
Establecimiento de mecanismos de distribución masiva y eficiente de los datasets.
Levantamiento de una industria destinada a explotar y extraer valor de los datasets.

Vale indicar que estos pasos pueden ser parte de un ciclo constante, pues a cada momento pueden surgir nuevos datasets de interés y puede haber nuevos interesados en agregar valor.

¿Hacia dónde mirar ahora?

La industria de los datos gana cada vez mayor terreno y existen innumerables ejemplos de casos de éxito con la liberación de datos. Sin embargo es importante que no se centre la mirada exclusivamente en soluciones llave en mano ni en empresas que nos ofrezcan todo de la manera fácil y con recetas casi mágicas.

La historia nos ha dejado amargos ejemplos de lo que implica convertirnos en simples consumidores de servicios y tecnología como sucedió en su momento con el boom petrolero o con las industrias mineras o agrícolas.

Una gran ventaja que presenta el mundo globalizado de hoy es que todos tenemos accesos a la tecnología de diferentes formas. No debemos conformarnos con ser consumidores sino que debemos garantizar nuestra posición como productores y como exploradores de nuestros propios sets de datos basados en nuestros intereses y necesidades como región y como sociedad.

Eduardo Galeano cita como frase inicial de su libro de Las Venas Abiertas De América Latina "hemos guardado un silencio bastante parecido a la estupidez". Quizás es la única frase con la que realmente concuerdo en esta obra, pues refleja lo que muchos gobiernos de nuestra región hacen en la actualidad con respecto a la nueva revolución industrial: guardan silencio. O en ocasiones hablan en forma tibia o sin fundamento, lo que resulta tanto o más nocivo que guardar silencio.

Como referencias a seguir y como documentos a tomar muy en cuenta me gustaría dejar los siguientes links:

El Open Data Institute:
http://theodi.org/

El Open Data Barometer:
http://opendatabarometer.org/

El Open Data Index de la Open Knowledge Fundation:
http://index.okfn.org/dataset/

El reporte de McKinsey sobre la liberación de valor con el Open Data:
http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/open-data-unlocking-innovation-and-performance-with-liquid-information

Un estudio de la Comisión Europea sobre la generación de valor a partir del
Open Data:
http://www.europeandataportal.eu/sites/default/files/edp_creating_value_through_open_data_0.pdf

lunes, 3 de octubre de 2016

Big Data y ventanas al futuro

Un mundo paralelo

Con cada click, con cada toque de la pantalla, con cada palabra que digitamos, con cada site que visitamos, con cada comentario que emitimos estamos dejando una huella inconfundible de quienes somos, nuestros gustos, nuestros deseos, nuestros temores, lo que hacemos, con quién estamos e incluso por qué. Cada vez que clicamos inocente y alegremente la pantalla estamos dejando reflejada una parte de nosotros mismos.

Hablar de esto no es un simple desahogo de paranoia o de rebeldía contenida, es una realidad muy tangible. No se trata de entrar en pánico, aislarse o tratar de "destrozar el sistema", es más bien un recordatorio de algo con lo que debemos convivir, de lo que debemos ser conscientes y a cuyas reglas, nos gusten o no, estamos sujetos.

La Internet es casi un mundo paralelo, un complejo y rico ecosistema en el que nuestros egos más profundos cobran vida e interactúan de mil maneras tanto entre ellos como con su entorno. Y es que se debe aceptar el hecho de que a nuestros computadores, smartphones y más dispositivos, y con ellos a la Internet, hemos confiado información que consideramos confidencial, sensible, privada. Pensemos un momento en lo que nuestros aparatos contarían sobre nosotros si pudieran hablar. Ese es precisamente el asunto, pues nuestros aparatos ciertamente "hablan", y esa es en parte la esencia del Big Data.

Las 3 V's del Big Brother

Existen múltiples definiciones y conceptos sobre Big Data, siendo quizá el enfoque que ofrece Gartner el más preciso: las 3 V's por Volumen, Variedad y Velocidad. Esto implica que Big Data agrupa a todas aquellas tecnologías que tienen la capacidad de procesar grandes volúmenes de datos, de variadas fuentes y formatos, a gran velocidad. Por ejemplo: nuestros datos personales.

Bajo esta perspectiva "Big Data" llega a convertirse en un eufemismo para algo así como Big Brother. Pensar que Big Data nos puede llevar a la sociedad distópica de 1984 de George Orwell es una idea exagerada y no menos escalofriante, pero tampoco es del todo descabellada.

Se podría pensar que al manejar nuestra información solamente en páginas seguras, utilizando contraseñas complejas, evitando aplicaciones de dudosa procedencia, limpiando regularmente nuestros navegadores, etc., se podrá mantener la confidencialidad de nuestra identidad en la red. Si bien es cierto todas estas medidas ayudan en la red, y de hecho son medidas indispensables de seguridad, el Big Data está más allá y puede "desenmascarar" nuestra identidad.

Uno de los grandes dilemas con el Big Data es que su gran capacidad de procesamiento de información puede llegar a trazar una especie de huella digital de nosotros. Cada día, mientras navegamos o utilizamos aplicaciones móviles, informamos quiénes somos pues implícitamente estamos respondiendo decenas de preguntas y tomando decenas de decisiones que quedan registradas en un historial al que grandes sistemas de información como Google, Amazon, Facebook, Twitter, etc., tienen acceso en forma casi ilimitada. Pensemos en el potencial que tiene toda esa información combinada.

Uno de los argumentos con los que las empresas e instituciones recopilan información sobre nuestra actividad es la optimización o personalización de la experiencia en la red, para ofrecernos productos y servicios más ajustados a nuestras expectativas. En parte esto es cierto, sin embargo no es menos cierto que la personalización de un sitio requiere que el sistema nos conozca y en cierto modo se adelante a nuestros requerimientos. Es un juego psicológico, recibimos lo que esperamos dando pistas sobre quiénes somos todo el tiempo.

Juego del subconsciente

En 2002 es psicólogo estadounidense Daniel Kahneman ganó el premio Nobel de Económia por sus trabajos sobre la forma en que decidimos. Demostró que nuestra noción de decisiones voluntarias muchas veces no es más que un artificio de nuestra mente para hacernos creer que tomamos decisiones que en realidad son tomadas por nuestro subconsciente. Esto explica por qué muchas de nuestras decisiones, y no solamente las triviales sino también las críticas e importantes, pueden ser tan irracionales o incomprensibles.

Kahneman estableció que nuestras decisiones dependen de una compleja interacción entre dos mecanismos: uno automático, de respuesta casi inmediata y del que de hecho depende nuestra supervivencia, y uno consciente, no automático, cuya respuesta muchas veces requiere un gran esfuerzo y tomar papel y lápiz. El truco en nuestra mente está en que muchas decisiones que podríamos apostar hemos tomado con una gran dosis de razonamiento no son tomadas en forma consciente, sino que son ejecutadas en forma automática por el primer mecanismo, y por tanto se trata de respuestas que ofrece nuestro subconsciente. Esto deja un vacío que luego se llena en nuestra mente dándonos la ilusión de que hemos decidido, cuando en realidad nunca fue así.

Ahora bien, decisiones triviales e importantes pueden seguir el camino del mínimo esfuerzo y ser tomadas en forma automática convirtiéndonos por ejemplo en compradores compulsivos, o en sujetos desconfiados. Este comportamiento es exhibido abiertamente en muchos sitios de la red, como en sitios de juegos y de compras en línea.

Si se recopila y procesa toda la información relacionada con nuestra toma de decisiones y preferencias se va generando una imagen única, una huella digital que dice mucho sobre nosotros, tal vez más de lo que nos gustaría.

Incontables fuentes de datos

A los datos derivados de nuestro comportamiento en la red hay que sumarle información adicional como datos biométricos. Pues sí, los sistemas que utilizamos pueden obtener información como nuestra velocidad escritura en el teclado, nuestra velocidad de lectura, la cantidad de horas que podemos pasar frente al computador, nuestro nivel de actividad, etc.

Los micrófonos y cámaras de nuestros equipos además registran imágenes y sonidos de nosotros y de nuestro entorno. Y no es necesario que nos espíen o lo hagan sin nuestro conocimiento pues registramos mucha información de estos dispositivos en forma totalmente libre y voluntaria.

Las tecnologías móviles aportan más datos, pues además permiten registrar nuestra ubicación geográfica y todos nuestros movimientos, desde nuestra rutina diaria hasta nuestros recorridos clandestinos.

Finalmente está toda la información que libre y voluntariamente colocamos en la red como publicaciones en redes sociales, comentarios, estados de ánimo, búsquedas en navegadores, nuestros registros en diferentes sitios, etc., etc. Para hacerse una idea, en el mundo actualmente se generan en un solo día alrededor de 500 millones de tweets, se realizan 3.5 billones de búsquedas en Google, se observan alrededor de 6 billones de vídeos en Youtube, se envían aproximadamente 102 billones de emails y se navega por alrededor de 1 billón de sitios web por nombrar solamente algunas de las estadísticas.

Big Data tiene la capacidad de consolidar, almacenar, y procesar información asociada con toda esa actividad agregándole un valor enorme. Imaginen lo valioso que puede ser para cualquier empresa conocer los hábitos de compra y la psicología de sus clientes, comprender por qué el mercado presenta ciertos comportamientos, y más aún, poder predecir el impacto de sus estrategias comerciales y ajustarlas sobre una base de información real y concreta. El Big Data es una herramienta que sin duda está transformando a las empresas y redefiniendo su forma de competir en el corto plazo.

El Tío Ben nos lo había advertido

Más allá de los temas puramente comerciales existe un potencial enorme, la información puede ser utilizada en otros ámbitos. Por ejemplo en planificación urbana, servicios de salud y medicina, preparación de planes de emergencia y desastres, gobierno y servicios públicos, movilidad y transporte, educación, etc. Planificar, desarrollar y controlar sobre una base de información concreta, coherente y altamente correlacionada puede significar un ahorro de tiempo y recursos incalculable. Bajo estas condiciones Big Data puede convertirse en una herramienta de desarrollo de gran valor, pero también con mucho poder. Y bueno, como dijo Franklin D. Roosevelt en uno de sus discursos ( y lo imprimió Stann Lee en la célebre frase del Tío Ben a Peter Parker) un gran poder conlleva una gran responsabilidad.

El poder del Big Data radica en que además de información valiosa para la planificación y para el desarrollo de estrategias a gran escala, existe la posibilidad de ir refinando el procesamiento a un nivel altamente granular partiendo de una escala global a escala de países, de ciudades, de barrios, de sectores y finalmente de individuos. Es esta capacidad de refinamiento la que levanta las alarmas en muchos sectores.

Por un lado está el desbalance que puede provocar una herramienta con tanto poder entre naciones y sectores de la sociedad. Quienes disponen de la tecnología, los medios y el conocimiento pueden fácilmente dominar y adelantarse a otras naciones y sectores, aumentando las brechas existentes.

Por otro lado está la inherente invasión a la privacidad. Si la información puede ser desmenuzada a nivel de individuos todos estamos sujetos a la observación y posible juicio de nuestro comportamiento. Esa incómoda sensación de que nos están observando deja de ser una simple sensación y se convierte en una escalofriante realidad.

Riesgo y oportunidad

El término Big Data es relativamente nuevo. Apareció por primera vez en 1997 en un artículo de Michael Cox y David Ellsworth que trataba sobre la visualización de grandes volúmenes de datos y los problemas que esto conlleva debido al consumo exhaustivo de memoria, disco y recursos computacionales.

Desde entonces la utilización de tecnologías de computación distribuida y el notable incremento en el poder computacional de los equipos han ido resolviendo poco a poco los problemas relacionados con el manejo de la carga computacional que implica el manejo de grandes volúmenes de información, hasta alcanzar en la actualidad un cierto nivel de madurez que le ha permitido extenderse y estar cada vez más al alcance de todos quienes se interesen por este tipo de tecnologías. Así por ejemplo, Hadoop, la herramienta de almacenamiento distribuido más difundida es software libre, al igual que sucede con herramientas de procesamiento estadístico sofisticado y visualización como R o plataformas minería de datos y aprendizaje de máquinas como Weka.

De la mano del Big Data están tecnologías como la Inteligencia Artificial y la Minería de Datos que hacen posible obtener valor de la información y generar productos en forma de interpretaciones, predicciones y herramientas para toma de decisiones. En cierto modo todas estas herramientas son motivadas por un deseo humano más profundo, la predicción del futuro. Desde obscuros rituales, pasando por oráculos y potentes alucinógenos hasta complejas interpretaciones cuánticas del universo, uno de los grandes sueños del hombre es tener una ventana del futuro que nos permita quizás reformular nuestro presente. Lo más cercano y real que tenemos a abrir estas ventanas al futuro es el aprovechamiento del Big Data.

Desde esta perspectiva el temor del Big Brother se desvanece, pues la tecnología de Big Data no es una tecnología exclusiva de ciertas élites, sino que está al alcance de todos, y como humanidad, todos tenemos de alguna manera los mismos anhelos en cuanto a nuestra necesidad por visiones del futuro.

El verdadero reto de Big Data entonces no es esconderse, escudarse y aislarse, sino integrarse inteligentemente como participantes activos, dispuestos a jugar en un terreno en el que existen nuevas reglas, muchas de las cuales recién se empiezan a entender y escribir. El análisis de información a nivel de Big Data es casi un terreno virgen en el que los más osados van tomando la delantera, y en el que, si queremos integrarnos, debemos participar. No se trata de asustarse, quejarse y lamentarse, sino de desarrollar, lanzarse y arriesgarse, no dejar que otros escriban las reglas por nosotros sino luchar por que se respeten nuestras reglas y nuestros puntos de vista.

El primer paso es que nosotros mismos entendamos que navegar por la red tiene riesgos, pero también oportunidades. Debemos hacer entender esto a nuestras autoridades, a nuestros gobernantes, muchos de los cuales desafortunadamente son completamente ignorantes o sencillamente no tienen interés en este tipo de tecnologías.

Alguien dijo que si los servicios son gratuitos en la Internet es porque nosotros somos los productos. En el mundo del Big Data es nuestra gran oportunidad para dejar de ser simples productos.

sábado, 25 de junio de 2016

Open Data, un concepto que aún no despega en el país

La accesibilidad a la información proveniente de la gestión de entidades públicas y privadas ha sido siempre un elemento fundamental para garantizar la transparencia gubernamental en las sociedades democráticas. Siempre se ha hablado del poder que conlleva la información. Entonces, hablar de Open Data o Datos Abiertos en principio no es un concepto novedoso.

¿Qué exactamente es Open Data? Pues bien, es ante todo una filosofía que busca garantizar que la información generada y administrada, por entidades públicas e incluso privadas, sea difundida de manera igualitaria y sin discriminación entre todos los actores de la sociedad. Adicionalmente, Open Data incorpora conceptos tecnológicos, o derivados de estos, que buscan asegurar que los datos sean liberados bajo ciertos parámetros indispensables mínimos.

Para entender los conceptos tecnológicos involucrados con Open Data es importante considerar el hecho de que la capacidad de almacenamiento, transferencia y procesamiento de información ha experimentado un dramático crecimiento en las últimas tres décadas. Un artículo publicado por Matin Hilbert de la USC University of Southern California en 2012 señala que en el período de 1986 a 2007 la capacidad de almacenamiento y transferencia de información tuvo un crecimiento anual entre 25% y 30%, lo que es aproximadamente 5 veces mayor al crecimiento económico mundial en ese mismo período. Por su parte, la capacidad de procesamiento de información tuvo un crecimiento aún más notorio, entre 60% y 85% cada año.

En la actualidad, de acuerdo con www.internetlivestats.com, un sitio de estadísticas globales de uso de internet, en el mundo existen más de 3000 millones de usuarios de internet, se realizan más de 4000 millones de búsquedas diarias en google, se generan más de 540 millones de tweets diarios, se se publican más de 3 millones de blogs por día, entre otras cifras. Esto genera un tráfico del orden de los 3 exabytes diarios.

La gestión y procesamiento de tales volúmenes de información ha sido posible en gran medida gracias al surgimiento y desarrollo de nuevos conceptos, esquemas y filosofías, entre ellos Open Data, cuya relevancia ha impulsado alrededor del mundo el surgimiento de múltiples iniciativas destinadas a fomentar la apertura y difusión pública de la información generada y administrada por las entidades gubernamentales .

En este sentido, una de las iniciativas más importantes es la Alianza para el Gobierno Abierto OGP (Open Government Partnership) www.opengovpartnership.org, lanzada en 2011 con 8 países y cuyo número ha crecido hasta 64 en la actualidad.

Para que un set de datos sea considerado Open Data, debe cumplir con ciertos parámetros enfocados en la accesibilidad, la disponiblidad y la usabilidad de la información. Así, la World Wide Web Foundation webfoundation.org, organización fundada por Sir Tim Berners-Lee, establece que los sets de datos abiertos deberían tener las siguientes caracteristicas:

Disponible en línea con el fin de permitir el acceso a una amplia varidad de usuarios y usos.
Licenciamiento abierto de modo que cualquier persona tenga permiso para utilizar y reutilizar los datos.
Legible por máquina, de modo que los sets de datos pueden ser analizados de manera eficiente por otras máquinas.
Disponible en volumen de modo que pueda descargarse como un único set completo de datos para ser analizado fácilmente por otras máquinas .
Libre de pago para que cualquier persona pueda obtenerlo sin importar su presupuesto.

Estas características son establecidas de acuerdo con la "Open Definition", un proyecto de Open Knowledge Foundation okfn.org, organización dedicada a establecer y promover lineamientos para la filosofía Open.

El Open Data en el Ecuador es un concepto que ha ido tomando forma poco a poco, aunque aún no se entienda en toda su dimensión ni se visualice su verdadero potencial. Sin duda es un tema que si no se discute al menos se menciona en las entidades públicas. Tanto es así que en 2014 la Secretaría Nacional de la Administración Pública (SNAP) publicó su Guía de Datos Abiertos.

Por su parte, el Sistema Nacional de Información (SNI) sni.gob.ec ofrece múltiples sets de datos a los que se puede acceder en forma libre, aunque sin un licenciamiento formal ni un esquema muy claro. Adicionalmente, dispone de un enlace específico de Datos Abiertos que lleva hacia el Archivo Nacional de Datos y Metadatos Estadísticos (ANDA) anda.inec.gob.ec.

La percepción general respecto al Open Data en el Ecuador es que no existe un esquema muy ordenado ni una estrategia clara sobre los datos abiertos. Los objetivos aparentemente se centran en la transparencia de la gestión gubernamental y en análisis estadístico de información histórica. No obstante su enfoque productivo, al menos desde el punto de vista práctico y técnico, es incipiente, obsoleto o nulo.

Esta percepción se puede evidenciar a través de dos indicadores que tienen por objetivo la evaluación del desarrollo y desempeño del Open Data a nivel mundial: el Open Data Barometer opendatabarometer.org publicado por la World Wide Web Foundation y el Global Open Data Index index.okfn.org/place/ publicado por Open Konwledge.

El Open Data Barometer está compuesto por 10 indicadores que se evalúan 3 parámetros: preparación, implementación e impacto. En 2015 el Ecuador ocupó la posición 42 entre 92 países y tuvo una caída de 4 posiciones respecto al 2014. Analizando los valores se observa que las calificaciones más bajas corresponden a los indicadores de Impacto. Es decir, que a pesar de existir el entorno y la implementación de datos abiertos, la capacidad de utilización de este recurso es muy baja y por tanto no genera un impacto significativo.

http://opendatabarometer.org/data-explorer/?_year=2015&indicator=ODB&open=ECU

El Global Open Data Index está compuesto por 13 indicadores que se evalúan con 9 parámetros a través de los que se califica la disponibilidad, accesibilidad, y usabilidad de los sets de datos. En 2015 el Ecuador ocupo la posición 58 entre 122 países cayendo 14 posiciones respecto al 2014. Analizando estos indicadores para el Ecuador se puede observar que el principal problema de los sets de datos es la falta de licenciamiento y la falta de disponibilidad de sets completos de datos lo que obliga a los usuarios a descargar la información por partes.

En cuanto a la Alianza para el Gobierno Abierto, el Ecuador no forma parte de los países miembros, quedando así aislado de los esfuerzos colaborativos que se hacen a nivel mundial con respecto a los datos abiertos. Cabe indicar que los países de la región que no forman parte de esta alianza además de Ecuador son Bolivia, Venezuela, Guyana, Surinam y Nicaragua.

En conclsión, el Open Data en el Ecuador es una idea aún muy imprecisa, que no se ha considerado en toda su dimensión por parte de entidades públicas ni privadas. Carece de formalidad incluso en los principios básicos que rigen a los Datos Abiertos. El entorno actual no favorece su desarrollo convirtiendo al Open Data en un simple cliché tecnológico carente de planes y objetivos.

Si bien es cierto, el panorama no parece muy alentador, por otro lado existe la presión que ejerce la tecnolgía así como el surgimiento de nuevas necesidades por parte de los ciudadanos. A pesar de no existir conceptos formales y claros, y a pesar de la miopía de muchas autoridades y empresas con respecto a este tema, al menos existe una idea de lo que significa Open, y esta sola idea es capaz de ir abriéndose paso a medida que va cambiando la mentalidad de la gente.

En la era de la información el Open Data es materia prima, y sirve de insumo no solamente para alimentar los procesos de búsqueda de transparencia, sino como un recurso que puede generar toda una industria a su alrededor. Si no somos capaces de entender y aprovechar nuestros propios datos, sin duda alguien más lo hará, y así el Ecuador abrá perdido una valiosa oportunidad.

jueves, 14 de abril de 2016

Código Ingenios y su intento por redefinir el software

Luego de un largo descanso, de hecho demasiado largo, he decidido regresar a estas líneas teniendo como disparador el asunto del "Código Orgánico de la Economía Social de los Conocimientos la Creatividad y la Innovación", mejor conocido como Código Ingenios, el cual al tiempo de escribir esta entrada se encuentra en su fase de Consulta Prelegislativa.

En forma general, este Código se enfoca en el Conocimiento como un bien capaz de generar desarrollo en el país. En realidad su ámbito es bastante amplio y abarca conocimientos que incluyen saberes ancestrales, diversidad biológica, obras literarias, software, hardware, etc. Es relevante para este blog, pues se relaciona estrechamente con la innovación, la tecnología y el desarrollo.

En macro tiene aspectos muy interesantes, que lo hacen atractivo desde el punto de vista del desarrollo y el conocimiento, y sin duda tiene una gran ideología. Sin embargo, a nivel de definiciones de hardware y software que es el campo que compete a este blog, no tiene un respaldo sólido, llegando a resultar ambiguo, confuso y carente de verdaderos criterios técnicos.

Recorrer artículo por artículo y hacer observaciones puntuales resulta demasiado largo y aburrido para un blog, así que voy a agrupar sus deficinencias en siete ideas principales:

Intenta realizar definiciones de software y hardware que resultan bastante limitadas, estáticas, monolíticas, incapaces de adaptarse a la evolución y ritmo de desarrollo de las tecnologías de la información y comunicación.
Intenta establecer esquemas de licenciamiento enfocados en la creatividad, pero su contenido presenta mucha ambigüedad y ligereza, y no toma en cuenta que en todo el mundo existen esquemas de licenciamiento completamente funcionales y maduros, y aun así en constante evolución, y que abarcan toda actividad de desarrollo de software, sea este privativo o libre. Software libre no significa gratuito (Free as freedom, not as free beer!).
Intenta establecer derechos para desarrolladores como si se tratase de una obra literaria, sin tomar en cuenta que el software como producto final no es la "obra" de una sola persona, sino de un equipo de trabajo en el que se pueden involucrar desarrolladores independientes, empresas, software con diferentes tipos de licencias, algoritmos de diferentes fuentes y módulos "prefabricados" que dispondrán de licencias propias.
Intenta imponer el uso de software libre de una manera forzada. Sin duda el software libre genera una gran oportunidad de desarrollo, pero vale recordar que también tiene sus propios modelos de negocios y desarrollo que deben ser explorados y explotados. Además, por principio, si el software es libre no puede ser obligatorio. Los intentos por imponer lo libre resultan en fracasos como en su momento sucedió con el middleware Ginga en ISDBT.
El hecho de no establecer esquemas de licenciamiento claros y compatibles con los esquemas que ya existen y se respetan en todo el mundo, aísla severamente al software desarrollado en el Ecuador y anula su potencial de internacionalización y exportación. Si queremos software exportable, debe cumplir los esquemas de licenciamiento que se respetan en todo el mundo, libres o privativos. No se puede exportar software pirata con la bandera de software libre.
Puede llegar a ser atentatorio contra el software privativo. Defender el software libre no implica atacar al privado. El software libre actualmente no necesita que se lo lleve de la mano ni a empujones; simplemente hay que fomentar su competencia con el privativo y dejarlo avanzar. Una vez más, vale recordar que tanto el software libre como el privativo tienen sus propios modelos de negocio.
El Código habla de softwre libre y privativo como de blanco y negro, cuando en realidad existe una compleja gama de esquemas intermedios interrelacionados por diferentes conexiones que permiten y restringen su utilización a diferentes niveles. El software como producto final puede ser una compleja mezcla de esquemas de licenciamiento.

Para ejemplificar, si el software privativo no es permitido, los desarrolladores no podrán utilizar JAVA, pues este lenguaje tiene una licencia restrictiva, la Oracle Binary Code License, en la que se restringe explícitamente cualquier actividad de ingeniería inversa y análisis o modificación de su fuente. Sin embargo, cualquier desarrollador lo puede utilizar en forma libre para desarrollar su propio software, el que puede tener licencias restrictivas o libres dependiendo de su criterio. Entonces, tenemos un componente restrictivo, el lenguaje de programación, y un componente que puede ser libre, el programa desarrollado. Desafortunadamente, si se sigue al pie de la letra, el Código Ingenios no es compatible con este tipo de desarrollo.

Ahora bien, hay quienes dirán, si Java es software privativo dejamos de utilizarlo y podremos emplear lenguajes con licencias libres. Esta parte es en realidad la más compleja, pues hablar de software libre no significa que sea gratuito y que no tenga licencia. Por el contrario, el software libre tiene un complejo esquema de licencias que va desde las altamente permisivas hasta las altamente restrictivas. El siguiente diagrama muestra de forma básica los esquemas de licenciamiento libre.

Floss license slide, showing connections from public domain to MIT, MIT to BSD-new, BSD-new to Apache and various versions of LGPL, LGPL to GPL, and GPL version 3 to Affero GPL version 3

Las flechas indican la "ruta de compatibilidad", así por ejemplo si se realiza un desarrollo con un paquete licenciado con Apache 2.0 y otro con LGPLv2.1+, el resultado debe ser licenciado con LGPLv3, caso contrario se están infringiendo las licencias de los paquetes utilizados. El software desarrollado sin estas consideraciones puede tener problemas para ser comercializado, principalmente para la exportación.

En conclusión, lo que realmente debería importar en el país para fomentar el desarrollo y la industria del software es que se entiendan con claridad y que se respeten los esquemas de licenciamiento que ya existen en todo el mundo. Todo software, libre o privativo, incluyendo los lenguajes de programación, tiene asociada una licencia en la que se establecen con claridad sus permisos y restricciones. No hay más que entenderlas y respetarlas, no es necesario redefinirlas ni inventar términos forzados. Tampoco es viable que las instituciones del estado obliguen a utilizar software libre sin comprender bien sus implicaciones y sus alcances.

El intento por redefinir el software del Código Ingenios resulta por tanto un esfuerzo innecesario.