#Datos: el impacto de las nuevas tecnologías

3 octubre, 2016 • Artículos, Asuntos globales, Portada • Vistas: 9085

Getty Images

Getty Images

avatarDefault Adolfo J. De Unánue T.

Octubre 2016

La convergencia de distintas tecnologías enfocadas en el uso de datos han tenido un importante impacto en la vida diaria. Estas tecnologías se pueden clasificar -de manera muy artificial- en tres grandes categorías: generación de datos (sensores en todas sus formas: físicos y virtuales), tratamiento de los datos (abaratamiento del almacenamiento, capacidad de cómputo y RAM; su mejor encarnación es lo que se conoce popularmente como «la nube») y generación de información a partir de los datos (algoritmos). Por sí solos, cada uno de estos avances tecnológicos han sido transformadores, pero la aceleración tecnológica que se observa hoy se debe a la utilización conjunta de las tres y a como ellas se retroalimentan entre sí, acelerando este proceso.

Esta retroalimentación no ocurre en el vacío, hay por lo menos dos habilitadores de corte tecnológico y social: el internet y el movimiento de software libre o abierto. En su conjunto, estas cinco tecnologías se conectan, usan, y se distribuyen usando la red física y social que conecta a más de la mitad de las personas del planeta, a los hogares, a las empresas y a los gobiernos de todo el mundo. Los cambios de los cuales la humanidad ha sido testigos en los últimos años, por mencionar algunos, abarcan desde la explosión del uso del internet, la migración de la comunicación a las redes sociales, sistemas que adivinan nuestros gustos y hacen recomendaciones de libros, películas y amigos, mediciones a nivel personal, hasta drones, automóviles que se manejan solos y máquinas que derrotan a campeones mundiales en el ancestral juego del Go.

Al describir estos cambios, términos como big data, minería de datos, aprendizaje de máquina, ciencia de datos son usados constantemente y de manera muy vaga o equivocada. Trataré de dar definiciones que los aclaren: big data es el conjunto de tecnologías (hardware y software) que habilitan el procesamiento de datos que pueden ser calificados de grandes (volume), rápidos (velocity) y variados (variety). Minería de datos es la práctica de encontrar patrones (patterns) en las fuentes de información, esto incluye descubrir nuevas perspectivas de los datos (estructuras, ontologías, variables) que pueden resultar valiosas por si mismas o para ser utilizadas como piezas de un algoritmo posterior.

Aprendizaje de máquina agrupa a los algoritmos -principalmente de corte estadístico- que aprenden a detectar de manera automática patrones en un conjunto de datos, previamente procesados, llamados de entrenamiento. Este «aprendizaje» genera una instancia del algoritmo que puede ser utilizada para decidir si el patrón existe en nuevos datos -del mismo tipo que los del conjunto de entrenamiento- que se le presenten. Se puede decir, de cierta manera informal, que los algoritmos de aprendizaje de máquina generan programas que detectan patrones basados en los datos disponibles, en lugar de que un humano genere una serie de reglas para tratar con todos los casos posibles.

Es importante mencionar que estos términos, como área de conocimiento y práctica, se alimentan uno del otro. Por ejemplo, la eficiencia del aprendizaje de máquina depende, entre otros, de dos cosas: entre más datos, mejor funciona el algoritmo, y si los datos se presentan en una forma que facilite el aprendizaje, también mejorará el algoritmo. El primer factor implica big data, el segundo, minería de datos.

Getty Images / Peter Macdiarmid

Getty Images / Peter Macdiarmid

Queremos utilizar estas técnicas para entender y utilizar a nuestro favor los sistemas que no podemos describir completamente, o que su descripción completa no ayuda a su control o predicción. Regularmente estos sistemas están formados de sistemas (system of systems) o entes que están fuertemente conectados entre sí y que son muy sensibles a cambios, también presentan comportamiento emergente debido a esas conexiones. El nombre de estos es sistemas complejos adaptativos. Ejemplos de estos pueden ser la sociedad, el internet, el tráfico, la economía[1], una empresa, un conjunto de empresas y sus relaciones, una empresa y sus clientes, patrones de compra, el clima, el conjunto de leyes y códigos, el gobierno, la corrupción, las redes sociales, las revoluciones, crimen organizado, la cadena de producción mundial de una empresa, y otras más. No solo son los fenómenos sociales los que pueden ser clasificados así, si no también los sistemas creados (enginereed) por humanos: la red de telecomunicaciones, los sistemas financieros, el conjunto de software que permite el funcionamiento del banco, entre otros. Una de las maneras de tratar de lidiar con estos sistemas es capturar (mediante sensores) los datos que emiten y procesarlos para tratar de entenderlos.

La ciencia de datos usa las técnicas de big data, minería de datos, Aprendizaje de máquina entre muchas otras, para la creación de un sistema que consume («observa») datos generados por un sistema -como los mencionados en el párrafo anterior-, los procesa, y emite información (basada en la identificación de patrones), que pueda ser utilizada por un actor para tomar decisiones que resulten en acciones sobre el sistema en cuestión. Es decir la retroalimentación (feedback) es una realidad que debe de tomarse en cuenta de manera explícita al desarrollar los productos de datos.

Al actuar sobre el sistema, este reaccionará, y se adaptará a las nuevas condiciones, lo cual ocasionará una perturbación o la destrucción del patrón que se había encontrado, por lo cual será necesario repetir este ciclo. De ahí la pertinencia de la construcción de un sistema que continuamente se esté observando y adaptando al sistema que interesa. El sistema construido usando la ciencia de datos es conocido como producto de datos. Se puede decir que el objetivo del científico de datos, es construir los productos de datos.

Un ejemplo puede ayudar a entender esto. Supóngase que quiere desarrollar un sistema para prevenir algún comportamiento fraudulento. Esto significa distinguir el comportamiento de sus clientes de los defraudadores en el sistema. El sistema en cuestión es el conjunto de personas y su interacción con los puntos de contacto de su organización. Primero, debe de colocar «sensores» que lo ayuden a observar este comportamiento del sistema (puede utilizar los puntos de contacto de su organización para tal fin), y deberá de alimentar una base de datos con esos datos. El producto de datos consumirá esos datos, los transformará a una representación adecuada, entrenará varios algoritmos, y probará las eficacias de ellos usando alguna métrica que tenga sentido en este caso -por ejemplo, el parámetro o métrica no puede ser simplemente «evitar todo el fraude»: la acción que cumple con esta métrica al 100% es evitar toda transacción, lo cual evidentemente dañaría el negocio-, seleccionando así al mejor. Este algoritmo será puesto a recibir los datos «observados» y detectará si el dato observado corresponde o no a un patrón de fraude, actuando en consecuencia. El defraudador, al reconocer que su comportamiento fraudulento ha sido detectado, cambiará su modus operandi, lo cual ocasionará que se deban de entrenar nuevos algoritmos con estos nuevos datos, seleccionar el mejor, etcétera.

Este caso, oculta muchas complejidades del funcionamiento de datos, pero resalta la característica deseada: siempre tiene que estar aprendiendo para adaptarse al entorno que, en el caso ideal, está ayudando a cambiar: para crear el modelo robusto y adaptable de un sistema complejo, este modelo debe de ser a su vez un sistema complejo. Obviamente, la ciencia de datos, no es la única aproximación actual para el entendimiento o modelado de sistemas complejos.

Getty Images

Getty Images

Ahora, para que no quede la impresión de que todo está resuelto de manera automática, es importante comentar que la ciencia de datos, requiere humanos para ser construida y que el objetivo de los productos de datos no es per se la Inteligencia Artificial (IA) si no el Aumento de Inteligencia (AI) de los humanos: la ciencia de datos procesa los datos, para transformarlos en información, en principio valiosa, que ayuda a tomar mejores decisiones. En la búsqueda de este fin, la ciencia de datos utilizará Inteligencia Artificial, en su encarnación de Aprendizaje de Máquina. Aclaro esto porque las raíces -al menos filosóficas- de la ciencia de datos se pueden trazar a la década de 1950, en particular a la cibernética y al trabajo de W. R. Ashby y Douglas Engelbart, entre otros. De hecho, uno de los proyectos de datos más ambiciosos se intentó en la década de 1970, en Chile: el proyecto Cybersyn. Fue realizado bajo el liderazgo del británico Stafford Beer, el cual trató de construir una red de las empresas e industrias, nacionalizadas por el gobierno de Allende, la cual alimentaba en «tiempo real» con datos de producción, empleados, consumo, etcétera, un modelo central de predicción, un modelo dinámico complejo y un tablero de control, para ayudar a un gabinete del gobierno a controlar la economía chilena.

Relacionado con esto último, en la actualidad, y por diferentes motivos y alcances, tenemos movimientos como el de datos abiertos/gobierno abierto que buscan transparentar y poner a disposición los datos generados por el Estado para que sean analizados por particulares. Es muy interesante especular, lo que se podría hacer en la actualidad, si se intentará un proyecto de estos alcances, que ayudará a una mejor coordinación transversal al gobierno tanto a nivel horizontal (en todas las secretarías del gobierno federal), como vertical (a todos los niveles: municipal, estatal y federal). Para lograrlo no basta con abrir los datos existentes, si no generar nuevos datos y generarlos continuamente y a diferentes niveles de granularidad, es decir, establecer procesos (e infraestructura que los soporte) que formen parte del actuar del gobierno. Esto mismo aplica para otros tipos de organizaciones como las empresas: los procesos actuales de captación de datos, se establecieron para la operación o para el cumplimiento regulatorio, no para tener un mayor detalle que ayude a proyectos de ciencia de datos. Las organizaciones que adapten sus procesos para generar y captar datos de mejor calidad y que se utilicen para mejorar sus decisiones, obtendrán ventajas sobre sus pares. La transformación y en general la incorporación de canales de extracción de datos es uno de los retos más grandes a los que se puede enfrentar una organización y es un tema activo de investigación.

Incorporar estas capacidades a una organización requiere, además de modificaciones a los procesos de ingestión de datos, una discusión sobre cómo establecer el área dentro de la organización que sea transversal a ella y que tenga el poder suficiente para ser la dueña de los datos y para influir en la toma de decisiones. Esto no significa que no se pueda iniciar con experimentos controlados que prueben su capacidad de generar valor de la ciencia de datos, sino que la evolución del área requerirá mayor flexibilidad para maximizar su entrega de valor.

Al igual que la generalización de los sistemas de cómputo en todos los ámbitos de la vida humana, la generación masiva de datos y la explotación de los mismos para obtener ventajas competitivas o su utilización para resolver problemas complejos, no desaparecerá, sino que se hará parte de nuestra vida diaria, no solo en el uso de dispositivos «inteligentes», si no en la educación que se impartirá a las generaciones futuras. Esto puede parecer una afirmación fuerte, pero tómese en cuenta, que la ciencia de datos, es solo la más reciente encarnación de la utilización del pensamiento científico y su método para resolver los problemas a los que nos enfrentamos.

ADOLFO J. DE UNÁNUE T. es doctor en Física Teórica por la Universidad Nacional Autónoma de México (UNAM). Es profesor de tiempo completo en el Departamento Académico de Matemáticas y Director de la Maestría en Ciencia de Datos de la misma institución en el ITAM. Sígalo en Twitter en @nano_unanue

 

Tags:, , ,

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.