BIG DATA, ordenando el CAOS
27 de Noviembre de 2013La información disponible en formato digital ha llegado a niveles que nos permiten hacer cosas que en otra época no hubiéramos podido hacer
Por Daniel Yankelevich, CEO de Grupo Pragma Consultores.
Yo no sé lo que es Big Data (BD). ¿Existe? ¿Si tengo 109 registros, es grande; y si tengo 107, no lo es? Hace unos años, había un acuerdo implícito de que BD era una base de datos de un terabyte. Hoy, eso es lo que tengo en uno de los discos multimedia en mi casa. En 2008, Wired informaba que todos los videos de YouTube ocupaban 530 terabytes. ¿Se animan a decir cuánto ocupan hoy? Ese mismo año, Google procesaba 1 petabyte de información por hora. Eso era claramente BD. ¿Cuánto sería necesario hoy para hablar de BD?
Dicho esto, creo que para todos es claro que la cantidad de información disponible en formato digital ha llegado a niveles que nos permiten hacer cosas que en otra época no hubiéramos podido hacer. Contar con miles de registros de un celular que nos indican el trayecto de una persona desde el trabajo hacia su casa y sus paradas en negocios o bares es un cambio importante que solo soñábamos en novelas del estilo 1984 o en la película Brazil. La información “social”, que incluye redes sociales, Twitter y muchos otros mecanismos, está menos estructurada, pero es muy rica.
Sin embargo, este cambio, este paso a BD, no es de un día para el otro; no existe un threshold después del cual es BD y antes no lo era. Tampoco hay BD de por sí, es necesario diferenciar el dominio de uso. No es lo mismo procesar una base no estructurada de información textual para sacar inferencias que nos permitan identificar a un potencial terrorista, que leer una lista de conexiones a antenas de un celular, o recorrer información de prospectiva petrolera para intentar relacionar datos aparentemente independientes. Esta especialización en dominio es también una especialización tecnológica en el uso de diferentes herramientas específicas.
Liderando el dominio del caos
A simple vista, pareciera que las empresas que no se embarcan, en el corto plazo, en el análisis de la información que poseen perderán oportunidades. Este es el escenario de mínima. Obviamente, dependerá del dominio pero en algunos casos es obvio. Ignorar detalles en el caso de prospección minera o petrolera puede significar millones de dólares en operaciones. Llegar al cliente en el momento justo y con la oferta justa significa, al menos, el ahorro de evitarse publicidad mal dirigida, sin contar el importantísimo potencial en incremento de ventas. En gran medida, esto me hace acordar a la historia de Xerox tal como la cuenta John Dessauer en su libro My Years with Xerox: The Billions Nobody Wanted, que varias veces tuvo que contestar la pregunta de “¿Y qué nos perdemos si no usamos la fotocopiadora?”. De hecho, ni IBM, ni RCA, ni GE, ni otras veinte compañías más advirtieron la importancia hasta que fue demasiado tarde. ¿Veremos emerger algún líder de BD que junte las capacidades tecnológicas con el conocimiento de dominio?
En este contexto, las empresas que deseen trabajar con grandes cantidades de datos deberían evaluar si los proveedores cuentan que una fuerte especialización en dominios, con profesionales que conozcan el negocio del mercado vertical en el que trabajan, quienes puedan interpretar los datos. Además, es importante que conozcan las tecnologías más relevantes para el negocio y cuenten con experiencia en temas de calidad de datos.
El reto de la calidad de la información es clave al trabajar con muchos datos: si uno tiene gran cantidad, pero no les tiene confianza, no posee mucho en realidad. Es más valioso un kilobyte de información decente que un petabyte de datos al azar.
En conclusión, una buena implementación de Big Data puede tener un impacto económico significativo e incluso cambiar el negocio. Pero hay que tener cuidado en no caer en la vieja broma “implementé una solución de Big Data… ahora llego a las conclusiones incorrectas 100 veces más rápido”.
Más información: www.pragmaconsultores.com.