El Científico de DatosEl rol sexy de los próximos 20 años Ing. Marcos L. Ortíz Valmaseda <
[email protected]> 4/29/2011 El Científico de Datos 2011 Introducción El Científico de Datos En una entrevista realizada al Jefe de Finanzas de Google, Hal Varian, dijo que en los años venideros habían tres profesiones que serían muy pedidas por las empresas que pretenden hacer de su negocio un vía segura y viable. Varian, quien junto a su equipo, ha llevado a Google a ser unas de las empresas más recaudadoras de todos los tiempos, llegando a alcanzar cifras de hasta 29,586 millones de dólares en un año fiscal. Así lo indica el índice NASQAD cuando hace muy poco tiempo, Larry Page, co-fundador de la compañía junto a Serguei Brin, fue anunciado como el nuevo CEO (Chief Executive Officer) de la misma, en sustitución de Eric Schmidt, quien ahora será el nuevo Secretario de Comercio del gobierno norteamericano. (Mckinsey Quarterly, 2009) Pero todo este crecimiento de las recaudaciones de Google no serían posible sin los llamados por Varian como: “the hot and sexy jobs”: Analista de Datos, Estadista y el Visualizador de Datos. Estos profesionales son y serán la clave de éxito de las empresas en los años que se avecinan que cada vez es más difícil hacer que un negocio camine con buen augurio y por tierra firme. Análisis de Datos En la actualidad, cada vez es más frecuente que existan personas en las empresas dedicadas exclusivamente al análisis de datos, ya sean financieros, sociales, económicos, etc, de los cuales se pueda sacar información vital para la dirección de la empresa que pueda serle de mucha utilidad para así planificar el negocio a partir de ese punto. En el Centro de Tecnologías y Gestión de Datos se cuenta con una línea de investigación y desarrollo dedicada específicamente al análisis, diseño y desarrollo de unos de los sistemas de información más usados en estos tiempos: el Almacén de Datos (Data WareHouse como se conoce en inglés). Éste responde a un término conocido Inteligencia de Negocios, que no son más que “conceptos y métodos para la mejora de la toma de decisiones de negocio usando sistemas de soporte basados en hechos ocurridos”, como lo define el analista de Garner Howard Dresner en 1993. El Departamento de Almacenes de Datos e Inteligencia de Negocios es el que rige lo comentado anteriormente y sus soluciones están basadas en el sistema gestor de bases de datos objeto-relacional PostgreSQL y la suite BI que es desarrollada por la empresa Pentaho Inc, la cual ofrece una serie de productos estables y enfocados a desarrollar soluciones de calidad brindando un producto acabado, viable y de alto valor agregado para los clientes consumidores de la misma. El Científico de Datos 2011 Algunos productos insignia de Pentaho son: Pentaho Data Integration (Kettle), usado para la etapa de extracción, transformación y carga (ETL), Pentaho Report Designer, dedicado al desarrollo de reportes usables para la dirección de la empresa, y el Pentaho Community DashBoard Framework, el cual permite a los desarrolladores de este tipo de soluciones la construcción de dashboards dinámicos para el Pentaho BI Server, los cuales son la aplicación que es usada para mostrar la información de más alto nivel a los usuarios finales, enfocados al rendimiento de un aspecto en específico del negocio en cuestión (como por ejemplos las ventas de la empresa). Cloud Computing y software de código abierto La empresa IDC, la cual todos los años emite un reporte del crecimiento del espacio digital en el mundo entero, corrobora que cada vez será más difícil la gestión y manipulación de los datos. En el reporte especial de The Economist del 27 de febrero del 2010 conocido como “Data, data everywhere: A special report on managing information”, el autor hace referencia a la creciente necesidad de espacio requerido para el manejo de la información disponible, y además hace referencia a dos tendencias actuales que están revolucionando la manera de tratamiento de dichos datos: Cloud Computing o computación en la nube, en el cual, Internet es usado como la plataforma para la recolección, almacenamiento y procesamiento de los datos, y permite a los negocios optar por soluciones que permitan usar poder de cómputo cuando lo necesiten, y no tener que comprar caros equipos de hardware para ello. Empresas como Google, Amazon y Microsoft se han adelantado a algunos y ya ofrecen servicios con estos fines; y la otra tendencia es el llamado software de código abierto, que está constituyendo una solución viable para el desarrollo de aplicaciones; no sólo por la reducción de costos, sino por la calidad de las mismas al estar basadas en productos confiables y desarrollados por comunidades sin ánimos de lucro. Dos de los productos más usados en este tipo de soluciones son: R, el cual es un completo ambiente de análisis estadístico y de visualización de datos; y el otro es Hadoop, un sistema que permite que máquinas con medios recursos puedan ser parte de un clúster para el análisis de grandes cantidades de datos para lo cual antes, era requerida una supercomputadora. Unos de los casos más exitosos del uso y la potencia de Hadoop y Cloud Computing es el del New York Times, el cual convirtió cerca de 400,000 imágenes escaneadas de sus archivos de 1851 al 1922. Gracias a estas dos tendencias, el trabajo se completó en 36 horas. Entonces, se dejan algunas interrogantes para su análisis sin ánimo de herir a nadie: ¿Se tiene algún grupo de personas dedicadas al estudio de este tipo de soluciones de almacenes de datos basadas en Hadoop, Hive y HBase? La empresa Nugg, una de las empresas líderes en campañas de promoción y anuncio de Europa tenía un almacén de datos en PostgreSQL, basado en el esquema en estrella, los cuales migraron la solución a Hadoop ¿Saben cuáles fueron las causas principales? (Cloudera, 2010) El Científico de Datos 2011 Empresas como Pentaho y JasperSoft, autores de conocidos productos BI a nivel mundial como se ha comentado anteriormente; ya tienen grupos dedicados al desarrollo de soluciones que puedan interactuar como este nuevo movimiento de la gestión de grandes conjuntos de datos (Big Data) ¿A qué se espera? [1] [2] [3] El movimiento NoSQL Este término ha causado revuelo en Internet con razón. NoSQL o Not Only SQL tiene sus fundamentos en un poderoso teorema que se aplica al desarrollo de sistemas distribuidos (en este caso, bases de datos distribuidas) conocido como el Teorema CAP, y fue desarrollado por el Prof. Eric Brewer, Co-fundador y Científico Jefe de Inktomi. La principal razón del teorema recae en que en el diseño de un sistema distribuido debe estar contemplado que dicho sistema debe proveer al menos dos de las tres propiedades deseadas: Consistencia, Disponibilidad y Tolerancia al Particionamiento a través de la red. Basados en este axioma, ingenieros de Google desarrollaron una base de datos de este tipo llamada BigTable, para así mejorar la escalabilidad del almacenamiento de la indexación de la información que se buscaba cada segundo en la red. Luego de este proyecto fueron surgiendo cada vez más soluciones de este tipo: HBase, Cassandra, Amazon Dynamo, MongoDB, CouchDB, Membase, Memcached, etc. En la siguiente imagen se pueden ver algunos de estos proyectos, y cuáles características soportan: El Científico de Datos 2011 Figura 1. Guía visual de los sistemas NoSQL Como se puede constatar en la imagen que estos sistemas están basados en distintos modelos de datos: orientado a documentos (MongoDB, CouchDB), orientado a columnas (HBase, BigTable, Cassandra), almacenamiento basado en pares de clave y valor (Redis, Tokyo Cabinet, Voldemort), etc. La mayoría de estos sistemas están desarrollados pensados en el complejo problema que resulta la escalabilidad de sistemas de bases de datos relacionales, sobre todo las escrituras y lecturas masivas, operaciones muy frecuentes en sistemas basados en almacenes de datos. Entonces, se siguen con las interrogantes: ¿Cómo ayudarían al desarrollo de nuevas soluciones en el Dpto la nueva tendencia del NoSQL (Not Only SQL)? Ya han varias empresas y organizaciones reconocidas como Facebook, Orbitz, Ebay, AOL, IBM, que han implementado soluciones de almacenes de datos basados en estos sistemas, que no pretenden ser la solución para todo, sino un complemento de los existentes. ¿Por qué no se dedican un grupo de especialistas a la capacitación, desarrollo y soporte de este tipo de soluciones? El Científico de Datos 2011 ¿Cómo se pudiera potenciar desde el enfoque de la producción-docencia-investigación el estudio y explotación de este tipo de sistemas? Estadísticas y R En la era actual: la lllamada “The Data Revolution”, cada vez se hace más necesario conocer de herramientas, técnicas, métodos, que permitan de una forma certera analizar los datos. Pero los datos siempre están muy relacionados con los números, las estadísticas, debido a que de ellas dependen; por lo que es primordial tener en las mentes de los profesionales del Centro la importancia que tienen hoy en día las estadísticas, tanto en cada aspecto de la vida como en el mundo de los negocios. Hay muchos productos y empresas que han desarrollado productos y servicios para el análisis estadístico. Tales son los casos del SAS Institute con su producto del mismo nombre; la empresa SPSS quien ahora es una subsidiaria de IBM, desarrollan en conjunto IBM SPSS, el cual junto a otras herramientas, ya es parte de la suite BI de esta empresa (IBM Cognos, IBM SPSS y IBM BigSheets). Pero hay un proyecto que desde su liberación se ha ido convirtiendo en la herramienta por excelencia para el análisis estadístico y la investigación científica: GNU R1. Este proyecto iniciado por dos profesores de la Universidad de Auckland, de Nueva Zelanda Ross Ihaka y Robert Gentleman; ha tenido un crecimiento acelerado desde entonces, contando en estos instantes con más de 1000 paquetes con los cuales se puede agregar disímiles funcionalidades al lenguaje.2 R ofrece características que hacen que cada día, su base de usuarios crezca por día: Computación estadística Análisis de datos Visualización gráfica Fue creado por estadistas Es de código abierto Extensible por vía de los paquetes R comenzó, como ya se ha comentado a ser usado por científicos, universidades en disímiles campos de investigación como la biología computacional y las estadísticas aplicadas; pero hoy en día ha ganado más adeptos y es usado por ejemplo para las finanzas cuantitativas3 y para la inteligencia de negocios como lo hacen Google y Facebook en su día a día. Visualización de Datos Nathan Yau4, en su blog “Flowing Data” hace alusión al efecto que podría tener un hermoso gráfico mostrado a los directivos de la empresa, a los usuarios finales, en fin, a cualquier que 1 2 http://www.r-project.org http://cran.r-project.org 3 Incluso, existe un evento anual dedicado a las finanzas usando R: http://www.rinfinance.com 4 http://flowingdata.com/about-nathan El Científico de Datos 2011 vaya a disfrutar de los mismos. Este profesional de la estética de la información se ha dedicado al análisis estadístico por más de 12 años y su doctorado lo ha enfocado específicamente al mejoramiento de los gráficos generados a partir de las estadísticas. Su blog es uno de los más seguidos en la web acerca de la estética de la información, por lo que es parada obligatoria para los profesionales que se dediquen a dicha rama. Algunos de los tantos ejemplos que ha hecho y colaborado han cambiado la forma de interacción y visualización de los gráficos generados por datos de hoy en día. Algunos de los más famosos son: 17 Ways to Visualize the Twitter Universe: http://flowingdata.com/2008/03/12/17-waysto-visualize-the-twitter-universe/ Chart of the Day: A Breakdown of Facebook Applications: http://flowingdata.com/2008/05/01/chart-of-the-day-a-breakdown-of-facebookapplications/ Visualize This: Poverty Rate by Age in America: http://flowingdata.com/2009/01/14/visualize-this-poverty-rate-by-age-in-america/ - Yau, sabiendo que el tema de la visualización de datos ya se está viendo como una profesión resumió en un libro su trabajo llamado “Visualize This: The Flowing Data Guide to Design, Visualization, and Statistics”, el cual recoge algunas de las técnicas más usadas para este propósito. Otros excelente ejemplos de cómo la belleza de gráficos pueden cambiar el modo de pensar se pueden encontrar en el sitio Information Aesthetics (Estética de la Información)5, el cual provee una serie de categorías por las cuales se pueden agrupar este tipo de gráficos: basados en mapas, interactivos, etc. Algunos de los ejemplos más prominentes son: The Real-Time Data City is now Real (In Singapor): http://infosthetics.com/archives/2011/04/the_real-time_data_city_is_now_real.html US Debt Clock: All The Relevant Statistics in Real-Time: http://infosthetics.com/archives/2011/04/us_debt_clock_all_the_relevant_statistics_in_re al-time.html Visualizing Doses of Nuclear Radiation and Their Impact: http://infosthetics.com/archives/2011/04/us_debt_clock_all_the_relevant_statistics_in_re al-time.html Placebook: How Facebook Users Are Distributed Around The World: http://infosthetics.com/archives/2011/03/placebook_how_facebook_users_are_distribute d_around_the_world.html - - 5 http://infosthetics.com El Científico de Datos 2011 Ya en el mundo hay grupos dedicados específicamente a la visualización de los datos como: AT&T Labs IBM Visual Communications Lab Berkeley Visualization Lab MIT Media Lab Entonces: Si uno de los objetivos del Centro es la gestión de los datos y por consiguiente, la correcta visualización de los mismos cuando se enfrenten al diseño de dashboards, en el caso del Dpto de Almacenes e Inteligencia de Negocios. ¿Por qué no se crea un grupo que dedique a tiempo completo para ello? Y así a la vez aliviar el trabajo de los especialistas de BI, incorporando más profesionales a este tema Las tendencias para el desarrollo de gráficos interactivos, intuitivos y a la vez usables se están moviendo hacia dos vertientes: ActionScript 3 junto a la tecnología Adobe Flex y la otra es hacia HTML 5 y CSS3 por lo que sería sumamente provechoso que se estudiaran estos temas y así ampliar gradualmente el mercado basado en dichos servicios - Minería de Datos y el descubrimiento de conocimiento La aplicación de la minería de datos ha crecido exponencialmente en los últimos años debido al amplio alcance que tienen sus técnicas y algoritmos en la vida diaria, en los negocios, en la investigación científica y otros. El sentido principal de la minería de datos es la búsqueda de patrones consistentes y/o relaciones sistemáticas entre variables en varios conjuntos de datos, para así entonces validar los resultados encontrados aplicando los patrones detectados a nuevos conjuntos de datos en el futuro. Tratando de darle una definición, la minería de datos no es más que la extracción automática de información predictiva a partir de grandes conjuntos de datos Hay muchas técnicas que se usan en la actualidad; cada una enfocada a problemas específicos: árboles de decisión, clasificación del vecino más cercano, redes neurales, inducción de reglas, clusterización K-Means, regresión logística, máquinas con soporte a vectores (SVM), etc. Hay muchas aplicaciones que son usadas para construcción de patrones, modelos para minería de datos como por ejemplo Weka, R, y ahora también Apache Hadoop, por medio de Mahout6, una adición a dicho sistema analítico para aprendizaje de máquinas y minería de datos basado en el modelo de programación MapReduce, popularizado por Google en 2004. 6 http://mahout.apache.org El Científico de Datos 2011 Por su importancia, se considera que la minería de datos debería tener otro espacio cimero en el Centro. El nacimiento del nuevo rol Toby Segara y Jeff Hammerbacher, en su increíble libro llamado “Beautiful Data: The Stories Behind Elegant Data Solutions”, donde con la ayuda de disímiles expertos recrean la necesidad de que todos estos aspectos que han sido tocados anteriormente se correlacionen entre sí y surja la necesidad de la creación de un nuevo rol que tribute a las exigencias cada vez más desafiantes en el mundo de los datos. Por eso, Hammerbacher, en su propio capítulo del libro, lo describe como el “Científico de Datos”, el cual debe ser un individuo con conocimientos de análisis de datos, estadísticas, minería de datos, y por último, un marcado énfasis en la estética de la información, o sea la correcta e intuitiva visualización de dichos datos. Por lo que, a modo de consejo del autor, el Centro se debería enfocar hacia estas tendencias que aportarán en los años venideros buenos frutos desde el punto de vista de los servicios basados en las mismas como se muestra en la siguiente imagen: Figura 2. Descripción de las temáticas del científico de datos El Científico de Datos 2011 Propuesta Final Para aliviar un poco el trabajo de la dirección del Centro y de la Facultad, el autor hace referencia a algunas de las ideas que se podrían implementar en el mismo con tal de darle la más rápida respuesta a estos cambios actuales: Aprovechando que en la Facultad se imparte como lenguaje de programación Java, se podría dedicar un grupo multidisciplinario, preferentemente de profesores y estudiantes7 que estén interesados en el tema para que se dediquen a tiempo completo del estudio y explotación del proyecto Apache Hadoop y sus derivados, para así poder enfrentar problemas de análisis de datos masivos en el orden de los Terabytes y Petabytes Un segundo punto estaría enfocado a otro grupo con el objetivo de estudiar a fondo el tema de la visualización de datos enfocados a las dos tendencias mencionadas anteriormente: ActionScript 3 + Adobe Flex, y HTML 5 + CSS3 + jQuery/ExtJS, para que sean los especialistas en el diseño de dashboards, infografías, etc Lo tercero está enfocado al estudio profundo de GNU R como ambiente completo de estadísticas y visualización de datos, además de su combinación con Hadoop por medio del proyecto RHipe, para que así cuando se vaya a enfrentar un proyecto de análisis estadístico que ya se avecinarán, se tenga en la mano un grupo de conocimientos y práctica necesarios para los mismos. Y por último, se podría crear otro grupo dedicado al estudio y aplicación de la minería de datos y su combinación con las herramientas anteriormente tratadas. - - - Bibliografía 1. JasperSoft. Jaspersoft Announces Industry’s First and Only Native Reporting Offering for Any Big Data System. JasperSoft News Press. [Online] JasperSoft, January 25, 2011. [Cited: May 6, 2011.] http://www.jaspersoft.com/press-releases. 2. —. JasperSoft and Big Data. JasperSoft Big Data. [Online] JasperSoft, 3 14, 2011. [Cited: 4 3, 2011.] http://www.jaspersoft/bigdata. 3. Pentaho Corporation. Pentaho and Hadoop. Pentaho and Hadoop. [Online] Pentaho Corporation, 2 2, 2011. [Cited: 4 12, 2011.] http://www.pentaho.com/hadoop. 4. Cloudera Corporation. Cloudera Blog. Cloudera Blog. [Online] Cloudera Corporation, 3 10, 2010. [Cited: 4 11, 2011.] http://www.cloudera.com/blog/2010/03/why-europes-largest-adtargeting-platform-uses-hadoop/. 7 La recomendación es que sean de 2do año, para que así tengan los conocimientos previos de estructuras de datos avanzadas y diseño de algoritmos. El Científico de Datos 2011 5. Mckinsey Group. Mckinsey Quarterly. Mckinsey Quarterly News. [Online] Mckinsey Group, 2 18, 2009. [Cited: 8 28, 2010.] http://www.mckinseyquarterly.com/Hal_Varian_on_how_the_Web_challenges_managers_2286.