A lo largo de los últimos tiempos se ha observado como las empresas han obtenido importantes progresos en sus proyectos sobre la Big Data, no obstante hay un obstáculo particular que los frena: su complejidad. Debido al alto nivel de complejidad técnica que implica la tecnología Big Data y la falta de habilidades en ciencia de datos, las empresas no están logrando todo lo que quisieran con los macro datos.
Esta ha sido una de la últimas conclusiones claves que han aparecido en un nuevo informe recientemente publicado por Qubole, el gran vendedor de servicios de datos fundado por el co-creador de Apache Hive, Ashish Thusoo. Qubole contrató a un equipo llamado Dimensional Research, que encuestó a más de 400 responsables de la toma de decisiones tecnológicas sobre sus proyectos de Big Data, y publicó los resultados hoy en «Encuesta de 2018 de Big Data Trends and Challenges».
Es relevante destacar que el problema sobre la complejidad subyacente en la Big Data quedó evidenciado en la investigación de diversas maneras. Para empezar, mientras que siete de cada 10 encuestadores informaron que deseaban habilitar el acceso de autoservicio a entornos de análisis de datos con el tiempo, menos de uno de cada 10 en realidad han habilitado el autoservicio en este momento, según la encuesta.
La complejidad también se hizo evidente en el personal que las empresas buscan contratar. Mientras que alrededor del 80% de las compañías expresan tener planes de aumentar el número de practicantes de los macro datos durante el próximo año en una cantidad moderada o significativa, tan solo el 17% manifestó haber encontrado un reclutamiento sencillo. Más del 80% enfatiza sobre lo difícil que es encontrar mano de obra profesional de Big Data calificada.
La cantidad de administradores necesarios para admitir usuarios de macro datos es otra indicación del problema de complejidad que se infiltra en la Big Data. Qubole dice que solo el 40% de los encuestados informan que sus administradores pueden admitir a más de 25 usuarios, «un número sorprendente, ya que los presupuestos fijos de hoy requieren que los administradores atiendan a más de 100 usuarios», indica el informe.
«Todos estos puntos de datos apuntan a eso: complejidad por un lado y falta de experiencia por el otro. Esa brecha es muy, muy dura», expresó Thusoo. «Ellos saben que el potencial de construir lagos de datos está ahí, pero la complejidad es demasiado alta y la capacidad no está ahí. Entonces esa es la brecha. Los puntos de datos en la encuesta apuntan a eso».
Este problema es el resultado de diversos factores, incluidos los tipos de proyectos de Big Data que las empresas están emprendiendo, las expectativas que tienen y la diversidad de herramientas que utilizan, afirma Thusoo. Cuando se combina eso con una escasez de talentos en ciencia de datos, el problema de complejidad se vuelve mucho más agudo.
«Los datos se hacen más grandes. Eso no ha cambiado «, dice Thusoo, que anteriormente dirigió la infraestructura de datos de Facebook cuando creó Hive con su colega Joydeep Sen Sarma. «Lo que ha cambiado es que los análisis están cada vez más avanzados. En los últimos años, los temas acerca de la inteligencia artificial se han vuelto potentes».
Muchas empresas intentan ofrecer el mismo tipo de acceso de autoservicio que ofrecían para el almacenamiento de datos y los usuarios de inteligencia empresarial. Esos patrones de entrega han sido bien establecidos y los resultados han sido bastante buenos. «Pero el mismo tipo de transformación no ha sucedido en la tierra del análisis avanzado, la IA y el aprendizaje automático», manifiesta Thusoo.
La encuesta también rastreó el uso de tecnologías populares de big data y destacó algunas tendencias interesantes. Apache Flink, en particular, parece estar disfrutando de un año de ruptura, ya que su uso aumentó en un 125% en comparación con la misma encuesta que realizó Qubole en 2017. Ese fue el mayor aumento entre los 11 marcos que rastreó, aunque el uso de Flink sigue siendo relativamente pequeño, ya que se usa solo para el 9% de los profesionales encuestados.
Presto, un prometedor motor SQL de próxima generación que se ejecuta en Hadoop y otras plataformas, obtuvo la segunda mayor ganancia, con un 63%, seguido de Impala con un 37% y Spark con un 29%. Presto superó a Impala en la categoría de uso general, 13% a 11%, entre los motores SQL, aunque Spark los derrotó a todos con una calificación de uso del 31%.
Thusoo dice que la agitación en los motores de datos grandes es algo bueno, y muestra que los usuarios están dispuestos a probar nuevas tecnologías que les darán una ventaja. Pero la diversidad también contribuye a un aumento en la complejidad técnica, y ese es un problema que está frenando a la gente.
«Solía ser el caso, en el día… que todas las cargas de trabajo se ejecutarían en Hadoop y Hive. Es como cuando tienes un martillo, cada problema parece un clavo «, dice. «Luego apareció Spark y este tomó muchas de las cargas de trabajo de aprendizaje automático, que fueron muy difíciles de implementar en Hadoop y Hive».
Pero Apache Spark se convirtió en el martillo y se utilizó para absolutamente todo, desde el aprendizaje automático y el procesamiento de SQL hasta la transmisión en tiempo real, no obstante su entorno de gráficos nunca pareció progresar demasiado. Ahora la comunidad de Big Data se está dando cuenta de que otros motores pueden hacer un mejor trabajo que Spark. Los beneficiarios parecen ser Flink, para transmisión en tiempo real, Presto, para procesamiento SQL a escala, y Tensorflow para aprendizaje profundo.
Ashish Thusoo
Según Thusoo, el 75% de los clientes de Qubole utilizan más de un motor. «Todo esto es emblemático del hecho de que la complejidad de los análisis que se realizan en la base de datos está cambiando», dice. «Está evolucionando. No hubo un aprendizaje profundo hace tres o cuatro años. Fue muy incipiente, y ahora se está convirtiendo de repente en la corriente principal».
Hadoop hasta ahora está resistiendo este enfoque, ya que admite muchos de los motores que la gente quiere usar, aunque ni Spark, Flink, Presto ni Tensorflow están vinculados a Hadoop. «Todavía hay crecimiento», expresa Thusoo sobre Hadoop. «No es como si no estuviera creciendo». Pero ningún motor único puede resolver todos los problemas de análisis. Y creo que eso se refleja también en lo que está sucediendo en Hadoop, que no pueden resolver todos los casos de uso».
Los grandes ganadores de esto podrían ser los vendedores de la nube. Según la encuesta de Qubole, el 73% de los encuestados está usando la nube, frente al 58% en 2017. Existen varias razones para el crecimiento de las nubes para las cargas de trabajo de grandes volúmenes de datos.
«Debido a la complejidad involucrada, una solución llave en mano en la nube, o un servicio en la nube, ayuda a ocultar o abstraer la complejidad de los usuarios y también a la big data», dice Thusoo. «Las cargas de trabajo de aprendizaje automático, inteligencia artificial y análisis avanzado tienen ciertas necesidades de la infraestructura, ciertas propiedades peculiares y esas propiedades se satisfacen mejor con las plataformas en la nube».
Todavía estamos en medio de la creación de arquitecturas de referencia para el aprendizaje automático, inteligencia artificial y cargas de trabajo analíticas avanzadas, pero es una excelente apuesta que esas arquitecturas se vean más complejas que las arquitecturas BI y DW del pasado. Si hay clientes para ganar y dólares, entonces puedes apostar que las empresas lo harán, la complejidad será condenada.
«La complejidad de los datos es la misma, pero tanto la complejidad tecnológica como la complejidad analítica han aumentado», dice Thusoo, «y creo que eso hace que este sea un problema aún más difícil de lo que era anteriormente».