Hace tiempo que el término big data comenzó a circular y se empezaron a celebrar eventos en los que se explicaba y presumía de todas sus ventajas. Desde ese momento el big data estaba de moda. Se le han dedicado congresos, se ha convertido en un elemento diferenciador y de éxito para las empresas que lo adopten.
La industria de las empresas tecnológicas (software, hardware, servicios) necesita cada poco tiempo aportar nuevos términos y conceptos. Necesita nuevas modas que permitan argumentar sus inversiones en I+D, modas que también han de permitir a los grandes bancos y empresas justificar la ingente cantidad de millones que se gastan (aunque no se tenga muy claro para qué).
Sin menospreciar, en ningún momento, la tecnología que hay detrás de todos estos términos y las ventajas que nos pueden aportar, ¿qué es el big data?
En esencia, se trata de analizar y cruzar enormes cantidades de datos para detectar nuevos patrones de consumo o identificar nuevas oportunidades de negocio.
Por ejemplo, he leído: “Gracias al big data, una cadena de supermercados era capaz de realizar una segmentación de sus clientes a partir del histórico de compra en las distintas tiendas, o que una empresa de telecomunicaciones podía saber por qué zonas de una ciudad se mueven los turistas”. ¿Realmente ese es el beneficio que le encontramos al big data? Esto no es nuevo.
Hace años que estamos analizando datos, que las empresas segmentan a sus clientes a partir del histórico de compras. Lo que es nuevo es la capacidad de las computadoras que se utilizan y el abaratamiento del espacio en disco (necesario para el almacenamiento de estos datos).
¿Es nuevo el big data?
No podemos negar que han aparecido problemas nuevos: mayor cantidad de datos, formatos diferentes, dar respuesta a preguntas en tiempo real, etc. A ello, la industria del márquetin ha tenido que inventar nombres, como en su día se hizo con Prolog, Corba, SOA, Programación Orientada a Objetos, Servlets…
Las “grandes” novedades del big data hace años que están inventadas: para el volumen, las bases de datos distribuidas, que datan de la década de los 80 y su boom a finales de los 90; para la velocidad, se utilizan sistemas computacionales distribuidos, cuyos fundamentos ya surgieron en los años 70; y para el análisis, las estrategias de Business Ingelligence se remontan a los años 80, con su eclosión al final del siglo XX. Como vemos, no hay soluciones nuevas, lo que hay es una nueva tecnología que ayuda a desarrollar estas soluciones de manera más fácil, eficiente y, sobre todo, económica.
Nadie discute que el volumen de datos que actualmente se analiza es mayor que nunca, pero ¿es realmente un nuevo desafío? En la década de 1880, Herman Hollerith, que trabajaba en la Oficina del Censo de los Estados Unidos dedicado al procesamiento de los registros del censo que se realizaba cada diez años, se enfrentó al desafío de tabular millones de registros censales e inventó un sistema electromecánico usando tarjetas perforadas. Las tarjetas eran esencialmente un sistema de almacenamiento para un gran conjunto de datos. La compañía que Hollerith creó se convirtió en la IBM de hoy. Como vemos, el volumen de datos no es un desafío actual.
¿Por qué no está el big data más extendido?
Actualmente, la mayor parte de las grandes compañías están en la fase inicial del big data: recopilan la información y la almacenan, pero ¿saben cómo explotarla? Si la necesidad del big data es tan grande para que las empresas hagan sus negocios, ¿por qué todavía no lo dominan las grandes compañías? Según se publicó en Expansión:
- Es nuevo.
- Escasean los casos de uso y el conocimiento para su explotación.
- La difícil “gobernanza” de los datos, determinar quién puede acceder a la información, gestionar la privacidad y los niveles de seguridad a aplicar en cada caso.
Según estimaciones de Paradigma, una de cada cinco empresas españolas ha pospuesto, durante el último año, algún proyecto que incluía el uso de tecnologías de big data por el desconocimiento legal sobre el uso y tratamiento de datos personales.
Hoy en día es difícil leer una publicación (que se precie, claro) sin la palabra big data escrita hasta la saciedad. Todo el mundo habla de ello -y no falta razón-, pues hay una relación simple: los datos que se procesan se convierten en información, cuando la información se analiza se convierte en conocimiento, y el conocimiento, cuando se aplica, se convierte en inteligencia. Comercialmente, el mensaje es directo: a medida que se recopilan más y más datos, existe la oportunidad de generar más inteligencia, que mejorará las medidas de éxito de la organización.
¿Realmente es así de simple?
La recopilación de todos estos datos me despierta ciertas dudas:
- Cómo gestionar la privacidad de toda esa información.
- Estos enormes repositorios de datos, que paulatinamente tendrán un enorme valor para las organizaciones, ¿no se convertirán en un objetivo para los ladrones?
- Un ejecutivo de un gran banco publicó recientemente que, debido al crecimiento de los datos que generan, más del 80 % de su presupuesto de tecnología en 2019 fue invertido en almacenamiento. Expresó: “¡Tengo que ponerlo en algún lugar!”. Esa afirmación me lleva a una reflexión: el claro ganador en todo esto ¿no es la industria del almacenamiento de datos?
Hasta hoy, la metodología que se aplicaba a la ciencia consistía en establecer una hipótesis primero y luego se validaba (contrastar con la realidad si respondía a su modelo). La llegada del big data ha cambiado el paradigma: la revolución viene porque los algoritmos generan las hipótesis a posteriori y se quedan con la mejor.
Cómo se llega a esa conclusión no se explica, es una caja negra. Por ejemplo, en la detección de fraude en tarjetas es complicado razonar el por qué se señalan determinadas operaciones como sospechosas, lo importante es acertar y que cuando sea un fraude se deniegue el cargo.
Llegados a este punto tenemos que preguntarnos: ¿es importante el “por qué”?; como buen directivo, ¿necesito saber por qué suben mis ventas?; ¿cuál es el motivo por el que se van los clientes o la razón por la que un determinado producto no funciona?; ¿me hace falta conocer cómo se toman esas decisiones o con acertar el resultado me es suficiente? Hemos de planteárnoslo, decidir si simplemente me importan las conclusiones finales y aceptarlo.
No te pierdas la segunda parte del artículo sobre Big data haciendo clic aquí.