Imaginem que ja hem decidit desenvolupar un projecte de big data i hem superat totes les fases: desenvolupament, implementació i posada en producció. Hem de passar al següent nivell: obtenir els beneficis que ens han promès. Hem invertit quantitats ingents a guardar milers, milions de dades, i ens han venut que el big data és una meravella, però ens hi sentim frustrats.
Una queixa reiterada entre alguns directius és que els models, fins i tot sent bons, no responen a les preguntes de negoci, o no saben com fer-ho per tal que donin les respostes que ells esperen.
Pablo Haya, director de Social Business Analytics de l’Institut d’Enginyeria del Coneixement (IIC), creu que la tecnologia de captació de dades ha avançat molt més ràpid que la teoria del que podem fer amb aquestes dades. Conclou: “Crec que només s’està traient profit del 5 % de les dades”.
El (pen)últim en analítica avançada de dades és el data lake, la intel·ligència artificial o el machine learning, els quals van un pas més enllà del big data, que ja comença a quedar obsolet. Terminologia que els grans mitjans de comunicació es veuen obligats a utilitzar per estar a la moda i que ajuden a difondre mitjançant articles apocalíptics que auguren l’enfonsament de totes aquelles companyies que no es lliurin a desenvolupar totes aquestes modes.
Què és data lake?
Com el seu nom indica, es tracta d’un gran llac en què ficar tota la informació, en un únic lloc, fins i tot dades desestructurades. En un data lake reculls la informació i l’emmagatzemes, però no la neteges, no alteres l’original.
És on les empresa concentren “tota” la seva informació, en lloc de tenir-la dispersa en departaments separats. Més endavant ja veurem què fem amb totes aquestes dades. La pregunta que tothom s’acaba fent és:
“Pot una empresa pagar tot l’emmagatzematge i capacitat de computació que requereix un data lake?”.
Quina posició hi adopta Caixa d’Enginyers?
A Caixa d’Enginyers estem atents a tot desenvolupament i evolució tecnològica del mercat. Els nostres companys assisteixen als més importants esdeveniments i seminaris d’innovació que s’imparteixen, participen en taules rodones i estan en procés de formació contínua.
Durant el 2016 i 2017, es va elaborar un estudi detallat de l’impacte (i necessitats) de les tecnologies big data a Caixa d’Enginyers. Encara que des d’un punt de vista “tecnòleg” a tots ens hagués agradat llançar-nos a un projecte d’aquest tipus, treballar en l’última moda, poder presumir amb els amics que nosaltres també estàvem treballant en big data…, vam mantenir el sentit comú i, sense deixar d’estar atents a possibles noves iniciatives del mercat o necessitats de Caixa d’Enginyers, vam determinar que l’estratègia que s’estava aplicant era la millor per a l’organització:
- Compliment estricte de les normatives de seguretat del Reglament General de Protecció de Dades (GDPR – General Data Protection Regulation) en el tractament de les dades disponibles en el sistema d’informació de Caixa d’Enginyers.
- Unificar i consolidar la informació dels diferents sistemes operatius de Caixa d’Enginyers per generar un repositori de dades coherent i consistent que ens permetés disposar d’indicadors precisos per a l’organització.
- Generar models d’anàlisi que, conjuntament amb els departaments, donin resposta a necessitats concretes i permetin disposar de les dades necessàries (no totes indiscriminadament) per prendre decisions de negoci.
- Seguiment continu del mercat per poder reaccionar amb rapidesa en cas que les necessitats de l’organització canviessin significativament.
- Identificar tecnologies, dins de l’ecosistema big data, que sí siguin útils per a Caixa d’Enginyers. En aquest sentit s’està treballant en l’anàlisi dels avantatges competitius que ens podria aportar la implantació de models d’aprenentatge (machine learning). Aquest punt, sent apassionant, us convido a seguir-lo en la nostra pròxima entrada del blog, dedicada monogràficament al machine learning.