Proceso Ciencia de Datos, Adopción y Visualización Inteligente del Negocio

La ciencia de datos se refiere a la aplicación del método científico para explicar los fenómenos que afectan algún aspecto de la empresa. Este contenido incluye la experiencia de los más de 10 años de experiencia de Metrics realizando proyectos de ciencia de datos, adopción y visualización inteligente permanente para las empresas más importantes del planeta.

El Secreto es la Data

Para hacer ciencia de datos en los negocios, es necesario asignar un equipo que se asegure de tener, estructurar y comprender los datos. Antes de realizar formalmente ciencia de datos, el primer trabajo de ese equipo es el de:

  • Identificar y tomar control de todas las fuentes de datos de la empresa.
  • Una vez identificadas tiene que asegurar que todos esos datos caigan en una sola base de datos.
  • Cuando las bases de datos ya están centralizadas, sigue el trabajo de estructurar la información.

Es en este momento cuando ya se puede aplicar el método científico a los proyectos de ciencia de datos.

Observación del Negocio

La función de información es la más importante, ya que determinará las oportunidades que se puedan capitalizar en el futuro.

Para realizar esta función se requiere una doble perspectiva, la del negocio y la de los datos. Es necesario mantener bajo observación las necesidades del negocio para identificar vacíos de solución, por el otro lado se requiere la observación de los datos para identificar patrones que de solución. 

Al ser la ciencia de datos una labor técnica, es fundamental que las decisiones que resulten de la observación se basen en la reflexión cuantitativa y no en la intuición cualitativa.

Identificación de Problemas

La función de identificación se da a raíz de la observación de problemas que requieren solución y es la resultante de la relación entre la observación del negocio central que realizan las áreas operativas y los patrones contextuales del análisis de los datos que realizan los científicos de datos.

Para realizar esta función es clave tener una matriz de priorización de problemas que se pueden solucionar. Esta matriz debe correr sobre las variables de impacto de la potencial solución en el negocio y complejidad que se requiere para desarrollar e implementar dicha solución.

Planteamiento de la Hipótesis de Solución

La función de suposición y subsecuente argumentación del problema/solución seleccionado a solucionar es la piedra angular en la etapa del planteamiento de la hipótesis que realizan entre los científicos de datos y un grupo selecto de personal ejecutivo y operativo del negocio.

Esta se basa en un enunciado cualitativo que plantea una conjetura de negocio susceptible de comprobarse o refutarse. Por lo que se requiere una definición medible de las características necesarias para determinar que el resultado de la hipótesis es exitosa o no.

El principal requerimiento de la conjetura es que represente una solución sistémica, lo que significa que si se comprueba la hipótesis de solución, esta se puede aplicar en todos los casos en los que se presente el mismo problema.

Experimentación y Comprobación de la Hipótesis

Para realizar la función de experimentación se requiere el diseño del experimento que contemple las variables que influyen en el mismo, la implementación de un laboratorio de ciencia de datos y un comité que represente las áreas de negocio.

La función del laboratorio es la de estudiar el fenómeno reproduciendo las condiciones particulares de estudio, que represente una solución funcional que compruebe o refute la hipótesis.

En el caso de de los experimentos de ciencia de datos, es necesario programar aplicaciones tecnológicas que hagan el trabajo que se requiere con los datos, es por eso que los científicos de datos usan lenguajes de programación como R y/o Python para desarrollar sus pruebas de concepto.

Entre más ágil sea esta fase del proceso de experimentación, mayor será la velocidad de comprobación, ya que lo más probable es que se tengan que realizar varios experimentos para validar las conclusiones.

Análisis de Resultados del Experimento

La función de análisis de resultados se ejecuta entre las áreas operativas y los científicos de datos con base en las variables, los parámetros de medición preestablecidos, el número de experimentos realizados y su representación en matrices y/o gráficos que expresen la realidad.

Una vez obtenidos los datos y analizados los resultados, se comprueba si la hipótesis emitida se comprueba. Se considera que una solución es correcta, cuando se pueden generalizar los resultados en condiciones diversas de negocio.

En este proceso de experimentación, existen solo dos salidas, se valida la hipótesis o no se valida la hipótesis. En el caso en el que no se pueda validar, el método científico requiere el replanteamiento de la hipótesis, en el caso de que se valide se puede continuar con los siguientes pasos del proceso de ciencia de datos.

Desarrollo de la Aplicación

Una vez que se valida la hipótesis y la solución del problema inicia el proceso de desarrollo de la aplicación productiva, los proyectos de ciencia de datos tienen la característica de que sus soluciones se basan en aplicaciones tecnológicas y en cambios de procesos de negocio.

Es importante mencionar que la solución desarrollada tiene que ser funcional en condiciones normales de negocio.

Una de las principales características que también tienen las soluciones salidas de un laboratorio de ciencia de datos, es la visualización en tiempo real y la capacidad de predecir escenarios de interés para el negocio, este proceso de validación de los tableros de visualización se hace en conjunto con las áreas del negocio afectadas.

Por lo que una de las principales características de estas soluciones tiene que ver con los tableros (scorecards) de visualización, que permiten la toma de decisiones basadas en inteligencia. Los tableros deben contar historias (storytelling) que puedan ser interpretadas de un vistazo.

Comunicación de la Solución

Ya que durante todo el proceso de ciencia de datos se hizo partícipe a las áreas de negocio, la comunicación de la solución a la organización debe ser conjunta.

En este proceso no solo se comunican las mejoras, el área de ciencia de datos se tiene que asegurar de que las áreas correspondientes entiendan y puedan explicar: las razones, las implicaciones, el proceso de adopción, los cambios que sucederán, los objetivos que se persiguen, los resultados esperados, la forma de medir el desempeño de la innovación y los tableros de visualización, donde todos verán su parte.

Adopción y Gestión del Cambio

Para que un área de ciencia de datos sea exitosa debe considerar como parte de su responsabilidad que sus aplicaciones se usen y transformen el negocio. Es por esto que deben trabajar con las áreas correspondientes de la adopción y gestión del cambio, para desplegar su solución.

El principal reto de las innovaciones, es el de sobreponerse al paradigma existente y ganar la confianza de las áreas funcionales en su solución, que necesariamente representará una nueva y diferente forma de hacer las cosas.

Es por esto que el despliegue orgánico se vuelve estratégico en estos casos, iniciando por asegurar la participación de las áreas de negocio durante todo el proceso, esto propiciará que la solución del área de ciencia de datos vaya ganando adeptos, entre los que se identificará líderes que impulsen la transformación, quiénes a través del despliegue orgánico que inicia con pruebas de concepto, pilotos, hasta la instauración de un nuevo paradigma.

Visualización de Datos, Storytelling

img-ciencia-de-datos-storytelling@metricser

Una parte clave del éxito y la adopción de las iniciativas surgidas del área de ciencia de datos es la visualización de datos, contar con datos las historias de negocio, mejor conocido como Storytelling.

En este proceso la visualización inteligente del negocio inicia con la identificación de las audiencias que van a ver la información y sus necesidades. Se reconocen tres tipos de audiencias genéricas: operativas, gerenciales y ejecutivas o directivas.

  • Las audiencias operativas son aquellas que operan el negocio, que requieren detalle en la información para operar e instrumentar el negocio en el corto plazo. En este nivel de visualización se requiere responder a la pregunta ¿qué está pasando?
  • Las audiencias gerenciales son aquellas que requieren los datos agregados para tomar decisiones de negocio en el mediano plazo, considerar sus opciones y la posibilidad de prever escenarios futuros. En este nivel de visualización se requiere responder a las preguntas ¿por qué está pasando?, ¿qué opciones tengo? y ¿qué puede pasar en el mediano plazo?
  • Las audiencias ejecutivas o directivas son aquellas que requieren un resumen del negocio para tomar decisiones en el largo plazo. En este nivel de visualización se requiere responder a la pregunta estratégica ¿a dónde vamos en el largo plazo, con base en las decisiones que estamos tomando ahora?

En esta era digital, la principal característica de la información es que sea oportuna y disponible, por lo que para que un proyecto de ciencia y visualización de datos funcione, tiene que estar al alcance de la mano y bajo demanda para las audiencias de negocio.

Conclusiones

La ciencia de datos no es una disciplina tradicional de negocio. En la realización de esta función existe más incertidumbre que en otras áreas, por lo que se debe considerar que la creación de un área de ciencia de datos es una inversión a mediano y largo plazo, que se debe realizar lo antes posible.

La ciencia de datos no es una labor que se pueda hacer solo desde dentro de la organización, es necesario contar con la perspectiva externa, que no tenga ceguera de taller. Es por esto que se debe considerar presupuesto para contratar expertos para cada una de las principales funciones descritas en este artículo.

La implementación de métodos científicos ágiles en los negocios actuales es una obligación. En la actualidad ya no existen soluciones basadas solo en métodos, las empresas más exitosas son empresas de base tecnológica, lo que significa que las soluciones actuales deben combinar datos, aplicaciones tecnológicas y métodos para que sean exitosas.