Dos personas hablando

Un manual básico sobre la preparación aumentada de datos

Reduzca el tiempo necesario para que su empresa logre información gracias al aprendizaje automático y a otras estrategias de analítica aumentada.


¿Qué es la preparación aumentada de datos?

La preparación aumentada de datos no es más que una ayuda para que los empresarios y otros trabajadores que carecen de conocimientos profundos en ciencia y análisis de datos puedan crear conjuntos de datos ricos y fiables para el análisis. Con la ayuda del aprendizaje automático (ML) y la inteligencia artificial (IA), las herramientas de preparación aumentada de datos (que residen en una plataforma automatizada y de autoservicio) transforman el proceso necesario para buscar y examinar los datos sin procesar, así como para convertirlos a formas consumibles. No sustituyen a la inteligencia humana y el conocimiento del contexto, sino que los mejoran.

Para lograr una ventaja competitiva, los líderes, los administradores de líneas de negocio, los partners y muchos otros confían en la inteligencia empresarial (BI) y en el análisis de negocios para obtener información precisa y relevante en el momento adecuado. Gracias a la preparación aumentada de datos, su empresa puede descentralizar y democratizar la preparación de los datos, de modo que haya más empleados implicados en la creación de estos conocimientos.


¿Cómo se usan las herramientas de preparación aumentada de datos?

Las herramientas de preparación aumentada de datos simplifican el primer paso (quizá el más importante) del procesamiento de datos: la creación de los conjuntos de datos necesarios para construir, probar y entrenar los modelos de análisis.

La preparación de los datos siempre había sido cosa de los equipos técnicos que programaban y utilizaban un software especializado para extraer los datos de los sistemas operativos internos, limpiarlos, estructurarlos y cargarlos en los almacenes de datos. Estos procesos se conocían como ETL (extracción, transformación y carga, por sus siglas en inglés), y podían ser complejos, requerir mucho tiempo y provocar errores.

Por lo general, la mayoría de usuarios empresariales no tenían las habilidades o el tiempo necesarios para llevar a cabo el trabajo de ETL. Incluso los científicos de datos de perfil menos técnico (como analistas de negocio, desarrolladores y otros que carecían de formación formal en ciencia de datos, pero que hacían algún trabajo de análisis avanzado) dependían de ingenieros de datos y otros profesionales para decidir qué datos analizar y cómo hacerlo.

Las cosas han cambiado y, ahora, las organizaciones almacenan enormes volúmenes de datos estructurados, semiestructurados y no estructurados —lo que incluye texto e imágenes— en múltiples sistemas y aplicaciones aisladas. Normalmente, los equipos centralizados de informática y gestión de datos no tienen tiempo ni recursos para recopilar y preparar, y mucho menos modelar o estudiar, el volumen de datos necesario para dar respaldo a todas las iniciativas de análisis de una empresa.

Con las herramientas de preparación aumentada de datos, se abre la puerta a que más personas colaboren. Las interfaces son conversacionales y del tipo "apuntar y hacer clic", y las herramientas guían de forma progresiva al usuario para que tome decisiones relacionadas con la preparación de datos.


¿Cuáles son los pasos en la preparación de datos?

La preparación de datos (conocida también como limpieza, transformación o "munging") abarca una serie de actividades secuenciales para integrar, estructurar y organizar los datos. Los pasos de la preparación de datos, que se describen a continuación en categorías de uso frecuente, desembocan en la creación de un conjunto de datos único y fiable para aportar información a uno o más casos de uso específicos:

  1. Recopilación. Con los objetivos del análisis previsto como base, el equipo de análisis identifica y extrae los datos pertinentes de orígenes de datos internos y externos. Por ejemplo, si el objetivo es obtener información sobre las preferencias de productos de los clientes, el equipo puede extraer datos cuantitativos y cualitativos de las aplicaciones de CRM y ventas, de las encuestas a los clientes y de los comentarios en las redes sociales. Durante esta fase, el equipo consultará a todas las partes interesadas y utilizará conjuntos de datos fiables; de lo contrario, podría obtener resultados sesgados o parciales.
  2. Descubrimiento y generación de perfiles. A través de etapas iterativas de exploración y análisis, el equipo examina los datos sin procesar que ha recopilado a fin de comprender mejor la estructura general y el contenido individual de los conjuntos y, además, estudia las relaciones entre estos. Al generar perfiles de datos, el equipo recopila y resume las estadísticas sobre anomalías, incoherencias, lagunas y otros problemas que deben abordarse antes de utilizar los datos para desarrollar y entrenar modelos analíticos; por ejemplo, los conjuntos de datos de clientes, pacientes y otras personas que contienen nombres y direcciones almacenados en sistemas distintos suelen contener diferencias de ortografía y otros factores.
  3. Limpieza. En esta fase, el equipo debe corregir meticulosamente todos los problemas de calidad en los datos. La limpieza implica cosas como rellenar los valores que faltan, corregir o eliminar datos defectuosos, filtrar datos irrelevantes y enmascarar datos confidenciales. Este paso de preparación de los datos requiere mucho tiempo y es tedioso, pero es fundamental para garantizar la precisión y la coherencia de los datos; además, es especialmente importante al trabajar con macrodatos, debido al enorme volumen que hay que armonizar.
  4. Estructuración. Consiste en desarrollar un esquema de base de datos que describa cómo organizar los datos en tablas para que las herramientas de modelado puedan acceder fácilmente. El esquema es como una estructura permanente que almacenará de forma unificada datos que van cambiando constantemente. Todos los componentes del esquema deben definirse.
  5. Transformación y enriquecimiento. Tras establecer el esquema, el equipo debe asegurarse de que todos los datos cumplan con los criterios correspondientes, así que habrá que modificar algunos formatos de datos; por ejemplo, habrá que ajustar jerarquías y añadir, fusionar o eliminar columnas y campos. El equipo también puede enriquecer los datos con información de comportamiento, demográfica, geográfica y de otra naturaleza contextual extraída de distintos orígenes, tanto dentro como fuera de la organización. Un conjunto de datos enriquecidos permite entrenar los modelos de análisis con conjuntos de datos más completos, y ofrecer así una visión más precisa y de mayor valor.
  6. Validación. En este punto, el equipo debe utilizar herramientas o guiones escritos para verificar la calidad y la precisión del conjunto de datos. Además, debe confirmar que la estructura y el formato concuerden con los requisitos del proyecto, de modo que los usuarios y las herramientas de modelado puedan acceder fácilmente a los datos. Dependiendo del tamaño del conjunto de datos, el equipo puede probar solo una muestra en lugar del conjunto completo. Antes de pasar a la última fase del proceso de preparación, todos los problemas deberían resolverse.
  7. Publicación. Cuando el equipo está convencido de que los datos son de alta calidad, estos se transfieren al repositorio, almacenamiento de datos o lago de datos que corresponda. Una vez ahí, tanto el equipo como otras personas de la organización podrán acceder a ellos para desarrollar y probar modelos de análisis.

¿Cómo mejora la preparación y el modelado de datos gracias al aprendizaje automático?

La analítica aumentada de datos es posible gracias a analítica aumentada,, lo que incluye el ML, la automatización, la generación de lenguaje natural (NLG) y la visualización de datos. Por ejemplo, el descubrimiento aumentado de datos utiliza muchísimo el ML, un tipo de IA con algoritmos y modelos estadísticos para aprender de los datos y adaptarse sin ayuda humana.

Con el ML, las herramientas de descubrimiento aplican el conocimiento obtenido para determinar qué tipos de conjuntos de datos son necesarios según el problema que el modelo debe resolver y la hipótesis que queremos probar. También tienen en cuenta el contexto en el que los conjuntos de datos se han recopilado. Después, las herramientas ejecutan un análisis y extraen inferencias rápidamente de los patrones existentes en los conjuntos de datos, tras lo cual, sugieren de forma inteligente cuáles son los que se deben combinar.

El descubrimiento aumentado de datos no se limita a emplear el ML, sino que también contribuye a la eficacia en la preparación de datos para los modelos de aprendizaje automático. Por ejemplo, las herramientas de descubrimiento emplean algoritmos de ML para hacer recomendaciones a los usuarios sobre cómo limpiar y enriquecer los datos y transformarlos a un formato adecuado para el análisis de modelos de ML.


¿Qué puede hacer su empresa para disfrutar de las ventajas de la preparación aumentada de datos?

Todos los días, los líderes y equipos empresariales de todos los sectores identifican nuevas estrategias para aprovechar los datos. Con la preparación aumentada de datos, podrán tomar medidas basadas en ideas innovadoras para proyectos de análisis sin la ayuda de los profesionales informáticos.

Las ventajas de la preparación aumentada de datos pueden llegar a toda su organización:

  • Mejora la productividad: gracias a interfaces de usuario intuitivas y gráficas con herramientas automatizadas y de autoservicio, los usuarios empresariales cualificados pueden recopilar datos rápidamente de diferentes orígenes y pasarlos por procesos de generación de perfiles, limpieza y otras funciones importantes en la preparación. La preparación aumentada de datos también ayuda a reducir o eliminar tareas lentas que los informáticos o profesionales de datos deben hacer.
  • Aporta datos de mayor calidad: cuando se preparan datos manualmente, hasta los científicos de datos más experimentados pueden acabar introduciendo datos inexactos e irrelevantes u omitir datos importantes. La preparación aumentada de datos permite encontrar y corregir automáticamente los problemas de calidad, garantizando así que el conjunto de datos genere resultados válidos.
  • Acelera el retorno de la inversión: cuando aumenta la productividad en el front-end de los proyectos de análisis, tenemos más tiempo y recursos para el modelado, la extracción y el análisis de datos. Ya no es necesario dedicar montones de tiempo a preparar datos manualmente; en lugar de eso, los usuarios se pueden centrar en el estudio de los conocimientos y en su aplicación para transformar las operaciones y los retos de la empresa. Cuando el conjunto de datos ya se ha generado, este puede tener varias aplicaciones, lo que optimiza aún más la inversión.
  • Fomenta la democratización de los datos: los usuarios no especializados pueden trabajar tranquilos con datos sin procesar, ya que cuentan con lo necesario para contribuir a la preparación de los datos y la publicación de estos para el análisis. Por otro lado, los usuarios que están más familiarizados con la analítica pueden recurrir a sus conocimientos y su experiencia en la empresa para seleccionar conjuntos de datos estadísticamente significativos; de este modo, contribuyen a estructurar y enriquecer los datos para respaldar los objetivos del proyecto. Lo que ocurrirá en la empresa es lo siguiente: a medida que la alfabetización de datos vaya creciendo, la gente confiará cada vez más en las decisiones y estrategias basadas en datos.
  • Mejora la agilidad empresarial: como pueden preparar con rapidez conjuntos de datos completos, los usuarios están en condiciones de iniciar rápidamente nuevos proyectos de análisis en respuesta a los cambios del negocio y el mercado. Cuanto menos tardemos en obtener conocimientos, menos tardará la empresa en aplicar esa información para obtener una ventaja competitiva.

¿Cómo están utilizando las empresas la preparación aumentada de datos?

En todos los sectores, las empresas utilizan inteligencia empresarial y herramientas de análisis de negocios para obtener un mayor valor de los datos. Por ejemplo, tras incorporar la preparación aumentada de datos en sus flujos de trabajo, las siguientes organizaciones lograron recopilar y procesar eficazmente los datos antes de introducirlos en las herramientas de análisis:

Banca

Para comprender mejor cuáles son los clientes con una mayor probabilidad de utilizar servicios de inversión patrimonial —y, por lo tanto, enviarles promociones personalizadas—, un importante banco recopiló y agrupó rápidamente los datos de cuentas, depósitos, retirada de efectivo y tarjetas de crédito por toda su red de sucursales y cajeros automáticos. También recopiló información demográfica, socioeconómica y otros datos contextuales de fuentes externas.

Comercio al por menor

Una cadena internacional de farmacias quería saber por qué el maquillaje de su marca tenía un rendimiento bajo en algunos lugares y en otros no. La empresa combinó datos de sus puntos de venta, la categoría de los productos, la fidelidad de los clientes, la Net Promoter Score y los precios de sus sistemas internos junto con datos geográficos externos, a fin de elaborar un conjunto enriquecido de datos para el análisis.

Agricultura

Una pequeña empresa de tecnología agrícola quería utilizar sus propios algoritmos para estudiar las tendencias de rendimiento de los cultivos en zonas afectadas por la sequía; el objetivo era poder asesorar a los pequeños agricultores sobre qué cultivos plantar y cuándo hacerlo. La empresa aprovechó los grupos de macrodatos en organizaciones públicas y privadas para obtener y combinar datos relativos a múltiples variables, como las condiciones meteorológicas, las temperaturas del suelo, el volumen de humedad, el uso del agua y el estado de los cultivos.

Asuntos legales

Un bufete de abogados que defendía a un cliente corporativo en una demanda muy importante analizó millones de correos electrónicos de clientes y otros documentos no estructurados en busca de antecedentes relacionados. Al reducir drásticamente las actividades manuales y repetitivas en este proceso, el bufete ahorró tiempo y pudo emplearlo en revisar y analizar los descubrimientos más importantes.

Administración Pública

Un gobierno estatal en EE. UU. quería emplear métodos de mantenimiento predictivo para reducir los costes de combustible, mantenimiento y servicio en su flota de automóviles y maquinaria pesada. Para determinar con mayor precisión qué vehículos necesitaban mantenimiento y cuándo debía llevarse a cabo, así como la proximidad en tiempo real de cada uno de estos vehículos a un lugar en el que se pudiera hacer este trabajo, el equipo de gestión de activos integró la información de los registros de mantenimiento de vehículos y los sensores de rendimiento con datos externos de GPS.


¿Qué puede hacer su empresa para poner en marcha una solución de preparación aumentada de datos?

Antes de hablar con los empleados sobre la preparación aumentada de datos, la empresa debe ganarse su confianza. A algunas personas les preocupa que las nuevas tecnologías cambien o incluso eliminen sus funciones. Para fomentar la aceptación, los directivos pueden invitar a los equipos implicados a que ayuden a definir los nuevos procesos de preparación de datos y a hablar sobre cómo pueden evolucionar sus funciones. Además, si fomentamos de forma proactiva la alfabetización de datos en toda la empresa, sobre todo en los equipos menos familiarizados con el análisis aumentado de datos, contribuiremos a mejorar la confianza en los conocimientos resultantes.

Cuando elija una solución de preparación de datos en autoservicio, hágase las siguientes preguntas:

  • ¿Es una solución que se podrá conectar a diferentes orígenes de datos, ya sea de forma local o en la nube?
  • ¿Funciona con datos sin procesar semiestructurados o no estructurados?
  • ¿Qué nivel de automatización le aporta al proceso de preparación de datos?
  • ¿Dispone de herramientas sólidas e intuitivas?
  • ¿Es una solución con la que es posible colaborar y compartir datos con otras organizaciones?
  • ¿Se puede escalar para gestionar macrodatos?
  • ¿Será compatible con plataformas de análisis basadas en la nube? Si es así, ¿con cuáles?
  • ¿Protegerá la seguridad y la privacidad de los datos y contribuirá al cumplimiento de la normativa?
  • ¿Cuál será el coste total (teniendo en cuenta las licencias de software, los requisitos de procesamiento y almacenamiento y la incorporación y formación de los empleados)?

Cuando haya optado por una solución, empiece con la implementación a pequeña escala. Pídales a los científicos de datos, a la empresa y a otras partes interesadas que seleccionen algunos equipos con conocimientos de datos y con casos de uso que sean adecuados para la preparación aumentada. Tras esto, despliegue gradualmente la solución a otros equipos, según los objetivos de su empresa para el análisis aumentado de datos.

Limpieza y transformación para obtener un mayor valor de sus datos con Microsoft Power BI

Con Microsoft Power BI, su empresa podrá lograr que la analítica de datos aumentada sea un proceso más sencillo, rápido e integrador. Con la ayuda de las consultas y recomendaciones con generación de lenguaje natural (NLG) y las visualizaciones de datos, los equipos empresariales pueden preparar con mayor rapidez y confianza conjuntos de datos precisos y completos que generen información de calidad.


Preguntas frecuentes

¿Qué es la preparación de datos?

La preparación de datos abarca todas las etapas en la creación de conjuntos de datos de calidad, precisos y completos para el análisis de negocios y la inteligencia empresarial, y contribuye a que una organización pueda generar la información necesaria para obtener una ventaja competitiva.

¿Qué son las herramientas de preparación de datos?

Las herramientas para la preparación de datos facilitan la recopilación de datos, el descubrimiento, la generación de perfiles, la limpieza, la estructuración, la transformación, el enriquecimiento, la validación y la publicación.

¿Cuál es el proceso de preparación aumentada de datos?

La preparación aumentada de datos emplea la analítica aumentada, lo que incluye el aprendizaje automático (ML), la generación de lenguaje natural y la visualización de datos, para transformar tareas pesadas y tediosas en flujos de trabajo automatizados y más inteligentes.

¿Por qué es importante la preparación aumentada de datos?

La preparación aumentada de datos aporta varias ventajas: puede mejorar la productividad, ejecutar análisis utilizando datos de mayor calidad, acelerar el rendimiento de la inversión en proyectos de análisis, democratizar los datos y reforzar la agilidad de la empresa.

¿Qué es la preparación de datos en el contexto del aprendizaje automático?

Si los datos se prepararan eficazmente para las aplicaciones de aprendizaje automático, obtenemos conjuntos de datos de calidad para construir y probar modelos de aprendizaje automático. Por ejemplo, muchas herramientas de preparación aumentada de datos emplean algoritmos de ML para hacer recomendaciones a los usuarios sobre cómo limpiar y enriquecer los datos y transformarlos a un formato adecuado para el análisis de modelos de ML.