Duas pessoas estão debatendo

Uma cartilha sobre preparação de dados aumentada

Acelere o tempo de insights da sua empresa com aprendizado de máquina e outras análises aumentadas.


O que é preparação de dados aumentada?

Dito de forma simples, a preparação de dados aumentada capacita empresários e outros trabalhadores que não possuem profundo conhecimento em ciência e análise de dados para criar conjuntos de dados ricos e confiáveis para análise. Habilitadas por aprendizado de máquina (ML) e inteligência artificial (IA), e fornecidas em uma plataforma automatizada de autoatendimento, as ferramentas de preparação de dados aumentada transformam o processo de encontrar e examinar dados brutos e convertê-los em formas consumíveis. Elas não substituem a inteligência humana e a consciência contextual, mas as potencializam.

Para obter vantagem competitiva, líderes, gerentes de linha de negócios, parceiros e outros contam com business intelligence (BI) e análise de negócios para fornecer insights precisos, oportunos e relevantes. Ao usar a preparação de dados aumentada, sua empresa pode ajudar a descentralizar e democratizar a preparação de dados para que mais funcionários possam ajudar a criar esses insights.


Como as ferramentas de preparação de dados aumentada são usadas?

As ferramentas de preparação de dados aumentadas simplificam a primeira e talvez a mais importante etapa do processamento de dados: a criação de conjuntos de dados necessários para criar, testar e treinar modelos de análise.

Tradicionalmente, a preparação de dados caiu no domínio de equipes técnicas que escreviam código e usavam software especializado para extrair dados de sistemas operacionais internos, limpá-los, estruturá-los e carregá-los em data warehouses. Conhecidos como extração, transformação e carregamento de dados (ETL), esses processos podem ser complexos, demorados e propensos a erros.

A maioria dos usuários de negócios médios não tinha as habilidades ou o tempo para realizar o trabalho de ETL por conta própria. Mesmo os cientistas de dados cidadãos (analistas de negócios, desenvolvedores e outros que não possuem treinamento formal em ciência de dados, mas realizam algum trabalho de análise avançada) contavam com engenheiros de dados e outros profissionais de dados para decidir quais dados analisar e como.

Os tempos mudaram. Agora, as organizações armazenam grandes volumes de dados estruturados, semiestruturados e não estruturados, como texto e imagens, em vários aplicativos e sistemas em silos. Raramente as equipes centralizadas de TI e gerenciamento de dados têm tempo e recursos para coletar e preparar dados, muito menos modelá-los e estudá-los, para dar suporte a todas as diversas iniciativas de análise de uma empresa.

Graças às ferramentas de preparação de dados aumentadas, mais pessoas podem ajudar. Apresentando interfaces de conversação do tipo apontar e clicar, as ferramentas orientam os usuários de forma constante por meio de decisões controladas por dados relacionadas à preparação de dados.


Quais são as etapas de preparação de dados?

Também conhecido como estruturação de dados, o processo de preparação de dados compreende uma série de atividades sequenciais para integração, estruturação e organização de dados. As etapas de preparação de dados, descritas abaixo em categorias comumente usadas, culminam na criação de um único conjunto de dados confiável para informar um ou mais casos de uso específicos:

  1. Coleta. Guiada pelos objetivos da análise pretendida, a equipe de análise identifica e extrai dados relevantes de fontes de dados internas e externas. Por exemplo, se o objetivo for esclarecer as preferências de produtos do cliente, a equipe pode extrair dados quantitativos e qualitativos de aplicativos de CRM e vendas, pesquisas de clientes e comentários em mídia social. Durante esta fase, a equipe deve consultar todos os participantes e usar conjuntos de dados confiáveis, ou correrá o risco de obter resultados tendenciosos ou distorcidos.
  2. Descoberta e criação de perfil. Por meio de estágios iterativos de exploração e análise, a equipe examina os dados brutos coletados para entender melhor a estrutura geral e o conteúdo individual de cada conjunto de dados. Ela também estuda as relações entre os conjuntos de dados. Por meio da criação de perfil de dados, a equipe coleta e resume estatísticas sobre anomalias, inconsistências, lacunas e outros problemas que devem ser resolvidos antes que os dados sejam usados para desenvolver e treinar modelos de análise. Por exemplo, clientes, pacientes e outros conjuntos de dados contendo nomes e endereços armazenados nos sistemas geralmente variam na ortografia e de outras maneiras.
  3. Limpeza. Nesta fase, a equipe deve corrigir meticulosamente todos os problemas de qualidade de dados. A limpeza envolve atividades, como preencher valores ausentes, corrigir ou remover dados defeituosos, filtrar dados irrelevantes e mascarar dados confidenciais. Demorada e tediosa, esta etapa de preparação de dados é fundamental para garantir a precisão e a consistência dos dados. A limpeza é particularmente importante ao se trabalhar com big data devido aos volumes enormes de dados que devem ser harmonizados.
  4. Estruturação. Esta etapa envolve o desenvolvimento de um esquema de banco de dados que descreve como organizar os dados em tabelas para permitir o fácil acesso por ferramentas de modelagem. O esquema pode ser considerado uma estrutura permanente que abrigará dados em constante mudança de forma unificada. Todos os componentes esquemáticos são definidos.
  5. Transformação e enriquecimento. Assim que o esquema for definido, a equipe deve verificar se todos os dados estão em conformidade. Alguns formatos de dados existentes precisarão ser alterados, como ajustar hierarquias e adicionar, mesclar ou excluir colunas e campos. A equipe também pode aprimorar os dados com informações comportamentais, demográficas, geográficas e outras informações contextuais extraídas de fontes dentro e fora da organização. Um conjunto de dados enriquecido permite que os modelos de análise sejam treinados com conjuntos de dados mais abrangentes e, portanto, forneçam insights mais precisos e valiosos.
  6. Validação. Agora, a equipe deve usar scripts ou ferramentas escritas para verificar a qualidade e a precisão de seu conjunto de dados, bem como, confirmar que a estrutura de dados e a formatação estão alinhadas com os requisitos do projeto para que os usuários e as ferramentas de modelagem de projeto possam acessar facilmente os dados. Dependendo do tamanho do conjunto de dados, a equipe pode optar por testar uma amostra de dados em vez do conjunto de dados completo. Ela deve resolver quaisquer problemas antes de passar para a etapa final do processo de preparação de dados.
  7. Publicação. Quando a equipe está confiante de que seus dados são de alta qualidade, ela os transfere para o data warehouse, data lake ou outro repositório de destino onde a equipe e outras pessoas da organização podem acessá-los para desenvolver e testar modelos de análise.

Como o aprendizado de máquina aprimora a preparação e a modelagem de dados?

A análise de dados aumentada é possibilitada pela análise aumentada, incluindo ML, automação, geração de linguagem natural (NLG) e visualização de dados. Por exemplo, a descoberta de dados aumentada depende muito do ML, um tipo de IA que usa algoritmos e modelos estatísticos para aprender com os dados e se adaptar sem assistência humana.

Usando ML, as ferramentas de descoberta aplicam o conhecimento aprendido para determinar quais tipos de conjuntos de dados são necessários, considerando o problema que o modelo deve resolver e a hipótese a ser testada. Elas também consideram o contexto em que os conjuntos de dados foram coletados. Em seguida, as ferramentas rapidamente analisam e fazem inferências de padrões nos conjuntos de dados, além de sugerir de forma inteligente quais combinar.

A descoberta de dados aumentada não apenas ML, mas também ajuda a garantir uma preparação eficaz de dados para modelos de aprendizado de máquina. Por exemplo, as ferramentas de descoberta usam algoritmos de ML para gerar recomendações aos usuários sobre como limpar e enriquecer dados e transformá-los em um formato apropriado para análise de modelo de ML.


Como sua empresa pode se beneficiar da preparação de dados aumentada?

Todos os dias, líderes de negócios e equipes de todos os setores identificam maneiras novas e estratégicas de capitalizar os dados. Com a preparação de dados aumentada, eles podem atuar em ideias inovadoras para projetos de análise sem a ajuda de profissionais de TI.

Os benefícios da preparação de dados aumentada podem atingir toda a sua organização:

  • Aumento de produtividade — Ao usar interfaces de usuário gráficas e intuitivas com ferramentas de autoatendimento automatizadas, usuários de negócios qualificados podem coletar rapidamente dados de várias fontes diferentes e executá-los por meio de criação de perfil, limpeza e outras funções importantes de preparação de dados. A preparação de dados aumentada também ajuda a reduzir ou eliminar tarefas demoradas para profissionais de TI e de dados.
  • Entrega de dados de alta qualidade — Ao preparar dados manualmente, mesmo cientistas de dados experientes podem acidentalmente introduzir dados imprecisos e irrelevantes ou deixar de incluir dados importantes. A preparação de dados aumentada pode localizar e corrigir automaticamente problemas de qualidade, ajudando a garantir que seu conjunto de dados produza resultados válidos.
  • Aceleração de ROI — Maior produtividade no front-end dos projetos de análise deixa mais tempo e recursos para modelagem, mineração e análise de dados. Em vez de ficarem presos a tarefas manuais de preparação de dados, os usuários podem se concentrar em estudar insights e aplicá-los para transformar as operações e os desafios de negócios. Uma vez construído, um conjunto de dados pode ter diversas aplicações, otimizando ainda mais seus investimentos.
  • Impulsionamento da democratização de dados — Equipados para ajudar a preparar e publicar dados para análise, os usuários não especializados podem se sentir mais à vontade em trabalhar com dados brutos. Além disso, os usuários mais familiarizados com o problema de análise podem usar seu conhecimento e experiência de negócios para selecionar conjuntos de dados estatisticamente significativos e ajudar a estruturar e enriquecer os dados para dar suporte às metas do projeto. À medida que a instrução em dados cresce em sua organização, as pessoas ganham mais confiança nas decisões e estratégias controladas por dados.
  • Aumento da agilidade dos negócios — Capazes de preparar com rapidez conjuntos de dados abrangentes, os usuários podem lançar rapidamente novos projetos de análise para dar suporte às mudanças nas condições de negócios e de marketplace. Quanto mais rápido for o tempo para obter insights, mais rápido sua empresa poderá aplicar esses insights para obter vantagem competitiva.

Como as empresas estão aplicando a preparação de dados aumentada?

Em todos os setores, as empresas usam business intelligence e ferramentas de análise de negócios para obter maior valor dos dados. Por exemplo, tendo incorporado a preparação de dados aumentada aos seus fluxos de trabalho, as seguintes organizações reuniram e processaram dados com eficiência para alimentar suas análises:

Bancos

Para entender melhor quais clientes são mais propensos a usar os serviços de investimento em patrimônio (e depois direcioná-los com promoções personalizadas) um grande banco rapidamente reuniu e consolidou dados de contas, depósitos, saques e cartões de crédito em toda a sua rede de agências e caixas eletrônicos. Também extraiu dados demográficos, socioeconômicos e outros dados contextuais de fontes externas.

Varejo

Uma rede internacional de farmácias procurou saber por que sua marca de maquiagem teve desempenho inferior em alguns locais, mas não em outros. Ela combinou dados de pontos de venda, categorias de produto, fidelidade de clientes, do Net Promoter Score e dados de preços de seus sistemas internos com dados geográficos externos para construir um rico conjunto de dados para análise.

Agricultura

Uma pequena empresa de tecnologia agrícola queria usar os algoritmos de seus proprietários para estudar as tendências de rendimento das colheitas em áreas assoladas pela seca para poder aconselhar pequenos agricultores sobre quais culturas plantar e quando. Capitalizando em pools de big data mantidos por organizações públicas e privadas, ela extraiu e combinou dados relativos a diversas variáveis, como condições climáticas, temperaturas do solo, teor de umidade, uso da água e status das colheitas.

Jurídico

Um escritório de advocacia que defende um cliente corporativo em um grande litígio analisou milhões de e-mails de clientes e outros documentos não estruturados em busca de histórico pertinente. Ao reduzir drasticamente as atividades manuais e repetitivas de descoberta de dados, a empresa teve mais tempo para revisar e analisar descobertas relevantes.

Governo

Um governo estadual dos EUA queria empregar práticas de manutenção preditiva para ajudar a reduzir os custos de combustível, manutenção e serviços de sua frota de automóveis e maquinário pesado. Para determinar melhor quais e quando os veículos precisavam de manutenção e a proximidade em tempo real de cada veículo a uma instalação de serviço, a equipe de gerenciamento de ativos integrou informações de registros de manutenção de veículos e sensores de desempenho com dados de GPS externos.


Como sua empresa pode implementar uma solução de preparação de dados aumentada?

Antes de apresentar a preparação de dados aumentada aos funcionários, sua empresa deve ganhar a confiança deles. Alguns indivíduos podem ter a preocupação de que as novas tecnologias mudarão ou até eliminarão suas funções. Para promover a aceitação, os gerentes podem convidar as equipes afetadas para ajudar a definir novos processos de preparação de dados e discutir como suas funções podem evoluir. Além disso, promover proativamente a instrução sobre dados em toda a organização, especialmente entre as equipes que não estão familiarizadas com a análise de dados aumentada, ajuda a aumentar a confiança nos insights resultantes.

Ao escolher uma solução de preparação de dados de autoatendimento, faça as seguintes perguntas:

  • A solução se conectará a uma variedade de fontes de dados no local ou na nuvem?
  • Ela pode trabalhar com dados brutos semiestruturados e não estruturados?
  • Até que ponto ela automatiza o processo de preparação de dados?
  • Possui ferramentas robustas e intuitivas?
  • A solução oferece suporte à colaboração entre organizações e ao compartilhamento de dados?
  • Ela pode ser redimensionada para lidar com big data?
  • Ela oferecerá suporte a plataformas de análise baseadas em nuvem? Se sim, quais?
  • Ela permitirá segurança e privacidade de dados e dará suporte à conformidade regulamentar?
  • Qual será o custo, considerando licenças de software, requisitos de processamento e armazenamento, integração e treinamento de funcionários?

Depois de decidir sobre uma solução, comece pequeno com a implementação. Peça aos departamentos de ciência de dados, negócios e outros participantes para selecionar algumas equipes com conhecimento de dados com casos de uso que se prestam à preparação de dados aumentada. Com base nos objetivos da sua empresa para análise de dados aumentada, implemente gradualmente a solução para outras equipes.

Obtenha mais valor de seus dados com o Microsoft Power BI

O Microsoft Power BI pode ajudar sua empresa a tornar a análise de dados aumentada um processo mais simples, rápido e inclusivo. Solicitadas por consultas e recomendações NLG e auxiliada por visualizações de dados, as equipes de negócios podem preparar com mais rapidez e confiança conjuntos de dados precisos e abrangentes que geram insights de qualidade.


Perguntas frequentes

O que é preparação de dados?

A preparação de dados envolve todos os estágios da criação de conjuntos de dados de qualidade, precisos e abrangentes para business intelligence e análise de negócios. Ela ajuda a garantir que uma organização possa gerar insights necessários para obter vantagem competitiva.

O que são ferramentas de preparação de dados?

As ferramentas de preparação de dados facilitam a coleta de dados, descoberta e criação de perfil, limpeza, estruturação, transformação e enriquecimento, validação e publicação.

O que é o processo de preparação de dados aumentada?

O processo de preparação de dados aumentada usa análises aumentadas, como ML, NLG e visualização de dados, para transformar atividades geralmente entediantes e demoradas em fluxos de trabalho automatizados e mais inteligentes.

Por que o processo de preparação de dados aumentada é importante?

A preparação aumentada de dados pode oferecer vários benefícios. Ela pode aumentar a produtividade, realizar análises usando dados de alta qualidade, acelerar o ROI em projetos de análise, democratizar os dados e melhorar a agilidade dos negócios.

O que é a preparação de dados para aprendizado de máquina?

A preparação eficaz de dados para aplicativos de aprendizado de máquina fornece conjuntos de dados de qualidade para criar e testar modelos de ML. Por exemplo, muitas ferramentas de preparação de dados aumentada empregam algoritmos de ML para fazer recomendações aos usuários sobre como limpar e enriquecer dados e transformá-los em um formato apropriado para análise de modelo de ML.