
Orientações para a preparação de dados aumentada
Agilize a obtenção de informações na sua empresa com o machine learning e outras análises aumentadas.
Em que consiste a preparação de dados?
De uma forma simples, a preparação de dados aumentada capacita as empresas e pessoas e outros trabalhadores sem grandes conhecimentos no campo da ciência e análise de dados para criarem conjuntos de dados detalhados e fiáveis para análise. Com tecnologia de machine learning (ML) e inteligência artificial (IA) executada numa plataforma self-service automatizada, as ferramentas de preparação de dados aumentada transformam o processo de localização e exame de dados não processados, bem como de conversão em formatos consumíveis. Não substituem a inteligência humana nem a perceção contextual. Melhoram-nas.
Para ganharem vantagem competitiva, os líderes, os gestores de linha de negócio, os parceiros e outros intervenientes dependem da business intelligence (BI) e da análise de negócio para obterem informações precisas, oportunas e relevantes. Ao utilizar a preparação de dados aumentada, a sua empresa pode ajudar a descentralizar e democratizar a preparação de dados para que cada vez mais colaboradores ajudem a criar essas informações.
Como são utilizadas as ferramentas de preparação de dados aumentada?
As ferramentas de preparação de dados aumentada simplificam o primeiro, e talvez o mais importante, passo do processamento de dados: criar conjuntos de dados necessários para a criação, o teste e a preparação de modelos de análise.
Tradicionalmente, a preparação de dados incumbia às equipas técnicas que escreviam código e utilizavam software especializado para extrair dados a partir dos sistemas operativos internos, limpavam e estruturavam os dados, e carregavam-nos em armazéns de dados. Conhecidos como extração, transformação e carregamento de dados (ETL), estes processos podiam ser complexos, morosos e propensos a erros.
A maioria dos utilizadores empresariais comuns não disponham de competências nem de tempo para a realização do trabalho de ETL. Até mesmo os cientistas de dados dos cidadãos (analistas de negócios, programadores e outros sem formação no domínio da ciência dos dados, mas que realizavam algum trabalho de análise avançada) dependiam dos engenheiros de dados e outros profissionais dos dados para decidirem que dados deveriam ser analisados e como.
Tudo mudou. Agora, as organizações armazenam enormes volumes de dados estruturados, semiestruturados e não estruturados, incluindo texto e imagens, em vários sistemas e aplicações em silo. É raro as equipas de TI e gestão de dados centralizadas disporem de tempo e recursos para recolher e preparar dados, e muito menos para modelá-los e estudá-los tendo em vista dar apoio às mais variadas iniciativas de análise de uma empresa.
Graças às ferramentas de preparação de dados aumentada, mais pessoas podem intervir e ajudar. Com interfaces conversacionais de apontar e clicar, as ferramentas orientam os utilizadores ao longo de decisões orientadas por dados relacionadas com a preparação de dados.
Quais são os passos da preparação de dados?
Também denominado data wrangling ou munging, o processo de preparação de dados é composto por um conjunto de atividades sequenciais de integração, estruturação e organização dos dados. Os passos da preparação de dados, descritos abaixo em categorias geralmente utilizadas, culminam na criação de um conjunto de dados único e fidedigno definido para informar um ou mais casos de utilização:
- Recolha. Orientada pelos objetivos da análise pretendida, a equipa de análise identifica e extrai dados relevantes a partir de origens de dados internos e externos. Por exemplo, se o objetivo for esclarecer as preferências de produtos dos clientes, a equipa pode extrair dados quantitativos e qualitativos de aplicações de CRM e vendas, inquéritos a clientes e comentários em redes sociais. Durante esta fase, a equipa deve consultar todos os intervenientes e utilizar conjuntos de dados fiáveis. Caso contrário, arrisca-se a chegar a resultados tendenciosos ou distorcidos.
- Deteção e análise para otimização. Através de fases iterativas de exploração e análise, a equipa examina os dados não processados recolhidos para compreender melhor a estrutura global do conteúdo como um todo ou individualizado existente em cada conjunto de dados. Também estuda as relações entre conjuntos de dados. Através da análise para otimização, a equipa recolhe e resume estatísticas sobre anomalias, inconsistências, lacunas e outros problemas que têm de ser resolvidos antes de os dados serem utilizados no desenvolvimento e na preparação de modelos de análise. Por exemplo, os conjuntos de dados de clientes, doentes e outros com nomes e moradas armazenados em vários sistemas têm frequentemente abordagens ortográficas diferentes e outras disparidades.
- Limpeza. Nesta fase, a equipa tem de corrigir meticulosamente todos os problemas de qualidade dos dados. A limpeza envolve atividades como preenchimento de valores em falta, correção ou remoção de dados defeituosos, filtragem de dados irrelevantes e mascaramento de dados confidenciais. Embora seja moroso e entediante, este passo da preparação de dados é fundamental para garantir a precisão e a consistência dos dados. A limpeza é particularmente importante quando trabalha com macrodados devido aos volumes de dados que é preciso harmonizar.
- Estruturação. Este passo implica o desenvolvimento de um esquema de base de dados que descreve como os dados são organizados em tabelas para permitir um acesso sem problemas às ferramentas de modelação. O esquema pode ser considerado uma estrutura permanente que irá alojar dados em constante mudança de uma forma unificada. São definidos todos os componentes esquemáticos.
- Transformação e melhoramento. Após a definição do esquema, a equipa tem de assegurar a conformidade de todos os dados. Alguns formatos de dados existentes terão de ser alterados mediante, por exemplo, o ajuste das hierarquias e a adição, união ou eliminação de colunas e campos. A equipa também pode melhorar os dados com informações comportamentais, demográficas, geográficas e contextuais extraídas a partir de origens internas ou externas à organização. Um conjunto de dados melhorado permite que os modelos de análise sejam preparados com conjuntos de dados mais completos e, por conseguinte, forneçam informações mais precisas e valiosas.
- Validação. Agora, a equipa tem de utilizar guiões escritos ou ferramentas para verificar a qualidade e a precisão do conjunto de dados. Também deve confirmar se a estrutura e a formatação dos dados cumprem os requisitos do projeto para que os utilizadores e as ferramentas de modelação possam aceder facilmente aos dados. Consoante o tamanho do conjunto de dados, a equipa pode optar por testar uma amostra de dados e não todo o conjunto de dados. Tal deve resolver quaisquer problemas antes de avançar para o último passo do processo de preparação de dados.
- Publicação. Quando a equipa tem a certeza de que os dados são de alta qualidade, transfere-os para o armazém de dados de destino, data lake ou outro repositório. Aqui, a equipa e outros intervenientes da organização podem aceder aos dados para desenvolverem e testarem modelos de análise.
De que modo o machine learning melhora a preparação e a modelação de dados?
A análise de dados aumentada depende da análise aumentada, incluindo ML, automatização, geração de linguagem natural (NLG) e visualização de dados. Por exemplo, a deteção de dados aumentada depende fortemente do ML, um tipo de IA que utiliza algoritmos e modelos estatísticos para aprender a partir de dados e adaptar sem assistência humana.
Através do ML, as ferramentas de deteção aplicam os conhecimentos aprendidos para ponderar que tipos de conjuntos de dados são necessários dado o problema que o modelo deve resolver e a hipótese a ser testada. Também consideram o contexto de recolha dos conjuntos de dados. Em seguida, as ferramentas analisam e extrapolam rapidamente ilações a partir de padrões nos conjuntos de dados e sugerem inteligentemente aqueles que devem ser combinados.
A deteção de dados aumentada não só utiliza o ML, como ajuda a garantir uma preparação de dados efetiva para modelos de machine learning. Por exemplo, as ferramentas de deteção utilizam algoritmos de ML para gerar recomendações para os utilizadores sobre como limpar, melhorar e transformar os dados numa formato adequado para a análise de modelos de ML.
Como pode a sua empresa tirar partido da preparação de dados aumentada?
Dia após dia, os líderes de negócio e as equipas de diferentes setores identificam novas forma estratégicas de rentabilizarem os dados. Com a preparação de dados aumentada, agem face a ideias inovadoras para projetos analíticos sem a ajuda dos profissionais das TI.
Os benefícios da preparação de dados aumentada podem impactar toda a organização:
- Melhora a produtividade — Ao utilizarem interfaces gráficas intuitivas com ferramentas self-service automatizadas, os utilizadores empresariais altamente qualificados podem recolher rapidamente dados a partir de várias origens distintas e aplicar-lhes funções fundamentais de preparação de dados, como análise para otimização, limpeza e outras igualmente importantes. A preparação de dados aumentada também ajuda a reduzir ou eliminar tarefas morosas para os profissionais de TI e dados.
- Disponibiliza dados de maior qualidade — Durante a preparação manual de dados, até os cientistas de dados experientes podem introduzir acidentalmente dados incorretos e irrelevantes ou mesmo não incluir dados importantes. A preparação de dados aumentada pode localizar e corrigir automaticamente problemas de qualidade para ajudar a garantir que o conjunto de dados produz resultados válidos.
- Acelera o ROI — Uma maior produtividade na fase inicial dos projetos de análise disponibiliza mais tempo e recursos para a modelação, a extração e a análise de dados. Em vez de terem de realizar tarefas manuais de preparação de dados, os utilizadores podem dedicar-se a estudar e aplicar as informações para transformarem as operações e os desafios do negócio. Depois de criado, um conjunto de dados pode ter várias aplicações, otimizando ainda mais os seus investimentos.
- Fomenta a democratização dos dados — Equipados para ajudarem a preparar dados para análise, os utilizadores não especializados ganham mais à vontade para trabalharem com dados não processados. Além disso, os utilizadores mais familiarizados com o problema analítico podem tirar partido dos seus conhecimentos e competências empresariais para selecionarem conjuntos de dados estatisticamente significantes e ajudarem a estruturar e melhorar dados que apoiem os objetivos do projeto. À medida que a literacia de dados cresce na sua organização, as pessoais ganham mais confiança nas decisões e estratégias orientadas por dados.
- Melhora a agilidade do negócio — Quando conseguem preparar conjuntos de dados completos, os utilizadores podem iniciar rapidamente novos projetos analíticos que apoiam as condições mutáveis do negócio e mercado. Quanto mais rápido obtém as informações, mais rápido a sua empresa pode aplicá-las para ganhar vantagem competitiva.
Como é que as empresas estão a aplicar a preparação de dados aumentada?
Em todos os setores, as empresas utilizam a business intelligence e ferramentas de análise de negócios para gerarem valor a partir dos dados. Por exemplo, depois de terem incorporado a preparação de dados aumentada nos seus fluxos de trabalho, as seguintes organizações recolheram e processaram eficientemente os dados para alimentarem a análise:
Banca
Para compreender melhor que clientes têm maior probabilidade de utilizar serviços de investimento da riqueza e dirigir-lhes promoções personalizadas, um grande banco recolheu e consolidou rapidamente dados sobre contas, depósitos, levantamentos e cartões de crédito em todos os seus balcões e rede ATM. Também extraiu dados demográficos, socioeconómicos e contextuais a partir de origens externas.
Retalho
Uma cadeia farmacêutica internacional procurou saber por que razão o desempenho dos produtos de maquilhagem com a sua marca não era uniforme em todas as localizações. Combinou dados de pontos de vendas, categorias de produtos, fidelização dos clientes, Net Promoter Score, e preços a partir dos seus sistemas internos com dados gráficos externos para criar um conjunto de dados abrangente para análise.
Agricultura
Uma pequena empresa de tecnologia agrícola queria utilizar os seus algoritmos proprietários para estudar as tendências de colheitas em áreas atingidas pela seca para poder aconselhar pequenos agricultores sobre o que deveria ser cultivado e quando. Ao tirar partido de agrupamentos de macrodados mantidos por organizações públicas e privadas, recolheu e combinou dados pertencentes a várias variáveis, incluindo condições meteorológicas, temperaturas do solo, conteúdo de humidade, utilização da água e estado da colheita.
Legal
Uma firma de advogados que defendia uma grande empresa num processo litigioso analisou milhões de e-mails de clientes e outros documentos não estruturados em busca da história pertinente. Ao reduzir drasticamente as atividades manuais e repetitivas de deteção de dados, a firma ganhou mais tempo para rever e analisar descobertas relevantes.
Administração Pública
O governo de um dos estados dos E.U.A. queria implementar estratégias de manutenção preditiva para ajudar a reduzir os custos com combustível, manutenção e serviços relacionados com a sua frota de automóveis e maquinaria pesada. Para determinar melhor que veículos precisavam de assistência e quando, e a proximidade em tempo real às instalações de assistência de cada veículo, a equipa de gestão de ativos integrou informações provenientes de registos de manutenção dos veículos e sensores de desempenho com dados de GPS externos.
Como pode a sua empresa implementar uma solução de preparação de dados aumentada?
Antes de apresentar a preparação de dados aumentada aos seus colaboradores, a sua empresa deve ganhar a respetiva confiança. Algumas pessoas podem pensar que as novas tecnologias vão alterar ou tornar obsoletas as suas funções. Para promoverem a aceitação, os gestores podem convidar as equipas afetadas para ajudarem a definir os novos processos de preparação de dados e analisar como as respetivas funções podem evoluir. Além disso, promover proativamente a literacia de dados na organização, em especial entre as equipas que não estão familiarizadas com a análise de dados aumentada, ajuda a aumentar a confiança nas informações resultantes.
Quando tiver de escolher uma solução de preparação de dados self-service, faça as seguintes perguntas:
- A solução será compatível com diversas origens de dados, quer seja no local ou na cloud?
- Trabalha com dados não estruturados e semiestruturados?
- Em que medida automatiza o processo de preparação de dados?
- Dispõe de ferramenta robustas e intuitivas?
- A solução suporta a colaboração entre organizações e a partilha de dados?
- Pode ser dimensionada para lidar com macrodados?
- Irá suportar plataformas de análise baseadas na cloud? Se sim, quais?
- Irá salvaguardar a segurança e a privacidade dos dados e suportar a conformidade regulamentar?
- Quanto irá custar tendo em conta as licenças de software, os requisitos de processamento e armazenamento e a integração e a formação dos colaboradores?
Depois de ter escolhido uma solução, comece com uma implementação à pequena escala. Peça aos intervenientes nos domínios da ciência de dados, negócios e outros para selecionarem algumas equipas instruídas em dados com casos de utilização adequados à preparação de dados aumentada. Com base nos objetivos de análise de dados aumentada da empresa, implemente gradualmente a solução para outras equipas.
Obtenha mais valor dos seus dados com o Microsoft Power BI
O Microsoft Power BI pode ajudar a sua empresa a tornar a análise de dados aumentada um processo mais simples, rápido e inclusivo. O acesso a consultas de NLG e recomendações, e a ajuda das visualizações de dados, permite às equipas da empresa preparar com mais rapidez e confiança conjuntos de dados precisos e completos que geram informações de qualidade.
Perguntas mais frequentes
Em que consiste a preparação de dados?
A preparação de dados envolve todas as fases da criação de conjuntos de dados de qualidade, precisos e completos para a business intelligence e a análise de negócios. Ajuda a capacitar uma organização para a geração das informações necessárias de modo a ganhar vantagem competitiva.
O que são ferramentas de preparação de dados?
As ferramentas de preparação de dados facilitam a recolha de dados, a deteção e a análise para otimização, a limpeza, a estruturação, a transformação e o melhoramento, a validação e a publicação.
O que é o processo de preparação de dados aumentada?
O processo de preparação de dados aumentada utiliza análise aumentada, incluindo ML, NLG e visualização de dados, para transformar atividades tradicionalmente fastidiosas e morosas em fluxos de trabalho automatizados e mais inteligentes.
Por que razão é o processo de preparação de dados aumentada importante?
A preparação de dados aumentada pode oferecer vários benefícios. Pode aumentar a produtividade, executar análises com dados de maior qualidade, acelerar o ROI em projetos de análise, democratizar os dados e melhorar a agilidade do negócio.
O que é a preparação de dados para machine learning?
A preparação de dados efetiva para aplicações de machine learning fornece conjuntos de dados de qualidade para criação e teste de modelos de ML. Por exemplo, muitas das ferramentas de preparação de dados aumentada empregam algoritmos de ML para fazer recomendações aos utilizadores sobre como limpar, melhorar e transformar os dados num formato adequado para a análise de modelos de ML.