Due persone impegnate in una discussione

Nozioni di base sulla preparazione dei dati aumentati

Velocizza i tempi di estrazione delle informazioni approfondite per la tua società con l'apprendimento automatico e altre tipologie di analisi aumentate.


Cos'è la preparazione dei dati aumentati?

Detto in parole semplici, la preparazione dei dati aumentati permette ai dipendenti che non dispongono di competenze specifiche di data science e analisi di creare set di dati avanzati e affidabili a scopo di analisi. Grazie alle tecnologie di apprendimento automatico (ML) e intelligenza artificiale (IA), disponibili su una piattaforma self-service automatizzata, gli strumenti di preparazione dei dati trasformano il processo di individuazione ed esame dei dati non elaborati in formati utilizzabili. Non sostituiscono l'intelligenza umana e la consapevolezza contestuale, ma migliorano entrambe.

Per ottenere un vantaggio competitivo, leader, responsabili delle linee di business, partner e altre figure si affidano alla business intelligence (BI) e all'analisi di business per fornire loro informazioni dettagliate accurate, tempestive e pertinenti. Grazie all'uso della preparazione dei dati aumentata, la tua società può decentralizzare e rendere più democratica la preparazione dei dati, permettendo a un maggior numero di dipendenti di creare tali informazioni dettagliate.


In che modo vengono usati gli strumenti di preparazione dei dati?

Gli strumenti di preparazione dei dati semplificano il primo e probabilmente più importante passaggio nell'elaborazione dei dati, ovvero la creazione di set di dati necessari per costruire, testare e sottoporre a training i modelli di analisi.

Tradizionalmente, la preparazione dei dati è di competenza dei team tecnici che scrivono il codice e usano software specializzato per estrarre i dati dai sistemi operativi interni, pulirli, strutturarli e quindi caricarli nei data warehouse. Questi processi, noti come estrazione, trasformazione e caricamento (ETL), possono essere complessi, richiedere tempi lunghi ed essere soggetti a errore.

La maggior parte degli utenti aziendali non dispone delle competenze o del tempo per eseguire personalmente i processi ETL. Perfino i citizen data scientist, ovvero analisti aziendali, sviluppatori e altri utenti che non vantano una formazione formale in data science, devono fare ricorso ai data engineer o ad altre figure professionali simili per decidere quali dati analizzare e come.

I tempi sono cambiati. Ora le organizzazioni archiviano grandi volumi di dati strutturati, semi-strutturati e non strutturati, inclusi testo e immagini, in più applicazioni e sistemi in silos. Raramente i team di gestione dati e IT centralizzati dispongono del tempo e delle risorse per raccogliere e preparare i dati, e ancor meno per modellarli e studiarli, per supportare la grande varietà di iniziative di analisi di una società.

Grazie agli strumenti di preparazione dei dati aumentati, più persone sono in grado di occuparsi di questi aspetti. Grazie all'integrazione di tecnologia point-and-click e di interfacce intuitive, gli strumenti permettono agli utenti di prendere facilmente decisioni basate sui dati correlate alla preparazione dei dati stessi.


Cosa sono i passaggi di preparazione dei dati?

Noto anche come data wrangling o munging, il processo di preparazione dei dati comprende una serie di attività sequenziali per l'integrazione, la strutturazione e l'organizzazione dei dati. I passaggi di preparazione dei dati, raggruppati in precedenza nelle categorie più comunemente usate, culminano nella creazione di un unico set di dati affidabile idoneo per uno o più casi d'uso specifici:

  1. Raccolta. Sulla base degli obiettivi prefissati, il team di analisi identifica ed estrapolare i dati pertinenti dalle origini dati interne ed esterne. Ad esempio, se l'obiettivo è quello di fare luce sulle preferenze di prodotti dei clienti, il team può estrarre dati quantitativi e qualitativi dalle applicazioni CRM e di vendita, dai sondaggi dei clienti e dai commenti sui social media. Durante questa fase, il team deve consultarsi con tutte le parti interessate e usare set di dati affidabili, per non rischiare di ottenere risultati inficiati da pregiudizi o altrimenti inaffidabili.
  2. Individuazione e profilazione. Tramite fasi iterative di esplorazione e analisi, il team analizza i dati non elaborati raccolti per comprendere meglio la struttura complessiva e i singoli contenuti in ciascun set di dati, studiando le relazioni tra i set di dati stessi. Mediante il profiling dei dati, il team raccoglie e riepiloga le statistiche sulle anomalie, le incoerenze, i gap e altri problemi che devono essere risolti prima di poter usare i dati per sviluppare e sottoporre a training i modelli di analisi. Ad esempio, i set di dati relativi a utenti o pazienti contenenti nomi e indirizzi archiviati in sistemi diversi spesso presentano variazioni dell'ortografia o di altro tipo.
  3. Pulizia. In questa fase, il team deve meticolosamente correggere tutti i problemi di qualità dei dati. La pulizia prevede attività quali la compilazione dei valori mancanti, la correzione o la rimozione dei dati non validi, il filtraggio dei dati non pertinenti e la mascheratura dei dati sensibili. Questa attività, per quanto lunga e noiosa, è cruciale per garantire l'accuratezza e la coerenza dei dati. La pulizia è particolarmente importante quando si lavora con i Big Data, poiché è necessario armonizzare i volumi dei dati.
  4. Strutturazione. Questa fase prevede lo sviluppo di uno schema di database che descrive in che modo organizzare i dati in tabelle per consentire un accesso semplificato da parte degli strumenti di modellazione. Lo schema può essere considerato una struttura permanente che ospiterà i dati in costante mutamento in maniera unificata. Vengono definiti tutti i componenti dello schema.
  5. Trasformazione e arricchimento. Una volta impostato lo schema, il team deve assicurarsi che tutti i dati siano conformi. Alcuni formati di dati esistenti dovranno essere adeguati, ad esempio modificando le gerarchie e aggiungendo, unendo o eliminando colonne e campi. Il team può inoltre migliorare i dati con informazioni comportamentali, demografiche, geografiche e contestuali di altro tipo estratte da origini all'interno e all'esterno dell'organizzazione. Un set di dati arricchito permette di eseguire il training dei modelli di analisi con set di dati più completi e di ottenere quindi informazioni dettagliate più precise e di maggior valore.
  6. Convalida. Ora, il team deve usare script o strumenti per verificare la qualità e l'accuratezza del set di dati. Inoltre, così facendo si assicura che la struttura e la formattazione dei dati siano allineate ai requisiti del progetto, permettendo quindi agli utenti e agli strumenti di modellazione del progetto di accedere facilmente ai dati. A seconda delle dimensioni del set di dati, il team può scegliere di testare un campione di dati anziché l'intero set. Dovrà inoltre correggere eventuali problemi prima di passare alla fase finale del processo di preparazione dei dati.
  7. Pubblicazione. Quando il team è certo che i dati siano di qualità elevata, li trasferisce nel data warehouse, nel data lake o in un altro repository di destinazione. Qui il team e gli utenti dell'organizzazione possono accedervi per sviluppare e testare i modelli di analisi.

In che modo l'apprendimento automatico migliora la preparazione e la modellazione dei dati?

L'analisi dei dati aumentati è resa possibile da analisi aumentata,, inclusi ML, automazione, generazione di linguaggio naturale (NLG) e visualizzazione dei dati. Ad esempio, l'individuazione dei dati aumentati si basa in gran parte sull'apprendimento automatico, un tipo di intelligenza artificiale che usa algoritmi e modelli statistici per apprendere dati e adattarsi senza intervento umano.

Usando l'apprendimento automatico, gli strumenti di individuazione applicano le conoscenze apprese per valutare le tipologie di set di dati necessarie in funzione dei problemi che il modello deve risolvere e delle ipotesi da testare. Considerano inoltre il contesto in cui vengono raccolti i set di dati. Quindi, gli strumenti analizzano rapidamente ed estrapolano le inferenze dagli schemi dei set di dati e suggeriscono in modo intelligente le varie combinazioni di dati.

Oltre a usare l'ML, l'individuazione dei dati aumentati garantisce un'efficace preparazione dei dati per i modelli di apprendimento automatico. Ad esempio, gli strumenti di individuazione adottano algoritmi ML per fornire agli utenti suggerimenti su come pulire e arricchire i dati, trasformandoli in un formato appropriato per l'analisi del modello ML.


In che modo la tua società può sfruttare la preparazione dei dati aumentati?

Ogni giorno, i leader aziendali e i team dei vari settori identificano nuovi modi strategici di capitalizzare i dati. Con la preparazione dei dati aumentati, possono mettere in pratica idee innovative per i progetti di analisi senza l'aiuto dei professionisti IT.

I vantaggi della preparazione dei dati aumentati si estendono a ogni settore dell'organizzazione:

  • Aumento della produttività. Grazie all'uso di interfacce utente grafiche e intuitive con strumenti automatizzati self-service, gli utenti aziendali con maggiori competenze possono raccogliere dati da più fonti disparate ed eseguire funzioni di profiling, pulizia e altre preparazioni dei dati chiave su di essi. La preparazione dei dati aumentati permette di ridurre o eliminare le attività che richiedono tempi lunghi per i professionisti dei dati e per l'IT.
  • Migliore qualità dei dati. Quando preparano manualmente i dati, anche i data scientist più esperti possono accidentalmente introdurre dati non accurati o non pertinenti, oppure escludere dati importanti. La preparazione dei dati aumentati consente di individuare e correggere automaticamente i problemi legati alla qualità, permettendo così di ottenere risultati validi.
  • Accelerazione del ROI. Una maggiore produttività del front-end dei progetti di analisi lascia più tempo e risorse per la modellazione, il mining e l'analisi dei dati. Non essendo più tenuti a eseguire le attività di preparazione dei dati di routine, gli utenti possono concentrarsi sullo studio delle informazioni dettagliate e sulla loro applicazione per trasformare le operazioni e le sfide aziendali. Una volta creato, un set di dati può avere svariate applicazioni, ottimizzando ulteriormente i tuoi investimenti.
  • Dati più democratici. Avendo la possibilità di preparare e pubblicare i dati per l'analisi, gli utenti non specializzati avranno meno difficoltà a usare i dati non elaborati. Inoltre, gli utenti che vantano una maggiore familiarità con i problemi di analisi possono fare ricorso alle proprie conoscenze e competenze aziendali per selezionare set di dati significativi a livello statistico e strutturare e arricchire i dati per supportare gli obiettivi del progetto. La crescita dell'alfabetizzazione dei dati all'interno dell'organizzazione significa che sempre più utenti si troveranno a proprio agio nel prendere decisioni e adottare strategie basate sui dati.
  • Maggiore agilità aziendale. Essendo in grado di preparare rapidamente set di dati completi, gli utenti possono avviare in tempi brevi nuovi progetti di analisi a supporto delle mutevoli condizioni del business e del mercato. Ottenere velocemente informazioni dettagliate significa per la società poter immediatamente applicare tali informazioni per ottenere un vantaggio competitivo.

In che modo le società applicano la preparazione dei dati aumentati?

Nei vari settori, le società usano business intelligence e strumenti di analisi di business per derivare un maggior valore dai dati. Ad esempio, avendo incorporato la preparazione dei dati aumentati nei propri flussi di lavoro, le seguenti organizzazioni hanno raccolto ed elaborato i dati in modo efficiente per supportare la propria analisi:

Banche e istituti di credito

Per comprendere meglio quali clienti hanno più probabilità di usare i servizi di investimento di capitale, e rivolgere loro promozioni personalizzate, un'importante banca ha rapidamente raccolto e consolidato i dati relativi a conti, depositi, prelievi e carte di credito nell'intera rete di filiali e bancomat. Ha inoltre estrapolato dati demografici, socio-economici e contestuali di altro tipo da fonti esterne.

Vendita al dettaglio

Una catena di farmacie internazionale voleva scoprire i motivi delle scarse prestazioni del proprio marchio in alcune aree geografiche ma non in altre. Ha combinato i dati di POS, categorie di prodotti, fedeltà dei clienti, punteggio net promoter e prezzi dai propri sistemi interni con dati geografici esterni per creare un set di dati avanzati per l'analisi.

Agricoltura

Una piccola società tecnologica che opera in ambito agricolo voleva usare i propri algoritmi proprietari per studiare le tendenze delle rese dei raccolti in aree siccitose per poter consigliare agli agricoltori su piccola scala cosa seminare e quando. Sfruttando i pool di Big Data gestiti da organizzazioni pubbliche e private, ha estratto e incrociato dati correlati a più variabili, incluse condizioni atmosferiche, temperature del suolo, contenuto di umidità, uso dell'acqua e stato dei raccolti.

Legale

Uno studio legale che difende un cliente aziendale in una causa estremamente complessa ha analizzato milioni di messaggi e-mail dei clienti e altri documenti non strutturati per ricostruire una cronologia pertinente. Riducendo drasticamente le attività manuali e ripetitive di individuazione dei dati, la ditta ha avuto più tempo per rivedere e analizzare i risultati pertinenti.

Enti pubblici

Un ente pubblico degli Stati Uniti voleva adottare pratiche di manutenzione predittiva per ridurre i costi di carburante, manutenzione e servizi per la propria flotta di automobili e macchinari pesanti. Per determinare meglio quali veicoli avevano bisogno di assistenza e in che tempi, e la prossimità in tempo reale di ciascun veicolo a un centro di assistenza, il team di gestione dei cespiti ha integrato informazioni dai record di manutenzione dei veicoli e sensori di prestazioni con dati GPS esterni.


In che modo la tua società può implementare una soluzione di preparazione dei dati aumentati?

Prima di presentare la preparazione dei dati aumentati ai dipendenti, la tua società deve ottenere la loro fiducia. Alcuni di loro potrebbero essere preoccupati del fatto che le nuove tecnologie modificheranno o addirittura renderanno superflui i loro ruoli. Per promuovere l'accettazione, i responsabili possono invitare i team interessati a contribuire alla definizione dei nuovi processi di preparazione dei dati e a discutere di come i loro ruoli potrebbero evolvere. Inoltre, la promozione proattiva dell'alfabetizzazione dei dati all'interno dell'organizzazione, soprattutto tra i team che hanno meno familiarità con l'analisi dei dati aumentati, migliorerà la fiducia nelle informazioni dettagliate risultanti.

Quando si sceglie una soluzione di preparazione dei dati self-service, porre le seguenti domande:

  • La soluzione si connetterà alle varie origini dati, in locale o nel cloud?
  • Supporta dati non elaborati semi-strutturati e non strutturati?
  • In che misura automatizza il processo di preparazione dei dati?
  • Offre strumenti affidabili e intuitivi?
  • La soluzione supporta la collaborazione all'interno dell'organizzazione e la condivisione dei dati?
  • Può essere dimensionata per gestire i Big Data?
  • Supporta piattaforme di analisi basate su cloud? Se sì, quali?
  • Supporta la sicurezza e la privacy dei dati e la conformità ai requisiti normativi?
  • Quali costi avrà, considerando le licenze software, i requisiti di elaborazione e di storage e l'onboarding e il training dei dipendenti?

Una volta optato per una soluzione, inizia con un'implementazione su scala ridotta. Chiedi a data scientist, dirigenti aziendali e altre parti interessate di scegliere i team con una maggiore familiarità con i dati e casi d'uso che si prestano a una preparazione dei dati aumentati. In base agli obiettivi della società in termini di analisi dei dati aumentati, distribuisci gradualmente la soluzione ad altri team.

Ottieni più valore dai tuoi dati con Microsoft Power BI

Microsoft Power BI può aiutare la tua società a semplificare, velocizzare e rendere più inclusivo il processo di analisi dei dati aumentati. Grazie a query NLG, suggerimenti e visualizzazione dei dati, i team aziendali possono preparare in modo più rapido e accurato set di dati completi in grado di generare informazioni dettagliate di qualità.


Domande frequenti

Cos'è la preparazione dei dati?

La preparazione dei dati interessa tutte le fasi di creazione di set di dati di qualità, accurati e completi per la business intelligence e l'analisi di business. Permette a un'organizzazione di generare le informazioni dettagliate necessarie per ottenere un vantaggio competitivo.

Cosa sono gli strumenti di preparazione dei dati?

Gli strumenti di preparazione dei dati semplificano la raccolta, l'individuazione e la profilatura dei dati, nonché la pulizia, la strutturazione, la trasformazione e l'arricchimento, la convalida e la pubblicazione dei dati stessi.

Che cos'è il processo di preparazione dei dati aumentati?

Il processo di preparazione dei dati aumentati usa l'analisi aumentata, inclusi ML, NLG e visualizzazione dei dati, per trasformare le tradizionali attività ripetitive e che richiedono tempi lunghi in flussi di lavoro automatizzati e più intelligenti.

Perché è importante la preparazione dei dati aumentati?

La preparazione dei dati aumentati può apportare diversi vantaggi. Permette di aumentare la produttività, eseguire analisi usando dati di qualità superiore, accelerare il ROI sui progetti di analisi, rendere più democratici i dati e migliorare l'agilità aziendale.

Cos'è la preparazione dei dati per l'apprendimento automatico?

Un'efficace preparazione dei dati per le applicazioni di apprendimento automatico fornisce set di dati di qualità per la creazione e il test di modelli ML. Ad esempio, molti strumenti di preparazione dei dati aumentati adottano algoritmi ML per fornire agli utenti suggerimenti su come pulire e arricchire i dati, trasformandoli in un formato appropriato per l'analisi del modello ML.