Twee personen die in discussie zijn

Een inleiding over verbeterde gegevensvoorbereiding

Zorg dat je bedrijf sneller inzicht krijgt met machine learning en andere augmented analytics.


Wat is uitgebreide gegevensvoorbereiding?

Eenvoudig gezegd stelt uitgebreide gegevensvoorbereiding zakelijke gebruikers en andere werknemers die geen expertise hebben op het gebied van datawetenschappen en analyse, in staat om rijke, betrouwbare gegevenssets te bouwen voor analyse. Met machine learning (ML) en artificial intelligence (AI), en via een geautomatiseerd selfserviceplatform zorgen tools voor uitgebreide gegevensvoorbereiding voor het vinden en bestuderen van onbewerkte data en het omzetten daarvan in overzichtelijke formulieren. Ze komen niet in de plaats van menselijke intelligentie en contextueel bewustzijn, maar verhogen dit.

Voor het behalen van een concurrentievoordeel vertrouwen leidinggevenden, LOB-managers, partners en anderen op business intelligence (BI) en business analytics voor het ontvangen van nauwkeurige, tijdige en relevante inzichten. Met uitgebreide gegevensvoorbereiding kan je bedrijf helpen bij het decentraliseren en democratiseren van de gegevensvoorbereiding zodat meer werknemers deze inzichten kunnen samenstellen.


Hoe worden tools voor uitgebreide gegevensvoorbereiding toegepast?

Tools voor uitgebreide gegevensvoorbereiding stroomlijnen de eerste en misschien wel belangrijkste stap voor gegevensverwerking: het creëren van gegevenssets die nodig zijn voor het bouwen, testen en trainen van analysemodellen.

Traditioneel viel gegevensvoorbereiding in het domein van technische teams die code schreven en gespecialiseerde software gebruikten om data uit interne bedrijfssystemen te extraheren, ze op te schonen en te structureren, en ze vervolgens te laden in datawarehouses. Deze ETL-processen met extractie, transformatie en laden waren complex, tijdrovend en foutgevoelig.

Gemiddelde zakelijke gebruikers beschikten niet over de vaardigheden of de tijd om de ETL-taken zelf uit te voeren. Ook externe datawetenschappers, zoals bedrijfsanalisten, ontwikkelaars en anderen die geen datawetenschappelijke opleiding hebben, maar soms wel geavanceerde analyses uitvoeren, vertrouwden op data-engineers en andere dataprofessionals om te bepalen welke data moesten worden geanalyseerd en hoe.

De tijden zijn veranderd. Nu slaan organisaties enorme volumes in verschillende silotoepassingen en systemen op met gestructureerde, semi-gestructureerde en ongestructureerde data, waaronder tekst en afbeeldingen. Centrale IT- en datamanagementteams hebben zelden de tijd en de middelen om data te verzamelen en voor te bereiden, en nog minder om modellen te maken en te bestuderen, ter ondersteuning van de uiteenlopende analyse-initiatieven van een bedrijf.

Dankzij de tools voor uitgebreide gegevensvoorbereiding kunnen meer gebruikers hierbij helpen. Met conversationele interfaces met aanwijzen en klikken begeleiden de tools de gebruikers door datagestuurde beslissingen voor gegevensvoorbereiding.


Wat zijn de stappen van gegevensvoorbereiding?

Het gegevensvoorbereidingsproces, dat ook bekend staat als data-wrangling, omvat een aantal opeenvolgende activiteiten voor het integreren, structureren en organiseren van data. De gegevensvoorbereidingsstappen die hieronder worden beschreven in veelgebruikte categorieën, leiden tot het maken van één betrouwbare dataset met informatie voor een of meer specifieke toepassingen:

  1. Verzamelen. Met de doelstellingen van de gewenste analyse als richtlijn geeft het analyseteam de relevante data aan om op te halen uit interne en externe gegevensbronnen. Als het doel bijvoorbeeld is om duidelijkheid te krijgen over de productvoorkeuren van de klant, kan het team kwantitatieve en kwalitatieve data verkrijgen uit CRM- en verkooptoepassingen, klantonderzoeken en feedback van sociale media. In deze fase moet het team alle stakeholders raadplegen en betrouwbare datasets gebruiken of op risico's of anderszins gecorrigeerde resultaten.
  2. Detectie en profileren. Via iteratieve stadia van onderzoek en analyse bestudeert het team de onbewerkte data die zijn verzameld, om meer inzicht te krijgen in de algehele structuur en de inhoud van elke afzonderlijke dataset. Ook worden de relaties tussen de datasets onderzocht. Via gegevensprofilering verzamelt het team een overzicht met statistieken over afwijkingen, inconsistenties, hiaten en andere problemen die moeten worden opgelost voordat de data kunnen worden gebruikt voor het ontwikkelen en trainen van analysemodellen. Datasets met klanten, patiënten en andere data met namen en adressen die op verschillende systemen zijn opgeslagen, variëren vaak in spelling of andere manieren.
  3. Opschonen. In dit stadium moet het team zorgvuldig alle kwaliteitsproblemen met de data oplossen. Opschonen omvat activiteiten als het invullen van ontbrekende waarden, het corrigeren of verwijderen van defecte data, het eruit filteren van irrelevante data en het maskeren van gevoelige data. Deze stap van de gegevensvoorbereiding is tijdrovend en saai, maar cruciaal om de nauwkeurigheid en consistentie van de data te garanderen. Opschonen is met name van belang bij het werken met big data alleen al vanwege de datavolumes die moeten worden geharmoniseerd.
  4. Structureren. Deze stap bestaat uit het ontwikkelen van een databaseschema dat beschrijft hoe de data in tabellen moet worden ingedeeld om probleemloze toegang mogelijk te maken voor modelleringtools. Het schema kan worden beschouwd als een permanente structuur waarin voortdurend veranderende data op een uniforme manier worden opgeslagen. Alle schematische componenten worden gedefinieerd.
  5. Transformatie en verrijking. Na het opzetten van het schema moet het team zorgen dat alle data conform is. Sommige bestaande indelingen moeten worden gewijzigd, door het aanpassen van hiërarchieën en door het toevoegen, samenvoegen of verwijderen van kolommen en velden. Het team kan de data ook uitbreiden met gedragsmatige, demografische, geografische en andere contextuele informatie afkomstig uit bronnen binnen en buiten de organisatie. Met een verrijkte dataset kunnen analysemodellen worden getraind met uitgebreidere datasets waardoor ze nog nauwkeurigere en waardevollere inzichten opleveren.
  6. Validatie. Nu moet het team scripts of tools gebruiken om de kwaliteit en nauwkeurigheid van de dataset te controleren. Ook wordt bevestigd dat de datastructuur en de indeling overeenkomen met de projectvereisten zodat de data eenvoudig toegankelijk zijn voor gebruikers en projectmodelleringstools. Afhankelijk van de omvang van de dataset kan het team kiezen om een datasample te testen in plaats van de hele dataset. Hier moeten problemen worden opgelost voor de laatste stap van het gegevensvoorbereidingsproces.
  7. Publicatie. Wanneer het team erop vertrouwt dat de data van hoge kwaliteit zijn, kunnen deze worden overgebracht naar de gewenste datawarehouses, data lakes of andere opslagplaatsen. Hier hebben het team en anderen in de organisatie toegang om analysemodellen te ontwikkelen en te testen.

Hoe kunnen gegevensvoorbereiding en -modellering worden verbeterd met machine learning?

Uitgebreide gegevensanalyse wordt mogelijk gemaakt door augmented analytics met ML, automatisering, het genereren van natuurlijke taal (NLG) en gegevensvisualisatie. Uitgebreide gegevensdetectie vertrouwt bijvoorbeeld in hoge mate op ML, een AI-type dat gebruikmaakt van algoritmen en statistische modellen om te leren van data en ze aan te passen zonder menselijke assistentie.

Met ML kunnen detectietools aangeleerde kennis toepassen om te bepalen welke soorten datasets nodig zijn op basis van het probleem dat door het model moet worden opgelost en de geteste hypothese. Ze overwegen ook de context waarin de datasets worden verzameld. Vervolgens voeren de tools een snelle analyse uit en trekken ze conclusies uit de patronen in de datasets met intelligente suggesties voor mogelijke combinaties.

Uitgebreide gegevensdetectie gebruikt niet alleen ML maar zorgt ook voor effectieve gegevensvoorbereiding voor machine learningmodellen. De detectietools gebruiken bijvoorbeeld ML-algoritmen voor het genereren van aanbevelingen voor gebruikers over het opschonen en verrijken van data en over het transformeren van data in een geschikte indeling voor ML-modelanalyse.


Hoe kan jouw bedrijf profiteren van uitgebreide gegevensvoorbereiding?

Elke dag ontdekken bedrijfsleiders en teams in allerlei sectoren nieuwe, strategische manieren om de waarde van data te benutten. Met uitgebreide gegevensvoorbereiding kunnen ze innovatieve ideeën voor analyseprojecten uitvoeren zonder de hulp van IT-professionals.

De voordelen van uitgebreide gegevensvoorbereiding raken je hele organisatie:

  • Hogere productiviteit Met intuïtieve, grafische gebruikersinterfaces en geautomatiseerde, selfservicetools kunnen deskundige zakelijke gebruikers snel data verzamelen uit meerdere, uiteenlopende bronnen en deze verwerken met profilerings-, opschonings- en andere belangrijke functies voor gegevensvoorbereiding. Uitgebreide gegevensvoorbereiding helpt ook om tijdrovende taken voor IT- en dataprofessionals te reduceren of elimineren.
  • Hoogwaardige data Als data handmatig worden voorbereid, kunnen ook ervaren datawetenschappers per ongeluk onjuiste en irrelevante data introduceren of belangrijke data missen. Met uitgebreide gegevensvoorbereiding worden automatisch kwaliteitsproblemen gelokaliseerd en verholpen, zodat je dataset waardevolle resultaten oplevert.
  • Sneller rendement Hogere productiviteit aan de voorkant van analyseprojecten laat meer tijd en middelen over voor datamodellering, datamining en analyse. Gebruikers hoeven zich niet meer bezig te houden met handmatige gegevensvoorbereiding, maar kunnen zich richten op het bestuderen en toepassen van inzichten om bedrijfsactiviteiten en uitdagingen te transformeren. Na het bouwen kan een dataset diverse toepassingen hebben waardoor je investering nog meer waarde oplevert.
  • Democratisering van data Niet-specialistische gebruikers beschikken nu over de middelen om data voor analyse voor te bereiden en te publiceren, waardoor ze beter zijn toegerust om te werken met onbewerkte data. Bovendien kunnen gebruikers die vertrouwd zijn met analyseproblemen, hun kennis van het bedrijf en hun expertise inzetten om statistisch significante datasets te selecteren en de data te structureren en te verrijken ter ondersteuning van de projectdoelen. Naarmate de datakennis groeit in je organisatie, krijgen werknemers meer vertrouwen in datagestuurde beslissingen en strategieën.
  • Hogere bedrijfsflexibiliteit Gebruikers kunnen in hoog tempo uitgebreide datasets voorbereiden en snel nieuwe analyseprojecten starten ter ondersteuning van de veranderende bedrijfs- of marktomstandigheden. Hoe korter de tijd tot nieuwe inzichten, hoe sneller je bedrijf deze inzichten kan toepassen om concurrentievoordeel te behalen.

Hoe kunnen bedrijven uitgebreide gegevensvoorbereiding toepassen?

In allerlei sectoren gebruiken bedrijven business intelligence en tools voor business analytics om meer waarde te halen uit data. Door uitgebreide gegevensvoorbereiding op te nemen in hun workflows hebben de volgende organisaties efficiënt data verzameld en verwerkt ten behoeve van hun analyses:

Bankwezen

Als je meer inzicht wilt hebben in welke klanten waarschijnlijk beleggingsservices zullen gebruiken en om persoonlijke promoties naar hen te versturen, heeft een grote bank snel data verzameld en geconsolideerd van rekeningen, deposito's, opnames en creditcards uit hun hele netwerk met filialen en betaalautomaten. Demografische, sociaal-economische en andere contextuele data zijn afkomstig uit externe bronnen.

Retail

Een internationale farmaceutische keten wilde weten waarom make-upproducten onder hun merknaam in sommige locaties slechtere resultaten opleverden. Data van verkooppunten, productcategorieën, trouwe klanten, net promoter score en prijzen uit de interne systemen werden gecombineerd met externe geografische data om een rijke dataset voor analyse samen te stellen.

Landbouw

Een klein landbouwtechnisch bedrijf wilde de eigen algoritmen gebruiken om gewasopbrengsttrends in droge gebieden te bestuderen om kleinschalige boerenbedrijven te kunnen adviseren over welke gewassen ze moesten planten en wanneer. Ze haalden gegevens uit bigdata-pools van openbare en particuliere organisaties, en combineerde deze met meerdere variabelen, waaronder weersomstandigheden, bodemtemperaturen, vochtinhoud, watergebruik en gewasstatus.

Juridisch

Een advocatenkantoor dat een zakelijke klant verdedigde in een grote rechtszaak, analyseerde miljoenen klantene-mails en andere ongestructureerde documenten voor een historisch overzicht. Doordat er veel minder handmatige activiteiten voor repetitieve datadetectie vereist waren, had het bedrijf veel meer tijd om relevante bevindingen te beoordelen en te analyseren.

Overheid

Een Amerikaanse staatsoverheid wilde voorspellende onderhoudsmethoden gebruiken om de kosten voor brandstof, onderhoud en services voor het wagenpark met personenwagens en zware machines terug te dringen. Om beter te kunnen bepalen welk voertuig wanneer onderhoud nodig had en voor elk voertuig in realtime de dichtstbijzijnde onderhoudswerkplaats te kunnen vaststellen, heeft het assetmanagementteam gegevens van voertuigonderhoudsrecords en prestatiesensoren geïntegreerd met externe GPS-data.


Hoe kan jouw bedrijf een oplossing voor uitgebreide gegevensvoorbereiding implementeren?

Voordat je bedrijf uitgebreide gegevensvoorbereiding introduceert aan je werknemers, moet je hun vertrouwen winnen. Sommigen maken zich misschien zorgen dat de nieuwe technologie hun functie verandert of overbodig maakt. Om de acceptatie te bevorderen kunnen managers de desbetreffende teams uitnodigen om nieuwe processen voor gegevensvoorbereiding te definiëren en te discussiëren over de ontwikkeling van hun functie. Ook door het proactief vergroten van de kennis over data, met name in teams die niet vertrouwd zijn met augmented data analytics, kan het vertrouwen in de uitkomsten worden vergroot.

Stel de volgende vragen als je kiest voor een selfservice oplossing voor gegevensvoorbereiding:

  • Maakt de oplossing verbinding met diverse gegevensbronnen, on-premises of in de cloud?
  • Kan het werken met semi-gestructureerde en ongestructureerde data?
  • In hoeverre wordt de uitgebreide gegevensvoorbereiding geautomatiseerd?
  • Werkt het met robuuste, intuïtieve tools?
  • Ondersteunt de oplossing samenwerking en het delen van data binnen de hele organisatie?
  • Kan de oplossing worden geschaald om big data te verwerken?
  • Worden analyseplatforms in de cloud ondersteund? Zo ja, welke?
  • Worden gegevensbeveiliging en privacy, en naleving van de regelgeving ondersteund?
  • Wat kost het, wanneer rekening wordt gehouden met softwarelicenties, verwerkings- en opslagvereisten, en onboarding en training van werknemers?

Als je een oplossing hebt gekozen, begin je klein met de implementatie. Vraag datawetenschappers, bedrijven en andere stakeholders om een paar datateams te selecteren met scenario's die zich lenen voor uitgebreide gegevensvoorbereiding. Op basis van de doelstellingen van je bedrijf voor uitgebreide gegevensanalyse kun je de oplossing stap voor stap uitrollen naar andere teams.

Ontleen meer waarde uit je data met Microsoft Power BI

Met Microsoft Power BI worden uitgebreide data-analyses een eenvoudiger, sneller en inclusiever proces. Bedrijfsteams ontvangen NLG-query's en aanbevelingen met instructies en kunnen met behulp van gegevensvisualisaties snel en betrouwbaar nauwkeurige, uitgebreide datasets voorbereiden voor het genereren van hoogwaardige inzichten.


Veelgestelde vragen

Wat is gegevensvoorbereiding?

Gegevensvoorbereiding omvat alle stadia van het maken van hoogwaardige, nauwkeurige en uitgebreide gegevenssets voor bedrijfsinformatie en bedrijfsanalyses. Op basis hiervan kan een organisatie inizchten genereren die een concurrentievoordeel betekenen.

Wat zijn tools voor gegevensvoorbereiding?

Tools voor gegevensvoorbereiding faciliteren gegevensverzameling, detectie en profielsamenstelling, opschonen, structureren, transformatie en verrijking, validatie en publicatie.

Wat is het proces voor uitgebreide gegevensvoorbereiding?

Het proces van uitgebreide gegevensvoorbereiding werkt met augmented analytics, waaronder ML, NLG en gegevensvisualisatie, waarmee voorheen saaie, tijdrovende activiteiten worden omgezet in geautomatiseerde, intelligentere workflows.

Waarom is uitgebreide gegevensvoorbereiding van belang?

Uitgebreide gegevensvoorbereiding kan verschillende voordelen opleveren. Het verhoogt de productiviteit, voert de analyses uit met hoogwaardige data, versnelt de ROI van analyseprojecten, maakt de data beschikbaar voor iedereen en verbetert de flexibiliteit van je bedrijf.

Wat is gegevensvoorbereiding voor machine learning?

Effectieve gegevensvoorbereiding voor machine learning-toepassingen levert hoogwaardige gegevenssets op voor het bouwen en testen van ML-modellen. Veel tools voor uitgebreide gegevensvoorbereiding werken bijvoorbeeld met ML-algoritmen voor het doen van aanbevelingen aan gebruikers over het opschonen en verrijken van data en over het transformeren van data in een geschikte indeling voor ML-modelanalyse.