To personer som diskuterer

En begynnerbok om utvidet dataforberedelse

Fremskynd virksomhetens tid til innsikt med maskinlæring og annen utvidet analyse.


Hva er utvidet dataforberedelse?

Enkelt sagt kan utvidet dataforberedelse gi forretningspersoner og andre ansatte som mangler erfaring innen dataforskning og -analyse, mulighet til å opprette omfattende, pålitelige datasett for analyse. Verktøy for utvidet dataforberedelse som drives av maskinlæring og kunstig intelligens, og som leveres på en automatisert, selvbetjent plattform, transformerer prosessen med å finne og undersøke rådata og konvertere dem til leselige skjemaer. De erstatter ikke menneskelig intelligens og kontekstuell bevissthet, de forbedrer den.

For å få et konkurransefortrinn stoler ledere, bransjeledere, partnere og andre på forretningsintelligens (BI) og forretningsanalyse til å gi dem nøyaktig, timelig og relevant innsikt. Ved å bruke utvidet dataforberedelse kan virksomheten bidra til å desentralisere og demokratisere dataforberedelse slik at flere ansatte kan bidra til å opprette denne innsikten.


Hvordan brukes verktøy for utvidet dataforberedelse?

Verktøy for utvidet dataforberedelse effektiviserer det første og kanskje viktigste trinnet i dataforberedelse – noe som oppretter datasett som trengs for å bygge, teste og lære opp analysemodeller.

Tradisjonelt har dataforberedelse vært under domenet til tekniske team som skrev kode og brukte spesialisert programvare til å trekke ut data fra interne driftssystemer, fjerne og strukturere dem og laste dem inn i datalagre. Disse prosessene, kalt dataekstraksjon, transformasjon og innlasting (ETL), kan være komplekse, tidkrevende og utsatt for feil.

De mest gjennomsnittlige forretningsbrukerne hadde ikke kompetansen eller tiden til å utføre ETL-arbeid selv. Selv selvlærte dataforskere – forretningsanalyse, utviklere og andre som mangler formell opplæring innen dataforskning, men utfører noe avansert analysearbeid – trengte hjelp fra dataingeniører og andre dataprofesjonelle til å bestemme hvilke data som skal analyseres og hvordan.

Tidene har endret seg. Nå lagrer organisasjoner store volum med strukturerte, halvstrukturerte og ustrukturerte data, inkludert tekst og bilder, i flere siloprogrammer og -systemer. Sentraliserte IT- og dataadministrasjonsteam har sjelden tid og ressurser til å samle inn og forberede data, og mindre tid til å modellere og studere dem, til å støtte alle varierte analyseinitiativer i en virksomhet.

Takket vært verktøy for utvidet dataforberedelse kan flere personer hjelpe til. Med pek-og-klikk og tradisjonelle grensesnitt veiledes brukere trygt gjennom datadrevne beslutninger knyttet til dataforberedelse.


Hva er dataforberedelsestrinnene?

Prosessen for dataforberedelse kalles også dataavstemming og består av en rekke sekvensielle aktiviteter for integrering, strukturering og organisering av dataene. Dataforberedelsestrinnene, vist nedenfor i vanlig brukte kategorier, utgjør opprettingen av ett klarert datasett for å informere en eller flere bestemte brukstilfeller:

  1. Innsamling. Analyseteam veiledes av målene til den tiltenkte analysen og identifiserer og henter relevante data fra interne og eksterne datakilder. Hvis målet for eksempel er å kaste lyse på kundeproduktpreferanser, kan team hente kvantitative og kvalitative data fra kunderelasjons- og salgsprogrammer, kundeundersøkelser og tilbakemeldinger fra sosiale medier. I denne fasen bør team konsultere alle interessenter og bruke pålitelige datasett ellers risikerer den ensidige eller skjeve resultater.
  2. Oppdagelse og profilering. Gjennom gjentatte faser med utforskning og analyse undersøker team rådataene det samler inn til å bedre forstå den generelle strukturen til individuelt innhold i hvert datasett. Det studerer også relasjonene i ulike datasett. Gjennom dataprofilering samler team inn og oppsummerer statistikk om avvik, inkonsekvens, hull og andre problemer som må løses før dataene brukes til å utvikle og lære opp analysemodeller. Kundedata, pasientdata og andre datasett som inneholder navn og adresser lagret i ulike systemer, varierer ofte i stavemåte og på andre måter.
  3. Rensing. I denne fasen må team nøye korrigere alle datakvalitetsproblemer. Rensing omfatter aktiviteter som å fylle ut manglende verdier, korrigere eller fjerne defekte data, filtrere ut irrelevante data og maskering av sensitive data. Dette dataforberedelsestrinnet er tidkrevende og kjedelig og viktig for å sørge for nøyaktige og konsekvente data. Rensing er særlig viktig ved arbeid med stordata på grunn av datavolumene som må være harmonisert.
  4. Strukturering. Dette trinnet omfatter utvikling av et databaseskjema som beskriver hvordan du skal organisere dataene i tabeller, for å muliggjøre enkel tilgang av modelleringsverktøy. Skjemaet må anses som en permanent struktur som inneholder data i stadig endring på en enhetlig måte. Alle skjemakomponenter er definert.
  5. Transformasjon og supplering. Når skjemaet er angitt, må teamet passe på at alle dataene samsvarer. Noen eksisterende dataformater må endres, som ved å justere hierarkier og å legge til, slå sammen eller slette kolonner og felter. Teamet kan også forbedre dataene med adferdsmessig, demografisk, geografisk og annen kontekstuell informasjon hentet fra kilder i og utenfor organisasjonen. Et supplert datasett gjør det mulig å lære opp analysemodeller med mer omfattende datasett og dermed levere mer presis og verdifull innsikt.
  6. Validering. Nå må teamet bruke skriftlige skripter eller verktøy til å bekrefte kvaliteten og nøyaktigheten på datasettet. Det bekrefter også at datastrukturen og formateringen er samkjørt med prosjektkrav slik at brukere og prosjektmodelleringsverktøy enkelt har tilgang til dataene. Avhengig av størrelsen på datasettet kan teamet velge å teste et dataeksempel i stedet for hele datasettet. Det skal løse eventuelle problemer før du går videre til det siste trinnet i prosessen for dataforberedelse.
  7. Publisering. Når teamet er trygge på at dataene er av høy kvalitet, overfører det dem til måldatalageret, datasjøen eller et annet repositorium. Her har teamet og andre i organisasjonen tilgang til dem for å utvikle og teste analysemodeller.

Hvordan forbedrer maskinlæring dataforberedelse og modellering?

Utvidet dataanalyse er muliggjort av utvidet analyse, deriblant maskinlæring, automatisering, generering av naturlig språk og datavisualisering. Oppdagelse av utvidede data er for eksempel svært avhengig av maskinlæring – en type kunstig intelligens som bruker algoritmer og statistiske modeller til å lære av data og tilpasse uten menneskelig inngripen.

Ved å bruke maskinlæring bruker oppdagelsesverktøy lært kunnskap til å vurdere hvilke typer datasett som er nødvendig for problemet modeller må løse, og hypotesen som skal testes. De vurderer også konteksten som datasettene ble samlet inn i. Deretter analyserer og henter verktøyene konklusjoner fra mønstre i datasettene og foreslår intelligent hvilke som skal kombineres.

Oppdagelse av utvidede data bruker ikke bare maskinlæring, men sørger også for effektiv dataforberedelse for maskinlæringsmodeller. Oppdagelsesverktøy bruker for eksempel maskinlæringsalgoritmer til å generere anbefalinger for brukere om hvordan de renser og supplerer data og transformerer dem til et egnet format for analyse av maskinlæringsmodell.


Hvordan kan virksomheten dra nytte av utvidet dataforberedelse?

Hver dag identifiserer forretningsledere og team i ulike bransjer nye, strategiske måter å kapitalisere på data. Med utvidet dataforberedelse kan de handle på innovative ideer for analyseprosjekter uten hjelp fra IT-profesjonelle.

Fordelene med utvidet dataforberedelse kan nå hele virksomheten på følgende måte:

  • Øker produktivitet – Ved å bruke intuitive, grafiske brukergrensesnitt med automatiserte, selvbetjente verktøy kan erfarne forretningsbrukere raskt samle inn data fra flere ulike kilder og kjøre dem gjennom profilering, rensing og andre viktige dataforberedelsesfunksjoner. Utvidet dataforberedelse bidrar også til å redusere og eliminere tidkrevende oppgaver for IT- og dataprofesjonelle.
  • Leverer data av høyere kvalitet – Når du forbereder data manuelt, kan selv erfarne dataforskere utilsiktet introdusere unøyaktige og irrelevante data – eller ikke ta med viktige data. Utvidet dataforberedelse kan automatisk finne og korrigere kvalitetsproblemer noe som sørger for at datasettene produserer gyldige resultater.
  • Øker avkastningen – Større produktivitet ved frontenden av analyseprosjekter gir mer tid og flere ressurser for datamodeller, -utvinning og -analyse. I stedet for å bli opphengt i manuelle dataforberedelsesoppgaver kan brukere fokusere på å studere innsikt og bruke den til å transformere forretningsoperasjoner og -utfordringer. Når et datasett er bygd, kan det ha flere bruksområder, noe som ytterligere optimaliserer investeringene.
  • Driver datademokratisering – Ikke-spesialiserte brukere som har hjelp til å forberede og publisere data for analyse, kan bli mer komfortable med å arbeide med rådata. I tillegg kan brukere som er kjent med analyseproblemet, bruke forretningskunnskapen og -ekspertisen til å velge statistisk betydelige datasett og bidra til å strukturere og supplere data til å støtte prosjektmål. Mens datakompetansen vokser i virksomheter, får personer mer trygghet i datadrevne beslutninger og strategier.
  • Forbedrer forretningsfleksibilitet – Bruker som raskt kan forberede omfattende datasett, kan raskt starte nye analyseprosjekter i støtte av endrede forretnings- og markedsplassbetingelser. Jo raskere tiden til innsikten er, jo raskere kan virksomheten bruke denne innsikten til å oppnå konkurranse fortrinn.

Hvordan bruker virksomheter utvidet dataforberedelse?

I ulike bransjer bruker virksomheter forretningsanalyse og forretningsanalyseverktøy til å avlede større verdi fra dataene. Ved for eksempel å bruke utvidet dataforberedelse i arbeidsflyten samlet og behandlet følgende organisasjoner effektivt data for å fremme analysen:

Banknæringen

For bedre å forstå hvilke kunder som mest sannsynlig kommer til å bruke formueinvesteringstjenester – og deretter målrette dem med tilpassede kampanjer – samlet og konsoliderte en stor bank raskt konto, innskudd, uttak og kredittkortdata i hele avdelings- og minibanknettverket. Det henter også demografiske data, sosioøkonomiske data og andre kontekstuelle data fra eksterne kilder.

Detaljhandel

En internasjonal legemiddelkjede ville vite hvorfor merkenavnet presterte dårlig noen steder, men ikke andre. Det kombinerte salgssted, produktkategori, kundelojalitet, Net Promoter Score og prisdata fra de interne systemene med eksterne geografiske data til å bygge et omfattende datasett for analyse.

Jordbruk

Et mindre jordbruksteknologiselskap ønsket å bruke proprietære algoritmer til å studere avlingstrender i tørkeområder slik at det kunne gi råd til mindre jordbrukere om hvilke avlinger som bør plantes og når. Ved å kapitalisere stordatautvalg vedlikeholdt av offentlige og private organisasjoner hentet og kombinerte selskapet data som gjaldt flere variabler, deriblant værforhold, jordtemperaturer, fuktinnhold, vannforbruk og avlingsstatus.

Juridisk

Et advokatfirma som forsvarte en forretningsklient i et stort søksmål, analyserte millioner av klient-e-poster og andre ustrukturerte dokumenter for relevant historikk. Ved dramatisk å redusere manuelle, gjentakende dataoppdagelsesaktiviteter hadde firmaet mer tid til å se gjennom og analysere relevante resultater.

Offentlig sektor

En statlig myndighet i USA ønsket å bruke prediktive vedlikeholdspraksiser til å bidra til å redusere drivstoff-, vedlikeholds- og servicekostnader for flåten med bilder og tunge maskiner. For bedre å fastslå hvilke og når kjøretøy trenger service, og hvert kjøretøys sanntidsnærhet til serviceanlegg, integrerte ressursadministrasjonsteam informasjon fra registre om kjøretøyvedlikehold og ytelsessensorer med eksterne GPS-data.


Hvordan kan virksomheten implementere en løsning for utvidet dataforberedelse?

Før du innfører utvidet dataforberedelse til ansatte, må virksomheten få tilliten til brukerne. Noen personer kan være bekymret for at nye teknologier vil endre eller til og med fjerne rollene deres. For å promotere aksept kan ledere invitere berørte team til å hjelpe dem med å definere nye prosesser for dataforberedelse og diskutere hvordan rollene deres kan utvikle seg. Det å proaktivt fostre datakunnskap i hele virksomheten, særlig blant team som ikke er kjent med utvidet dataanalyse, bidrar til å øke tilliten til resulterende innsikt.

Når du skal velge en selvbetjent løsning for dataforberedelse, må du stille følgende spørsmål:

  • Skal løsningen kobles til en rekke datakilder, enten lokalt eller i skyen?
  • Kan den fungere med halvstrukturerte eller ustrukturerte rådata?
  • I hvilken grad automatiserer den dataforberedelsesprosessen?
  • Har den robuste og intuitive verktøy?
  • Støtter løsningen samarbeid og datadeling på tvers av organisasjoner?
  • Kan den skaleres til å håndtere stordata?
  • Vil den støtte skybasert analyseplattformer? I så fall hvilke?
  • Skal den aktivere datasikkerhet og personvern og støtte forskriftsmessig samsvar?
  • Hva vil det koste med hensyn til programvarelisenser, behandlings- og lagringskrav samt innføring og opplæring av ansatte?

Når du har bestemt deg for en løsning, kan du starte implementeringen i det små. Spør dataforskere, forretningsbrukere og andre interessenter om å velge noen få datakyndige team med brukstilfelles som låner seg ut til utvidet dataforberedelse. Basert på virksomhetsmålene for utvidet dataanalyse kan du gradvis rulle ut løsningen til andre team.

Få mer verdi fra dataene dine med Microsoft Power BI

Microsoft Power BI kan hjelpe virksomheten med å gjøre utvidet dataanalyse til en enklere, raskere og mer inkluderende prosess. Forretningsteam blir veiledet av spørringer for generering av naturlig språk og anbefalinger samt datavisualiseringer og kan raskere og med trygghet forberede nøyaktige, omfattende datasett som generer kvalitetsinnsikt.


Vanlige spørsmål

Hva er dataforberedelse?

Dataforberedelse omfatter alle faser i oppretting av nøyaktige og omfattende datasett av høy kvalitet for forretningsintelligens og forretningsanalyse. Dette bidrar til å sørge for at en organisasjon kan generere innsikt som kreves for å få et konkurransefortrinn.

Hva er dataforberedelsesverktøy?

Dataforberedelsesvektøy tilrettelegger for datasamling, oppdagelse og profilering, rensing, strukturering, transformasjon samt supplering, validering og publisering.

Hva er prosessen for utvidet dataforberedelse?

Den utvidede dataforberedelsesprosessen bruker utvidet analyse – deriblant maskinlæring, generering av naturlig språk og datavisualisering – til å transformere tradisjonelt kjedelige, tidkrevende aktiviteter til automatiserte, mer intelligente arbeidsflytprosesser.

Hvorfor er utvidet dataforberedelse viktig?

Utvidet dataforberedelse kan gi flere fordeler. Det kan øke produktivitet, kjøre analyser ved å bruke kvalitetsdata, øke avkastningen på analyseprosjekter, demokratisere data og forbedre forretningsfleksibiliteten.

Hva er dataforberedelse for maskinlæring?

Effektiv dataforberedelse for maskinlæringsprogrammer gir kvalitetsdatasett for bygging og testing av maskinlæringsmodeller. Mange utvidede dataforberedelsesverktøy bruker maskinlæringsalgoritmer til å gi anbefalinger til brukere om hvordan de renser og supplerer data og transformerer dem til et egnet format for analyse av maskinlæringsmodell.