To personer, der diskuterer

En begynderbog om udvidet dataforberedelse

Øg firmaets tid til indsigt med maskinlæring og andre augmenterede analyser.


Hvad er augmenteret dataforberedelse?

Angivet simpel og augmenteret dataforberedelse styrker forretningsfolk og andre medarbejdere, der mangler dyb ekspertise i datavidenskab og analyse til at oprette gode, pålidelige datasæt til analyse. Drevet af maskinlæring (ML) og kunstig intelligens (AI) - og leveret på en automatiseret selvbetjeningsplatform - omdanner augmenteret dataforberedelsesværktøj processen med at finde og undersøge rådata og konvertere det til brugervenlige formularer. De erstatter ikke menneskelig intelligens og kontekstopmærksomhed - de forbedre det.

For at opnå konkurrencemæssige fordele kan ledere, chefer, partnere og andre stole på business intelligence (BI) og virksomhedsanalyse til at levere nøjagtige, rettidige og relevante indsigter. Ved hjælp af augmenteret dataforberedelse kan dit firma decentralisere og demokratisere dataforberedelse, så flere medarbejdere kan være med til at oprette disse indsigter.


Hvor anvendes augmenteret dataforberedelsesværktøj?

Augmenterede dataforberedelsesværktøjer strømliner det første og vigtigste trin i dataprocessen - oprettelse af datasæt, der skal bruges til at bygge, teste og træne analysemodeller.

Traditionelt falder dataforberedelse inden for domænet med tekniske teams, der kan skrive kode, og som bruger specialiseret software til at udtrække data fra interne driftssystemer, rense og strukturere det, og indlæse det til datalagre. Kendte funktioner som dataudtræk, transformation og indlæsning (ETL) er alle komplekse og tidskrævende og ofte fejlbehæftede funktioner.

De fleste forretningsbrugere har ikke færdigheder eller tid til at udføre ETL-opgaver selv. Selv den almindlige dataanalytiker - forretningsanalytiker, udvikler og andre, der mangler formel dataanalyseerfaring, men som udfører avanceret analysearbejde - er alle afhængige af dataingeniører og andre dataanalytikere, der kan bestemme, hvilke data der skal analyseres og hvordan.

Tiderne har ændret sig. Nu har organisationer store mængder af struktureret, halvstruktureret og ustruktureret data, herunder tekst og billeder, i flere siloorganiserede applikationer og systemer. Det er sjældent, at centralt placerede IT- og dataadministrationsteams har tid og ressourcer til at indsamle og behandle data, ej heller til at modellere og studere dem for at understøtte alle de forskellige analyseinitiativer i et firma.

Takket være de augmenterede dataforberedelsesværktøjer kan flere medarbejdere nu træde til og hjælpe. Især ved hjælp af peg og klik og samtaleinterfacer kan værktøjerne guide brugere gennem databaserede løsninger i forbindelse med dataforberedelse.


Hvad er dataforberedelsestrinnene?

Også kendt som dataændring eller skjulning kan dataforberedelsesprocessen omfatte en serie af fortløbende aktiviteter til integration, strukturering og organisering af data. Dataforberedelsestrinnene, der er angivet herunder i almindeligt anvendte kategorier, kulminerer i oprettelse af et enkelt pålideligt datasæt for at informere om et eller flere specifikke brugsmønstre:

  1. Indsamling. Guidet af formålene med den tilsigtede analyse identificerer og udtrækker analyseteamet relevante data fra interne og eksterne datakilder. F.eks. hvis målet er at kaste lys over produktpræferencer kan teamet udtrække kvantitative og kvalitative data fra CRM og salgsapplikationer, kundeundersøgelser og feedback fra sociale medier. I løbet af denne fase skal teamet konsultere alle interessenter og bruge de pålidelige datasæt eller risikere forudindtagede eller på anden måde skæve resultater.
  2. Identificering og profilering. Gennem iterative udforsknings- og analysetrin, undersøger teamet de rå data, der er indsamlet til bedre at forstå den generelle struktur af og inviduelle indhold med hvert datasæt. De unersøger også forhold på tværs af datasæt. Via dataprofilering indsamler teamet statisik, som de opsummerer angående uregelmæssigheder, uoverensstemmelser, mangler og andre forhold, de rksla adresseres, før dataen anvendes til at udvikle og træne analysemodeller. F.eks. varierer kunder, patienter eller andre datasæt, der indheolder navne og adresser, som lagres på tværs af systemer, often i stavning og andet.
  3. Rensning. På dette trin kan teamet omhyggeligt korrigere alle datakvalitetsproblemer. Rensning involverer aktiviteter som f.eks. at angive manglende værdier, udbedre og fjerne defekte data, bortfiltrere irrelevante data og maskering af følsomme data. Tidskrævende og omhyggeligt - dette dataforberedelsestrin er vigtigt for at sikre datanøjagtighed og konsistens. Rensning er især vigtig ved arbejde med big data-mængder, da alene mængden af data, der kan beskadiges er så stor.
  4. Struktur. Dette trin omfatter udvikling af et databaseskema, der beskriver, hvordan data skal organiseres i tabeller for at give sikker adgang ved modellering af værktøj. Skemaet kan overvejes at bruges som en permanent struktur, der kan huse konstant ændrede data i en samlet proces. Alle skematiske komponenter er defineret.
  5. Transformation og berigelse. Når et skema er indstillet, skal teamet sikre, at alle data passer. Nogle eksisterende dataformater skal måske ændres, f.ek. ved at justere hierarkier og tilføjelse, fletning eller sletning af kolonner og felter. Teamet kan også forbedre data med adfærds-, demografiske, geografiske og andre kontekstafhængige oplysninger, der trækkes fra kilder inden for og uden for organisationen. Et forbedret datasæt gør det muligt for analysemodeller at blive trænet med flere omfattende datasæt og dermed i stand til at levere mere præcis og værdifuld indsigt.
  6. Validering. Nu skal teamet anvende det skrevne script eller værktøjer til at godkende kvaliteten og nøjagtigheden af datasættet. desuden skal det bekræfte, at datastrukturen og formateringen overholder projektkravene, så brugere og projektmodelleringsværktøjer nemt kan få adgang til data. Afhængig af størrelsen på datasættet kan teamet vælge at teste eksempeldata i stedet for hele datasættet. Det bør løse alle problemer, før der flyttes til sidste trin i forberedelsesprocessen.
  7. Publicering. Når teamet er trygt ved, at dataene er af høj kvalitet, overføres de til et datalagersted, en datasø eller andet lagringssted. Her kan teamet og andre i organisationen få adgang til og udvikle og teste analysemodellerne.

Hvordan kan maskinlæring forbedre dataforberedelse og modellering?

Augmenterede dataanalyser er gjort mulig med augmenteret analyse,, herunder ML, automatisering, generering af naturligt sprog (NLG) og datavisualisering. F.eks. afhænger augmenteret dataregistrering meget af ML - en type AI, der anvender algoritmer og statistikmodeller til at lære fra data og tilpasse uden menneskelig assistance.

Ved hjælp af ML anvender registreringsværktøjer oplært viden for at overveje hvilken slags datasæt, der kan bruges i tilfælde af et problem, som modellen skal løse og en hypotese til test. De skal også overveje den kontekst, som datasættet skal samles i. Derefter gennemfører værtøjerne en hurtig analyse og trækker konklusioner fra mønstre i datasættene og foreslår intelligente kombinationer.

Augmenteret dataregistrering ikke bare bruger ML men assisterer også med at sikre effektive dataforberedelser til maskinlæringsapplikationer. F.eks. anvender registreringsværktøjer ML-algoritmer til at generere anbefalinger til brugere om, hvordan de kan rense og berige data og omdanne dem til passende formater til ML-modelanalyser.


Hvordan kan virksomheden drage fordel af augmenteret dataforberedelse?

Hver dag identificerer forretningsledere og teams på tværs af brancherne nye strategiske metoder til at indsamle data. Med augmentet dataforberedelse kan de agere på innovative ideer til analyseprojekter uden hjælp fra IT-analytikere.

Fordelene ved augmenteret dataforberedelse kan strækkes ud over hele organisationen:

  • Øger produktivitet - Ved hjælp af intuitive grafiske brugerinterfacer md automatiserede selvbetjeningsværktøjer kan trænede forretningsbrugere hurtigt indsamle data fra flere forskellige kilder og køre de gennem profilering, rensning og andre vigtige dataforberedelsesfunktioner. Augmenteret dataforberedelse kan også hjælpe med at reducere eller eliminere tidskrævende opgaver til it- og andre datateknikere.
  • Levering af data af høj kvalitet - Når forberedelsen af data foregår manuelt, kan selv meget erfarne dataspecialister ved en fejl komme til at introducere unøjagtige og irrelevante data - eller glemme at inkludere vigtige data. Augmenteret dataforberedelse kan automatisk finde og rette kvalitetsfejl, hvilket kan hjælpe med at sikre gyldige resultater i datasætprocedurerne.
  • Acceleration af ROI - Større produktivitet foran slutningen af analyseprojekter giver mere tid og flere ressourcer til datamodellering, mining og analyse. I stedet for at blive fanget i manuelle dataforberedelsesopgaver kan brugere fokusere på at studere indsigter og anvende dem for at transformere forretningsdriften og udfordringer. Når de er færdigbygget, kan et data sæt have flere applikationer, der yderligere optimerer investeringen.
  • Styring af datademokratisering - Ikke-specialiserede brugere, der er udstyret til at klargøre og offentliggøre data til analyse kan blive mere komfortable i at arbejde med rå data. Derudover kender de fleste brugere de analyseproblemer, der kan trække på deres professionelle viden og ekspertise til at vælge statistisk signifikante datasæt og hjælpe med at strukturere og forbedre data til understøttelse af projektmål. Efterhånden som dataværdighederne vokser i din organisation, bliver medarbejdere mere trygge i databaserede beslutninger og strategier.
  • Forbedring af virksomhedens fleksibilitet - Med mulighed for hurtigt at forberede omfattende datasæt kan brugere hurtige starte nye analyseprojekter til at understøtte skiftende virksomheds- og markedsbetingelser. Desto hurtigere indsigter findes, desto hurtigere kan virksomheden anvende disse indsigter til at opnå større konkurrencemæssig fordel.

Hvordan anvender firmaer augmenteret dataforberedelse?

På tværs af brancher kan firmaer bruge business intelligence og virksomhedsanalyseværktøjer til at udlede større værdi fra data. F.eks. kan følgende organisationer have indarbejdet augmenteret dataforberedelse i deres arbejdsprocesser til effektiv indsamling og behandling af data for at skabe analyser:

Bankvæsen

For bedre at forstå hvilke kunder der med størst sandsynlighed bruger formueforvaltningstjenester - og derefter målretter dem med personlige promoveringer - indsamlede en større bank hurtigt konsoliderede bank-, indbetalings-, udbetalings- og kreditkortdata fra hele banken og kortautomaten. den indsamlede også demografiske, socioøkonomiske og andre kontekstafhængige data for eksterne kilder.

Detail

En international medicinalkæde søgte oplysninger om, hvorfor kædes mærker havde dårlige resultater i visse områder og ikke i andre. Den kombinerede salgssteder, produktkategori, kundeloyalitet, net promoter-score og prissætningsdata for de interne systemer med eksterne geografiske data for at opbygge et solidt datasæt til analyse.

Landbrug

Et lille landbrugsteknisk firma ønskede at bruge sine egne data til at lave et studie af høstudbyttetendenser i tørkeramte områder, så det kunne vejlede landmænd på mindre gårde angående, hvilke afgrøder de skulle så og hvornår. Ved hjælp af store datapuljer, der vedligeholdes af offentlige og private organisationer indsamlede de kombinerede data vedrørende flere variabler, herunder vejrmæssige forhold, fugtindhold, vandforbrug og afgrødestatus.

Juridisk

Et juridisk firma, der forsvarede en virksomhedsklient i en stor retstvist analyserede millioner af e-mails fra klienter og andre ustrukturerede dokumenter relevante for historikken. Ved dramatisk reduktion af manuelle, gentagende dataregistreringsaktiviteter fik firmaet mere tid til at gennemse og analysere relevante oplysninger.

Offentlige myndigheder

En lokal myndighed i USA ønskede at anvende forudsigende praksis for at reducere udgifter til benzin, vedligeholdelse og udgifter til servicering af deres flåde af køretøjer og tungere maskiner. For bedre at kunne beslutte, hvilke og hvornår køretøjer skulle serviceres, og de enkelte køretøjers placering i realtid i forhold til et serviceværksted, har aktivstyringsteamet integreret oplysninger fra vedligeholdelsesposter for køretøjer og ydeevnesensorer med eksterne GPS-data.


Hvordan kan virksomheden implementere en augmenteret dataforberedelsesløsning?

Før introduktion af augmentet dataforberedelse til ansatte bør firmaet få deres tillid. Visse medarbejdere kan være bekymrede, om de nye teknologier kommer til at ændre eller eliminere deres roller. For at fremme accept kan ledere invitere de berørte teams til at hjælpe med at definere de nye dataforberedelsesprocesser og diskutere, hvordan deres roller kan udvikle sig. Desuden kan de proaktivt styrke datafærdigheder på tværs af organisationen, især blandt teams, der ikke allerede kender til augmenteret dataanalyser for at hjælpe med at øge tilliden i indsigterne.

Ved valg af løsning til selvbetjeningsdataforberedelse kan man stille følgende spørgsmål:

  • Vil løsningen oprette forbindelse til en række datakilder, enten i det lokale miljø eller i skyen?
  • Kan det arbejde med halvstrukturerede og ustrukturerede og data?
  • Til hvilken grad automatiseres dataforberedelsesprocessen?
  • Indeholder det robuste, intuitive værktøjer?
  • Understøttes løsningsunderstøttelsessamarbejdet på tværs af organisationen og datadeling?
  • Kan det skaleres til håndtering af big data?
  • Understøtter det skybaserede analyseplatform? Hvis ja, hvilke?
  • Vil det aktivere datasikkerhed og beskyttelse af personlige oplysninger og understøtte overholdelse af love og regler?
  • Hvad vil det koste, med hensyn til softwarelicenser, processorbehandling og lagerkrav samt ansættelse af medarbejdere og oplæring?

Når en løsning er besluttet, skal man starte i det små med implementeringen. Bed dataeksperter, forretnings- og andre interessenter om at vælge et nogle teams med datafærdigheder udpege nogle eksempler på brug, som er velegnede til augmenteret dataforberedelse. På basis af firmates målsætninger for dataanalyse skal løsningen gradvist udrulles til andre teams.

Få mere værdi ud af dine data med Microsoft Power BI

Microsoft Power BI kan hjælpe firmaet med at producere dataanalyser mere enkelt og hurtigt end med flere inkluderende processer. Anmodet om NLG-forespørgsler og anbefalinger og understøttet af datavisualiseringer kan forretningens teams hurtigere og mere sikkert klargøre præcise omfattende datasæt, der kan genere kvalitetsindsigt.


Ofte stillede spørgsmål

Hvad er dataforberedelse?

Forberedelse af data involverer alle niveauer ved skabelse af kvalitet og nøjagtige og omfattende datasæt til business intelligence og forretningsanalyser. Det er med til at sikre, at organisationen kan generere den indsigt, der er behov for at nå en konkurrencemæssig fordel.

Hvad er dataforberedelsesværktøjer?

Dataforberedelsesværktøjer letter dataindsamling, registrering, profilering, rensning, strukturopbygning, transformation og berigelse, validering og publicering.

Hvad er augmenteret dataforberedelsesproces?

Augmented dataforberedelsesprocessen anvender augmented analyser - herunder ML, NLG og data visualisering - til at omdanne traditionelt kedelige og tidskrævende aktiviteter til automatiserede og mere intelligente arbejdsprocesser.

Hvorfor er augmentet dataforberedelse vigtig?

Augmented dataforberedelse kan give flere fordele. Det kan øge produktiviteten, køre analyser ved hjælp af data af høj kvalitet, accelerere ROI på analyseprodukter, demokratisere data og forbedre forretningsfleksibiliteten.

Hvad er dataforberedelse til maskinlæring?

Effektive dataforberedelser til maskinlæringsapplikationer indeholder kvalitetsdatasæt til opbygning og test af ML-modeller. F.eks. anvender meget augmented dataforberedelse ML-algoritmer til at producere anbefalinger til bruger om, hvordan de kan rense og berige data og omdanne det til passende formater til ML-modelanalyser.