
En introduktion till förhöjd dataförberedelse
Få insikter snabbare med maskininlärning och andra förstärkta analyser.
Vad är förstärkt dataförberedelse?
Med förstärkt dataförberedelse kan affärsfolk och andra yrkesverksamma som inte har djupa expertkunskaper inom datavetskap och analys skapa omfattande och tillförlitliga datauppsättningar för analys. Verktyg för dataförberedelse som baseras på maskininlärning (ML) och artificiell intelligens – och som tillhandahålls på en automatiserad självbetjäningsplattform – gör det lättare att hitta och undersöka rådata och omvandla dem till ett användbart format. De ersätter inte den mänskliga intelligensen och kontextuellt medvetande, utan förstärker det.
För att uppnå konkurrensfördelar använder ledare, verksamhetschefer, partner och andra Business Intelligence (BI) och affärsanalyser för att få korrekta, snabba och relevanta insikter. Med hjälp av förstärkt dataförberedelse kan ditt företag decentralisera och demokratisera dataförberedelsen så att fler medarbetare kan bidra till dessa insikter.
Hur används verktyg för förstärkt dataförberedelse?
Verktyg för förstärkt dataförberedelse förenklar det första och kanske det viktigaste steget vid databearbetning – att skapa de datauppsättningar som behövs för att skapa, testa och träna analysmodeller.
Dataförberedelser brukade tidigare oftast hanteras av tekniker som kunde skriva kod och som använde en speciell programvara för att extrahera data från interna operativsystem, rensa och strukturera dessa data och sedan läsa in dem i informationslager. Dessa så kallade ETL-processer (extrahera, transformera och läsa in) kunde vara komplicerade och tidsödande, och det var lätt att göra fel.
Den genomsnittliga verksamhetsanvändaren hade inte de kunskaper eller den tid som krävdes för att själva utföra ETL-processerna. Även affärsanalytiker, utvecklare och andra utan formell utbildning inom datavetenskap, men som ändå utförde avancerat analysarbete, var tvungna att vända sig till datatekniker och andra proffs för att ta reda på vad de skulle analysera och hur.
Tiderna har dock förändrats. Organisationer lagrar numera enorma volymer strukturerade, delvis strukturerade och ostrukturerade data, bland annat text och bilder, i olika appar och system som inte kommunicerar med varandra. Centraliserade IT- och datahanteringsteam har sällan tid eller resurser för att samla in och förbereda data, än mindre modellera och studera dem, för att bistå företagets olika analysinsatser.
Tack vare verktyg för förstärkt dataförberedelse kan fler ta ansvar och bidra. Dessa verktyg med peka och klick-funktioner och konversationsbaserade användargränssnitt guidar användarna genom databaserade beslut som berör dataförberedelsen.
Vilka steg ingår vid dataförberedelse?
Dataförberedelse, vilket ibland kallas för dataomvandling eller dataomarbetning, består av en serie sekventiella åtgärder för att integrera, strukturera och organisera data. Stegen för förberedelse av data, vilka beskrivs nedan enligt vanligt förekommande kategorier, leder fram till att skapa en enda, tillförlitlig datauppsättning som kan ligga till grund för en eller flera specifika användningsfall:
- Insamling. Guidade utifrån målen med den tänkta analysen identifierar och hämtar analysteamet data från interna och externa datakällor. Om målet till exempel är att belysa kundernas produktreferenser, kan teamet hämta kvantitativa och kvalitativa data från CRM- och försäljningsappar, kundundersökningar och feedback i sociala medier. Under den här fasen bör teamet rådgöra med alla intressenter och använda tillförlitliga datauppsättningar, annars kan resultatet bli partiskt eller snedvridet.
- Identifiering och profilering. Genom iterativ utforskning och analys undersöker teamet de rådata som samlats in för att få en bättre förståelse för den övergripande strukturen i och det enskilda innehållet inom respektive datauppsättning. Genom dataprofilering samlar teamet in och sammanfattar statistik om avvikelser, inkonsekvenser, luckor och andra problem som måste hanteras innan data kan användas för att utveckla och träna analysmodellerna. Till exempel kan kund-, patient- eller andra datauppsättningar innehålla namn och adresser som lagras i olika system där de stavas på olika sätt.
- Rensning. I det här stadiet måste teamet noggrant korrigera alla problem med datakvalitet en. Rensning omfattar åtgärder som att fylla i de värden som saknas, korrigera eller ta bort defekta data, filtrera bort irrelevanta data och maska känsliga data. Det här steget är tidsödande och omständligt, men viktigt för att säkerställa att data är korrekta och konsekventa. Rensning är särskilt viktigt när du arbetar med stordata, eftersom stora datavolymer måste harmoniseras.
- Strukturering. Det här steget omfattar att utveckla ett databasschema som beskriver hur data ska struktureras i tabeller, så att de blir lätta att komma åt med modelleringsverktygen. Schemat kan ses som en permanent struktur som ska inrymma ständigt föränderliga data på ett enhetligt sätt. Alla schematiska komponenter definieras.
- Omvandling och berikning. När schemat har fastställts måste teamet säkerställa att alla data är enhetliga. Vissa befintliga dataformat måste ändras, till exempel genom att hierarkier justeras och kolumner och fält läggs till, sammanfogas eller tas bort. Teamet kan också förbättra data med beteendemässig, demografisk, geografisk eller annan kontextuell information som hämtas från källor utanför organisationen. Med en berikad datauppsättning kan analysmodeller tränas med mer omfattande datauppsättningar och skapa mer exakta och användbara insikter.
- Validering. Nu måste teamet använda skrivna skript eller verktyg för att verifiera kvaliteten och exaktheten i datauppsättningarna. Teamet måste också bekräfta att datastrukturen och formateringen överensstämmer med projektkraven, så att det blir lätt för användarna och projektmodelleringsverktygen att komma åt data. Beroende på datauppsättningens storlek kanske teamet väljer ett testa ett urval data i stället för hela datauppsättningen. Teamet bör även lösa eventuella problem innan man går vidare till nästa steg i dataförberedelsen.
- Publicering. När teamet har säkerställt att data har hög kvalitet, ska de överföras till ett specifikt informationslager, en datasjö eller annan typ av databas. Därifrån kan teamet och andra i organisationen få tillgång till data för att utveckla och testa analysmodeller.
Hur kan dataförberedelse och modellering förbättras med maskininlärning?
Det går att förstärka dataanalysen med förstärkt analys, vilket inbegriper ML, automatisering, generering av naturligt språk (NLG) och datavisualisering. Förstärkt dataidentifiering grundar sig till exempel till stora delar på ML – en typ av AI som använder algoritmer och statistiska modeller för att lära sig från data och anpassar sig utan mänskligt bistånd.
Genom att använda ML tillämpar identifieringsverktygen tillägnad kunskap för att överväga vilka typer av datauppsättningar som behövs utifrån det problem som modellen ska lösa och vilka hypoteser som ska testas. De tar också hänsyn till i vilket sammanhang som datauppsättningen samlades in. Sedan kan verktygen snabbt analysera och dra slutsatser utifrån mönstren i datauppsättningarna och på ett smart sätt föreslå vilka som bör kombineras.
Förstärkt dataidentifiering använder inte bara ML men säkerställer också en effektiv dataförberedelse för ML-modeller. Identifieringsverktygen använder till exempel ML-algoritmer för att generera rekommendationer för användarna om hur de bör rensa och berika data samt omvandla dem till ett lämpligt format för ML-modellanalyser.
Vilken nytta kan ditt företag ha av förstärkt dataförberedelse?
Varje dag arbetar verksamhetsledare och team inom olika branscher med att hitta nya, strategiska sätt att tjäna pengar på sina data. Med förstärkt dataförberedelse kan de vidta åtgärder utifrån innovativa förslag på analysprojekt utan hjälp från IT-personal.
Fördelar med förstärkt dataförberedelse för din organisation:
- Ökar produktiviteten: Genom att använda intuitiva och grafiska användargränssnitt med automatiserade självbetjäningsverktyg kan verksamhetsanvändare med rätt kunskaper snabbt samla in data från flera åtskilda källor och köra dem genom profilerings-, rensnings- och andra viktiga dataförberedelsefunktioner. Med förstärkt dataförberedelse minskar antalet tidsödande uppgifter för IT- och datapersonalen.
- Genererar data av högre kvalitet: När data förbereds manuellt kan även erfarna datavetare av misstag införa felaktiga och irrelevanta data – eller missa att införa viktiga data. Förstärkt dataförberedelse kan automatiskt hitta och korrigera kvalitetsproblem så att datauppsättningarna skapar korrekta resultat.
- Ger snabbare avkastning på investeringen: Bidrar till större produktivitet i analysprojekten, eftersom som man får mer tid och resurser för datamodellering, datautvinning och analys. I stället för att lägga en massa tid på manuell dataförberedelse, kan användarna i stället fokusera på att studera insikter och använda dem för att förbättra verksamheten och hantera utmaningar. När en datauppsättning har skapats kan den ha flera användningsområden, vilket ytterligare optimerar investeringarna.
- Bidrar till datademokratisering: Utrustade för att kunna förbereda och publicera data för analys kan icke specialiserade användare på ett tryggare sätt arbeta med rådata. De användare som är mest vana vid analysproblem kan också utnyttja sina kunskaper om verksamheten och andra expertkunskaper för att välja ut de statistiskt mest signifikanta datauppsättningarna och bidra till projektmålen genom att strukturera och berika data. När datakunskapen ökar i organisationen blir personalen också mer säker på hur man ska fatta dataunderbyggda beslut och lägga upp strategier.
- Gör verksamheten mer agil: När användarna snabbt kan förbereda omfattande datauppsättningar, kan de också snabbt inleda nya analysprojekt som stöttar nya förhållanden för verksamheten och på marknaden. Ju snabbare insikterna skapas, desto snabbare kan företaget använda dessa insikter för att uppnå konkurrensfördelar.
Hur använder företag förstärkt dataförberedelse?
Inom en mängd olika branscher använder företag Business Intelligence och verktyg för verksamhetsanalys för att skapa större värden utifrån data. Följande organisationer har infört förstärkt dataförberedelse i sina arbetsflöden för att samla in och bearbeta data på ett effektivt sätt för sina analyser:
Banksektorn
För att bättre förstå vilka kunder som mest troligt vill använda tjänster för förmögenhetsförvaltning och investering – och sedan nå ut till dem med personanpassade erbjudanden – samlade en stor bank snabbt in och sammanställde konto-, insättnings-, uttags- och kreditkortsdata från sina filialer och bankomater. Banken hämtade också in demografiska, socioekonomiska och andra kontextuella data från externa källor.
Detaljhandel
En internationell apotekskedja ville ta reda varför deras sminkvarumärke gick mindre bra på vissa marknader och bättre på andra. Företaget kombinerade kassa-, produktkategori-, kundlojalitets- och prissättningsdata samt kundnöjdhetspoäng från sina interna system med externa geografiska data för att skapa en omfattande datauppsättning för analys.
Jordbruk
Ett mindre företag inom jordbruksteknik ville använda sina egna algoritmer för att studera trender inom avkastningen från olika grödor på områden som drabbats av torka, så att de kunde ge mindre jordbrukare råd om vilka grödor de borde så och när. Genom att dra nytta av stordatapooler som drevs av offentliga och privata organisationer kunde företaget inhämta och kombinera dessa data till olika variabler, bland annat väderförhållanden, jordens temperatur, fukthalt, vattenförbrukning och grödornas status.
Juridik
En juristfirma som försvarade en företagsklient i en stor rättsprocess analyserade miljontals av klientens e-postmeddelanden och andra ostrukturerade dokument för att få fram viktig historik. Genom att dramatiskt minska antalet manuella och repetitiva åtgärder fick firman mer tid över för att analysera relevanta upptäckter.
Myndigheter
En amerikansk myndighet ville använda prediktivt underhåll för att sänka bränsle-, underhålls- och servicekostnaderna för sin fordonsflotta och maskinpark. För att få bättre information om vilka fordon som behövde service – och när – och i nära nog i realtid få information om närmaste serviceanläggning, integrerade teamet som hanterade tillgångarna information från underhållsposter och prestandasensorer med externa GPS-data.
Hur kan ditt företag implementera en lösning för förstärkt dataförberedelse?
Innan du presenterar förstärkt dataförberedelse för dina medarbetare bör skapa förtroende hos dem. Några kanske oroar sig för hur tekniken påverkar deras roller, eller gör dem överflödiga. För att få deras acceptans kan chefer bjuda in de team som påverkas och be dem om hjälp att definiera nya dataförberedelseprocesser och diskutera hur deras roller kan medverka. De kan också proaktivt öka datakunskapen inom organisationen, särskilt bland medarbetare som har begränsad kunskap om förstärkt dataanalys, och på så sätt öka deras förtroende för de insikter som skapas.
När du ska välja en självbetjäningslösning för dataförberedelse bör du ställa dig följande frågor:
- Kan lösningen anslutas till olika datakällor – lokalt och i molnet?
- Kan den fungera med delvis strukturerade och ostrukturerade data?
- I vilken omfattning automatiserar den dataförberedelsen?
- Innehåller den robusta och intuitiva verktyg?
- Har lösningen stöd för organisationens samarbete och datadelning?
- Kan den skalas till att hantera stordata?
- Har den stöd för molnbaserade analysplattformar? Och i så fall vilka?
- Har den funktioner för datasäkerhet och sekretess samt stöd för regelefterlevnad?
- Vad kommer den att kosta, med tanke på programvarulicenser, bearbetnings- och lagringsbehov samt introduktion och utbildning av medarbetare?
När du har bestämt dig för en lösning bör du börja implementeringen i liten skala. Be datavetare, medarbetare i verksamheten och andra intressenter att välja ut ett litet team med datakunskaper som kan börja arbeta med förstärkt dataförberedelse på ett användningsfall. Utifrån vilka mål företaget har med den förstärkta dataanalysen kan lösningen sedan rullas ut till andra team.
Få ut mer värde från dina data med Microsoft Power BI
Med Microsoft Power BI kan företag göra förstärkta dataanalyser enklare, snabbare och mer inkluderande. Genom frågor och rekommendationer på naturligt språk (NLG) och med stöd av datavisualiseringar kan verksamhetsteam snabbare och säkrare förbereda exakta och omfattande datauppsättningar som genererar insikter av hög kvalitet.
Vanliga frågor och svar
Vad är dataförberedelse?
Dataförberedelse inbegriper alla faser när det gäller att skapa exakta och omfattande datauppsättningar av hög kvalitet för Business Intelligence och affärsanalyser. En organisation kan generera de insikter som behövs för att uppnå konkurrensfördelar.
Vad är verktyg för dataförberedelse?
Med verktyg för dataförberedelse blir det lättare att samla in, identifiera och profilera, rensa, strukturera, omvandla och berika samt validera och publicera data.
Vad är förstärkt dataförberedelse?
Vid förstärkt dataförberedelse används förstärkt analys – bland annat ML (maskininlärning), NLG och datavisualisering – för att omvandla aktiviteter som brukade ta lång tid till automatiserade och mer intelligenta arbetsflöden.
Varför är det viktigt med förstärkt dataförberedelse?
Förstärkt dataförberedelse har många fördelar. Du kan öka produktiviteten, göra analyser som använder data av högre kvalitet, få snabbare avkastning på analysprojekten, demokratisera data och göra verksamheten mer agil.
Vad är dataförberedelse för maskininlärning?
Effektiv dataförberedelse för ML-tillämpningar skapar kvalitativa datauppsättningar som kan användas för att skapa och testa ML-modeller. Många verktyg för förstärkt dataförberedelse använder ML-algoritmer för att ta fram rekommendationer för användarna om hur de bör rensa och berika data samt omvandla dem till ett lämpligt format för ML-modellanalyser.