Dva jednotlivci diskutují

Základní informace o rozšířené přípravě dat

Zrychlete čas, který vaše společnost potřebuje k získání informací, pomocí strojového učení a dalších rozšířených analytických nástrojů.


Co je rozšířená příprava dat?

Zjednodušeně řečeno, rozšířená příprava dat umožňuje podnikatelům a dalším pracovníkům, kteří nemají hluboké odborné znalosti v oblasti datové vědy a analytiky, vytvářet bohaté a spolehlivé soubory dat pro analýzu. Nástroje pro rozšířenou přípravu dat využívající strojové učení (ML) a umělou inteligenci (AI), poskytované na automatizované samoobslužné platformě, mění proces vyhledávání a zkoumání nezpracovaných dat a jejich převod do použitelné podoby. Nenahrazují lidskou inteligenci a kontextové povědomí, ale rozšiřují je.

Vedoucí pracovníci, manažeři, partneři a další se při získávání konkurenční výhody spoléhají na business intelligence (BI) a podnikovou analytiku, které jim poskytují přesné, včasné a relevantní informace. Pomocí rozšířené přípravy dat může vaše společnost pomoci decentralizovat a demokratizovat přípravu dat, aby se na vytváření těchto přehledů mohlo podílet více zaměstnanců.


Jaký se používají nástroje pro rozšířenou přípravu dat?

Nástroje pro rozšířenou přípravu dat zjednodušují první a pravděpodobně nejdůležitější krok při zpracování dat - vytváření datových sad potřebných k sestavení, testování a trénování analytických modelů.

Tradičně byla příprava dat doménou technických týmů, které psaly kód a používaly specializovaný software k získávání dat z interních provozních systémů, jejich čištění a strukturování a k jejich vkládání do datových skladů. Tyto procesy, známé jako extrakce, transformace a načítání dat (ETL), mohly být složité, časově náročné a náchylné k chybám.

Většina běžných podnikových uživatelů neměla dovednosti ani čas na to, aby práci ETL prováděla sama. Dokonce i neprofesionální datoví vědci - obchodní analytici, vývojáři a další lidé, kteří nemají formální vzdělání v oblasti datové vědy, ale vykonávají některé pokročilé analytické práce - zjistili, že se spoléhají na datové inženýry a další datové odborníky, aby rozhodli, která data analyzovat a jak.

Časy se změnily. Organizace nyní ukládají obrovské objemy strukturovaných, částečně strukturovaných a nestrukturovaných dat, včetně textu a obrázků, v mnoha oddělených aplikacích a systémech. Jen zřídkakdy mají centralizované týmy IT a správy dat čas a zdroje na shromažďování a přípravu dat, natož na jejich modelování a studium, aby podpořily všechny rozmanité analytické iniciativy společnosti.

Díky nástrojům pro rozšířenou přípravu dat se může zapojit a pomoci více lidí. Tyto nástroje s konverzačními rozhraními typu „ukázat a kliknout“ postupně provedou uživatele rozhodnutími souvisejícími s přípravou dat.


Jaké jsou kroky přípravy dat?

Proces přípravy dat, známý také jako transformace dat nebo „munging“, zahrnuje řadu postupných činností pro integraci, strukturování a uspořádání dat. Kroky přípravy dat, které jsou níže popsány v běžně používaných kategoriích, vrcholí vytvořením jediné důvěryhodné sady dat pro informování o jednom nebo více konkrétních případech použití:

  1. Sběr. Analytický tým, který se řídí cíli zamýšlené analýzy, identifikuje a získává relevantní data z interních a externích zdrojů dat. Pokud je například cílem objasnit preference zákazníků ohledně produktů, může tým čerpat kvantitativní a kvalitativní data z aplikací CRM a prodejních aplikací, průzkumů mezi zákazníky a zpětné vazby ze sociálních médií. Během této fáze by měl tým konzultovat se všemi zúčastněnými stranami a používat spolehlivé datové soubory, jinak hrozí, že výsledky budou zaujaté nebo jinak zkreslené.
  2. Zjišťování a profilování. V opakujících se fázích zkoumání a analýzy tým zkoumá shromážděná nezpracovaná data, aby lépe porozuměl celkové struktuře a jednotlivým obsahům v každém souboru dat. Zkoumá také vztahy mezi jednotlivými soubory dat. Prostřednictvím profilování dat tým shromažďuje a shrnuje statistické údaje o anomáliích, nesrovnalostech, mezerách a dalších problémech, které je třeba vyřešit, než se data použijí k vývoji a tréninku analytických modelů. Například soubory dat o zákaznících, pacientech a další soubory dat obsahující jména a adresy uložené v různých systémech se často liší v pravopisu a v dalších ohledech.
  3. Čištění. V této fázi musí tým pečlivě opravit všechny problémy s kvalitou dat. Čištění zahrnuje činnosti, jako je doplnění chybějících hodnot, oprava nebo odstranění chybných údajů, odfiltrování nerelevantních údajů a maskování citlivých údajů. Tento časově náročný a zdlouhavý krok přípravy dat má zásadní význam pro zajištění přesnosti a konzistence dat. Čištění je obzvláště důležité při práci s velkými daty kvůli obrovským objemům dat, které je třeba harmonizovat.
  4. Strukturování. Tento krok zahrnuje vytvoření databázového schématu, které popisuje, jak uspořádat data do tabulek, aby byl umožněn bezproblémový přístup pomocí modelovacích nástrojů. Schéma lze považovat za trvalou strukturu, která bude jednotným způsobem obsahovat neustále se měnící data. Definují se všechny součásti schématu.
  5. Transformace a obohacování. Po nastavení schématu musí tým zajistit, aby všechna data byla ve vzájemném souladu. Některé stávající datové formáty bude třeba změnit, například upravit hierarchie a přidat, sloučit nebo odstranit sloupce a pole. Tým také může data rozšířit o behaviorální, demografické, geografické a další kontextové informace získané ze zdrojů uvnitř organizace i mimo ni. Obohacená sada dat umožňuje trénovat analytické modely s komplexnějšími sadami dat, a tedy poskytovat přesnější a hodnotnější poznatky.
  6. Ověřování. Nyní musí tým používat písemné skripty nebo nástroje k ověření kvality a přesnosti souboru dat. Rovněž potvrdí, že struktura a formátování dat odpovídají požadavkům projektu, aby uživatelé a nástroje pro modelování projektu měli k datům snadný přístup. V závislosti na velikosti datové sady se tým může rozhodnout otestovat spíše vzorek dat než celou datovou sadu. Měl by vyřešit případné problémy, než přejde k poslednímu kroku procesu přípravy dat.
  7. Publikování. Když si je tým jistý, že jeho data jsou kvalitní, přenese je do cílového datového skladu, datového jezera nebo jiného úložiště. Zde k nim může tým i ostatní členové organizace přistupovat a vyvíjet a testovat analytické modely.

Jak strojové učení zlepšuje přípravu a modelování dat?

Rozšířená analýza dat je možná díky rozšířeným analytickým nástrojům včetně strojového učení, automatizace, generování přirozeného jazyka (NLG) a vizualizace dat. Například rozšířené zjišťování dat se do značné míry opírá o strojové učení - typ umělé inteligence, která využívá algoritmy a statistické modely k učení se z dat a přizpůsobování se bez lidské pomoci.

Pomocí strojového učení se při zjišťování používají naučené znalosti, aby se zvážilo, jaké typy datových souborů jsou potřebné vzhledem k problému, který má model řešit, a hypotéze, která má být testována. Zohledňují také kontext, v němž byly datové soubory shromážděny. Nástroje pak rychle analyzují a vyvozují závěry ze vzorů v datových sadách a inteligentně navrhují, které z nich je třeba kombinovat.

Rozšířené zjišťování dat nejen využívá strojové učení, ale také pomáhá zajistit efektivní přípravu dat pro modely strojového učení. Nástroje pro zjišťování využívají algoritmy strojového učení například k tomu, aby uživatelům generovaly doporučení, jak data vyčistit a obohatit a jak je transformovat do vhodného formátu pro analýzu modelů strojového učení.


Jak může vaše společnost využít rozšířenou přípravu dat?

Vedoucí pracovníci a týmy v různých odvětvích denně hledají nové strategické způsoby, jak využít data. Díky rozšířené přípravě dat mohou realizovat inovativní nápady na analytické projekty bez pomoci IT odborníků.

Výhody rozšířené přípravy dat se mohou týkat celé organizace:

  • Zvyšuje produktivitu - Pomocí intuitivních grafických uživatelských rozhraní s automatizovanými samoobslužnými nástroji mohou zkušení podnikoví uživatelé rychle shromažďovat data z různých zdrojů a provádět jejich profilování, čištění a další klíčové funkce přípravy dat. Rozšířená příprava dat také pomáhá snížit nebo eliminovat časově náročné úkoly pro IT a datové specialisty.
  • Poskytuje vysoce kvalitní data - Při ruční přípravě dat mohou i zkušení datoví vědci omylem uvést nepřesná a nerelevantní data - nebo do nich nezahrnout důležitá data. Rozšířená příprava dat dokáže automaticky vyhledat a opravit problémy s kvalitou, čímž pomůže zajistit, aby soubor dat poskytoval platné výsledky.
  • Urychluje návratnost investic - Větší produktivita na počátku analytických projektů ponechává více času a zdrojů na modelování, dolování a analýzu dat. Namísto toho, aby se uživatelé zabývali manuální přípravou dat, mohou se soustředit na studium poznatků a jejich využití k transformaci podnikových operací a problémů. Jednou vytvořená datová sada může mít několik aplikací, což dále optimalizuje vaše investice.
  • Podporuje demokratizaci dat - Nespecializovaní uživatelé, kteří jsou vybaveni pro přípravu a publikování dat k analýze, mohou pohodlněji pracovat s nezpracovanými daty. Uživatelé, kteří jsou nejlépe obeznámeni s analytickou problematikou, mohou navíc využít svých obchodních znalostí a zkušeností při výběru statisticky významných datových souborů a pomoci strukturovat a obohatit data tak, aby podporovala cíle projektu. S rostoucí datovou gramotností v organizaci získávají lidé větší důvěru v rozhodnutí a strategie založené na datech.
  • Zlepšuje firemní flexibilitu - Uživatelé mohou rychle připravit rozsáhlé datové sady a rychle spustit nové analytické projekty na podporu měnících se obchodních a tržních podmínek. Čím rychlejší je doba získání poznatků, tím rychleji může vaše společnost tyto poznatky použít k získání konkurenční výhody.

Jak společnosti používají rozšířenou přípravu dat?

V různých odvětvích společnosti používají business intelligence a nástroje pro obchodní analýzu k získání větší hodnoty z dat. Například následující organizace po začlenění rozšířené přípravy dat do svých pracovních postupů efektivně shromažďují a zpracovávají data, která jim slouží k analýze:

Bankovnictví

Aby lépe pochopila, kteří zákazníci nejčastěji využívají služby investování do majetku, a následně na ně zacílila personalizované propagační akce, velká banka rychle shromáždila a konsolidovala údaje o účtech, vkladech, výběrech a kreditních kartách z celé své pobočkové sítě a sítě bankomatů. Z externích zdrojů získala také demografické, socioekonomické a další kontextové údaje.

Maloobchod

Mezinárodní řetězec lékáren se snažil zjistit, proč se jeho značková kosmetika v některých lokalitách prodává hůře než v jiných. Zkombinoval údaje o místech prodeje, kategoriích výrobků, loajalitě zákazníků, skóre loajality zákazníků a cenách ze svých interních systémů s externími geografickými údaji, aby vytvořil bohatý soubor dat pro analýzu.

Zemědělství

Malá společnost zabývající se zemědělskými technologiemi chtěla využít své vlastní algoritmy ke studiu trendů výnosů plodin v oblastech postižených suchem, aby mohla drobným zemědělcům poradit, jaké plodiny a kdy sázet. Využila velké datové fondy spravované veřejnými a soukromými organizacemi a získala a zkombinovala data týkající se mnoha proměnných, včetně povětrnostních podmínek, teploty půdy, obsahu vlhkosti, spotřeby vody a stavu plodin.

Právo

Právní firma, která obhajovala firemního klienta v rozsáhlém soudním sporu, analyzovala miliony klientských e-mailů a dalších nestrukturovaných dokumentů a hledala v nich relevantní historii. Díky výraznému omezení manuálních, opakujících se činností při zjišťování dat měla firma více času na přezkoumání a analýzu relevantních zjištění.

Státní správa

Vláda jednoho amerického státu chtěla využít postupy prediktivní údržby, aby snížila náklady na palivo, údržbu a služby pro svůj vozový park automobilů a těžkých strojů. Aby tým správy majetku mohl lépe určit, která vozidla a kdy potřebují servisní prohlídku a jak blízko se každé vozidlo v reálném čase nachází k servisnímu zařízení, integroval informace ze záznamů o údržbě vozidel a výkonnostních senzorů s externími daty GPS.


Jak může vaše společnost implementovat řešení pro rozšířenou přípravu dat?

Před zavedením rozšířené přípravy dat pro zaměstnance by si vaše společnost měla získat jejich důvěru. Někteří jedinci by se mohli obávat, že nové technologie změní nebo dokonce zruší jejich role. Aby podpořili přijetí, mohou manažeři přizvat dotčené týmy, aby pomohly definovat nové procesy přípravy dat a diskutovat o tom, jak by se jejich role mohly změnit. Také proaktivní podpora datové gramotnosti v celé organizaci, zejména v týmech, které nejsou obeznámeny s rozšířenou datovou analytikou, pomáhá zvýšit důvěru ve výsledné poznatky.

Při výběru samoobslužného řešení pro přípravu dat si položte následující otázky:

  • Bude se řešení připojovat k různým zdrojům dat, ať už místním, nebo cloudovým?
  • Dokáže pracovat s polostrukturovanými a nezpracovanými daty?
  • Do jaké míry automatizuje proces přípravy dat?
  • Má robustní a intuitivní nástroje?
  • Podporuje řešení spolupráci mezi organizacemi a sdílení dat?
  • Dokáže se škálovat pro zpracování velkých objemů dat?
  • Bude podporovat cloudové analytické platformy? Pokud ano, jaké?
  • Umožní zabezpečení dat a ochranu osobních údajů a podpoří soulad s předpisy?
  • Jaké budou náklady s ohledem na softwarové licence, požadavky na zpracování a ukládání dat a na zavádění a školení zaměstnanců?

Jakmile se rozhodnete pro řešení, začněte s jeho implementací. Požádejte pracovníky datové vědy, obchodníky a další zúčastněné strany, aby vybrali několik datově gramotných týmů s případy použití, které se hodí pro rozšířenou přípravu dat. Na základě cílů vaší společnosti pro rozšířenou analýzu dat postupně rozšiřujte řešení na další týmy.

Získejte větší hodnotu ze svých dat pomocí Microsoft Power BI

Microsoft Power BI může vaší společnosti pomoci zjednodušit, zrychlit a rozšířit proces analýzy dat. Podněcovány dotazy a doporučeními NLG a podporovány vizualizacemi dat mohou obchodní týmy rychleji a jistěji připravovat přesné a komplexní datové sady, které generují kvalitní přehledy.


Nejčastější dotazy

Co je příprava dat?

Příprava dat zahrnuje všechny fáze vytváření kvalitních, přesných a komplexních datových sad pro business intelligence a podnikovou analytiku. Pomáhá zajistit, aby organizace mohla generovat poznatky potřebné k získání konkurenční výhody.

Jaké jsou nástroje pro přípravu dat?

Nástroje pro přípravu dat usnadňují sběr, zjišťování a profilování, čištění, strukturování, transformaci a obohacování, ověřování a publikování dat.

Jaký je proces rozšířené přípravy dat?

Rozšířený proces přípravy dat využívá rozšířenou analytiku - včetně ML, NLG a vizualizace dat - k přeměně tradičně zdlouhavých a časově náročných činností na automatizované a inteligentnější pracovní postupy.

Proč je rozšířená příprava dat důležitá?

Rozšířená příprava dat může přinést několik výhod. Může zvýšit produktivitu, provádět analýzy s využitím kvalitnějších dat, urychlit návratnost investic do analytických projektů, demokratizovat data a zlepšit agilitu podniku.

Co je příprava dat pro strojové učení?

Efektivní příprava dat pro aplikace strojového učení poskytuje kvalitní datové sady pro vytváření a testování modelů strojového učení. Například mnoho rozšířených nástrojů pro přípravu dat využívá algoritmy strojového učení, které uživatelům doporučují, jak data vyčistit a obohatit a transformovat je do vhodného formátu pro analýzu modelů strojového učení.