
Podstawy procesu przygotowywania danych
Przyspiesz tworzenie analiz za pomocą uczenia maszynowego i innych metod wspomaganej analityki.
Co to jest wspomagane przygotowywanie danych?
Wspomagane przygotowywanie danych pomaga w tworzeniu niezawodnych zestawów danych do analizy. Proces ten opiera się na uczeniu maszynowym (ML) i sztucznej inteligencji (AI) i odbywa się na zautomatyzowanej samoobsługowej platformie. Narzędzia do wspomaganego przygotowywania danych pozwalają przekształcać zbiory nieprzetworzonych danych w użyteczne informacje. Nie zastępują one analizy kontekstowej wykonywanej przez człowieka, ale wspomagają ją.
Aby uzyskać przewagę konkurencyjną, liderzy, kierownicy działów, partnerzy i inni stosują narzędzia analityki biznesowej (BI), by mieć dostęp do dokładnych, aktualnych i istotnych informacji. Dzięki wspomaganemu przygotowywaniu danych firma może zdecentralizować i zdemokratyzować proces przygotowywania danych, tak aby więcej pracowników mogło brać udział w uzyskiwaniu tych informacji.
Jak wykorzystywane są narzędzia wspomaganego przygotowywania danych?
Wspomagane przygotowywanie danych usprawnia pierwszy i prawdopodobnie najważniejszy etap przetwarzania danych, tj. tworzenie zbiorów danych potrzebnych do budowy, testowania i szkolenia modeli analitycznych.
Tradycyjnie przygotowanie danych było domeną zespołów technicznych, których pracownicy pisali kod i korzystali ze specjalnych programów do pobierania danych z wewnętrznych systemów operacyjnych, oczyszczania tych danych i porządkowania, po czym przekazywali te je do hurtowni danych. Procesy te, znane jako ekstrakcja, transformacja i ładowanie danych (ETL), były skomplikowane, czasochłonne i podatne na błędy.
Większość przeciętnych użytkowników biznesowych nie potrafiła samodzielnie wykonywać procesów ETL, ani też nie miała na to czasu. Również osoby zajmujące się analizą danych amatorsko (analitycy biznesowi, programiści i inne osoby bez formalnego wyszkolenia) polegali na zaleceniach inżynierów i innych specjalistów w sprawie wyboru danych do analizy oraz konkretnych metod.
Czasy się jednak zmieniły. Dziś organizacje przechowują ogromne ilości ustrukturyzowanych, połowicznie ustrukturyzowanych i nieustrukturyzowanych danych, w tym tekst i obrazy, w wielu silosowych aplikacjach i systemach. Scentralizowane zespoły IT i analitycy danych rzadko mają czas i środki na zbieranie i przygotowanie danych, nie mówiąc o ich modelowaniu i badaniu w kontekście wszystkich potrzeb analitycznych firmy.
Dzięki narzędziom do wspomaganego przygotowywania danych coraz więcej osób może podejmować się tego zadania. Narzędzia te, wyposażone w konwersacyjne interfejsy typu „wskaż i kliknij”, prowadzą użytkowników przez proces przygotowania danych.
Jakie są kroki w procedurze przygotowywani danych?
Proces przygotowania danych, znany również jako „wrangling” lub „munging”, obejmuje sekwencję działań mających na celu integrację, strukturyzację i organizację danych. Cała procedura przygotowywania danych, przedstawiona poniżej z użyciem powszechnie stosowanych kategorii, kończy się powstaniem jednego, zaufanego zbioru danych, który może być użyty w jednym lub kilku konkretnych zastosowaniach:
- Zbieranie. Na podstawie celu zamierzonej analizy zespół analityków identyfikuje i pobiera odpowiednie dane z wewnętrznych i zewnętrznych źródeł. Na przykład, jeśli celem jest odkrycie preferencji produktowych klientów, zespół może czerpać dane ilościowe i jakościowe z aplikacji CRM i sprzedażowych, ankiet klientów oraz opinii w mediach społecznościowych. Na tym etapie należy konsultować się ze wszystkimi interesariuszami i korzystać z wiarygodnych zestawów danych, aby zapobiegać tendencyjności lub innemu wypaczeniu wyników.
- Odkrywanie i profilowanie. Na kolejnych iteracyjnych etapach eksploracji i analizy zespół bada zebrane nieprzetworzone dane, by lepiej zrozumieć ogólną strukturę i indywidualną zawartość poszczególnych zbiorów danych. Bada również relacje pomiędzy tymi zbiorami. Za pomocą technik profilowania zespół zbiera i podsumowuje statystyki anomalii, niespójności, luk oraz innych kwestii, którymi należy się zająć, zanim dane zostaną użyte do opracowania i trenowania modeli analitycznych. Na przykład, w zbiorach danych klientów, pacjentów i innych zestawach nazwisk i adresów przechowywane w różnych systemach często występują rozbieżności pisowni i inne.
- Oczyszczanie. Na tym etapie zespół musi starannie wyeliminować wszelkie problemy związane z jakością danych. Oczyszczanie polega m.in. na uzupełnianiu brakujących wartości, poprawianiu lub usuwaniu wadliwych danych, filtrowaniu nieistotnych informacji oraz maskowaniu danych wrażliwych. Ten czasochłonny i żmudny etap przygotowywania danych ma kluczowe znaczenie dla zapewnienia ich dokładności i spójności. Oczyszczanie jest szczególnie ważne w przypadku pracy z Big Data ze względu na ogromną ilość danych, które wymagają ujednolicenia.
- Strukturyzacja. Na tym etapie zespół opracowuje schemat bazy danych opisujący ich organizację w tabelach, aby zapewnić łatwy dostęp do tych danych narzędziom tworzącym modele. Schemat może być traktowany jako struktura stała w ujednolicony sposób mieszcząca wciąż zmieniające się dane. Wszystkie elementy schematu są zdefiniowane.
- Przekształcanie i wzbogacanie. Po opracowaniu schematu zespół musi upewnić się, że wszystkie dane są z nim zgodne. Niektóre istniejące formaty danych będą wymagały zmiany, np. poprzez dostosowanie hierarchii oraz dodanie, połączenie lub usunięcie kolumn i pól. Zespół może również wzbogacać dane o informacje behawioralne, demograficzne, geograficzne i inne informacje kontekstowe pochodzące ze źródeł wewnątrz i na zewnątrz organizacji. Wzbogacony zbiór danych umożliwia trenowanie modeli analitycznych z użyciem bardziej kompleksowych zestawów danych, a tym samym na dostarczanie bardziej precyzyjnych i wartościowych spostrzeżeń.
- Walidacja. Na tym etapie zespół musi zastosować pisemne skrypty lub narzędzia do weryfikacji jakości i dokładności zestawu danych. Musi również zapewnić, że struktura danych i formatowanie są zgodne z wymaganiami projektu, tak aby użytkownicy i narzędzia do modelowania miały łatwo uzyskać dostęp do danych. W zależności od wielkości zbioru danych zespół może zdecydować się na przetestowanie próbki zamiast całego zbioru. Przed przejściem do ostatniego etapu procesu przygotowywania danych zespół powinien rozwiązać wszelkie problemy.
- Publikacja. Po upewnieniu się, że dane są wysokiej jakości, zespół przenosi je do docelowej hurtowni danych, jeziora danych lub innego repozytorium, gdzie będą one dostępne do celów opracowywania i testowania modeli analitycznych.
Jak uczenie maszynowe usprawnia przygotowywanie i modelowanie danych?
Wspomagana analityka danych jest możliwa dzięki rozszerzonej analityce,, w tym ML, automatyzacji, generowaniu języka naturalnego (NLG) i wizualizacji danych. Na przykład, wspomagane odkrywanie danych opiera się w dużej mierze na ML, które jest rodzajem AI, wykorzystującym algorytmy i modele statystyczne do uczenia się na podstawie danych i adaptacji bez pomocy człowieka.
Narzędzia do odkrywania stosują wiedzę wyuczoną za pomocą ML do sortowania rodzajów zbiorów danych z uwzględnieniem problemu do rozwiązania i hipotezy do sprawdzenia. Biorą one również pod uwagę kontekst, w którym zbiory danych były tworzone. Następnie narzędzia szybko analizują i wyciągają wnioski z wzorców w zestawach danych i inteligentnie wskazują, które z nich należy połączyć.
Wspomagane przygotowywanie danych nie tylko korzysta z ML, ale także pomaga rozwijać tę technologię poprzez tworzenie modeli treningowych. Narzędzia odkrywania wykorzystują na przykład algorytmy ML do generowania rekomendacji dla użytkowników, jak oczyszczać i wzbogacać dane i przekształcić je w odpowiedni format do analizy modeli ML.
W jaki sposób Twoja firma może wykorzystać procesy wspomaganego przygotowywania danych?
Liderzy biznesowi i zespoły z różnych branż codziennie znajdują nowe, strategiczne zastosowania dla danych. Dzięki wspomaganemu przygotowywaniu danych mogą oni realizować innowacyjne pomysły w zakresie projektów analitycznych bez pomocy informatyków.
Korzyści płynące ze wspomaganego przygotowywania danych mogą objąć całą organizację:
- Zwiększenie produktywności — za pomocą intuicyjnych, graficznych interfejsów użytkownika ze zautomatyzowanymi, samoobsługowymi narzędziami, wyszkoleni użytkownicy biznesowi mogą szybko zebrać dane z wielu różnych źródeł i wykonać profilowanie, czyszczenie i inne kluczowe procesy przygotowywania danych. Wspomagane przygotowywanie danych pomaga też ograniczyć lub wyeliminować czasochłonne zadania wykonywane przez informatyków i analityków danych.
- Wyższa jakość danych — ręczne przygotowywanie danych, nawet jeśli zajmują się nim doświadczeni analitycy, jest podatne na błędy, nieścisłości, dodawanie nieistotnych danych i pomijanie tych ważnych. Wspomagane przygotowywanie danych pozwala automatycznie lokalizować i korygować problemy związane z jakością, co pomaga zapewnić, że zbiór danych będzie generował prawidłowe wyniki.
- Szybszy zwrot z inwestycji — większa wydajność na początku projektów analitycznych zapewnia więcej czasu i środków na modelowanie, eksplorację i analizę danych. Zamiast zajmować się ręcznym przygotowywaniem danych, użytkownicy mogą skupić się na badaniu uzyskanych informacji i stosowaniu ich do modernizacji firmy. Raz opracowany zbiór danych może mieć wiele zastosowań, co dodatkowo optymalizuje związane z tym inwestycje.
- Demokratyzacja danych — funkcje przygotowania i publikowania danych do analizy ułatwiają niewyszkolonym użytkownikom pracę z nieprzetworzonymi danymi. Użytkownicy najlepiej zaznajomieni z problemem analitycznym mogą też łatwiej wybierać statystycznie istotne zestawy danych i pomagać w strukturyzowaniu i wzbogacaniu danych zgodnie z założeniami projektu. W miarę rozwijania kompetencji w zakresie pracy z danymi użytkownicy nabierają więcej zaufania do decyzji i strategii opartych na danych.
- Poprawa sprawności biznesowej — możliwość szybkiego przygotowania kompleksowych zestawów danych usprawnia uruchamianie nowych projektów analitycznych odpowiednio do zmieniających się warunków biznesowych i rynkowych. Im szybciej można uzyskać wgląd w dane, tym szybciej firma może je zastosować do uzyskania przewagi konkurencyjnej.
W jaki sposób firmy stosują wspomagane przygotowywanie danych?
Firmy z różnych branż wykorzystują narzędzia analityki biznesowej do zwiększenia wartości danych. Na przykład włączenie wspomaganego przygotowywania danych w procesy robocze pozwoliło następującym organizacjom usprawnić zbieranie i przetwarzanie danych do analiz:
Bankowość
Aby lepiej zrozumieć, którzy klienci najprawdopodobniej skorzystają z usług w zakresie inwestycji majątkowych - a następnie skierować do nich spersonalizowane promocje - duży bank szybko zebrał i skonsolidował dane dotyczące rachunków, depozytów, wypłat i kart kredytowych z całej sieci oddziałów i bankomatów. Pobrał również dane demograficzne, socjoekonomiczne i inne dane kontekstowe ze źródeł zewnętrznych.
Handel detaliczny
Międzynarodowa sieć aptek chciała dowiedzieć się, dlaczego jej markowe kosmetyki osiągają słabe wyniki w niektórych lokalizacjach, a w innych radzą sobie dobrze. Dane dotyczące punktów sprzedaży, kategorii produktów, lojalności klientów, wynik promocji netto oraz dane dotyczące cen pochodzące z wewnętrznych systemów zostały połączone z zewnętrznymi danymi geograficznymi, dzięki czemu powstał bogaty zestaw danych do analizy.
Rolnictwo
Mała firma zajmująca się technologią rolniczą chciała wykorzystać swoje autorskie algorytmy do badania trendów wydajności upraw na obszarach dotkniętych suszą, aby móc doradzać drobnym rolnikom, jakie uprawy należy zasadzić i kiedy. Korzystając z publicznych i prywatnych zbiorów Big Data, firma pozyskała i połączyła dane dotyczące wielu zmiennych, w tym warunków pogodowych, temperatury gleby, zawartości wilgoci, zużycia wody oraz stanu upraw.
Prawne
Kancelaria prawna broniąca klienta korporacyjnego w dużym procesie sądowym przeanalizowała miliony wiadomości e-mail od klientów i innych nieustrukturyzowanych dokumentów w poszukiwaniu istotnych informacji. Dzięki radykalnemu ograniczeniu ręcznych, powtarzalnych czynności związanych z wyszukiwaniem danych, firma miała więcej czasu na przegląd i analizę istotnych informacji.
Administracja
Administracja jednego ze stanów USA postanowiła wdrożyć mechanizmy oszczędzania predykcyjnego, by obniżyć koszty paliwa, konserwacji i obsługi swojej floty pojazdów i ciężkich maszyn. Aby lepiej określić, które pojazdy i kiedy wymagają serwisowania oraz jaka jest odległość każdego z nich od punktu serwisowego, zespół zarządzający aktywami zintegrował informacje z rejestrów konserwacji pojazdów i czujników wydajności z zewnętrznymi danymi GPS.
Jak Twoja firma może wdrożyć rozwiązanie do wspomaganego przygotowywania danych?
Przed wprowadzeniem wspomaganego przygotowywania danych dla pracowników musisz ich do tego przekonać. Niektóre osoby mogą obawiać się, że nowe technologie zmienią lub wręcz wyeliminują ich role. W celu zwiększenia akceptacji menedżerowie mogą zaprosić zainteresowane zespoły do pomocy w definiowaniu nowych procesów przygotowywania danych i omówienia ewentualnych zmian w ich rolach. Ponadto aktywne promowanie znajomości danych w całej organizacji, zwłaszcza wśród zespołów, które nie są zaznajomione z rozszerzoną analityką danych, pomaga zwiększyć zaufanie do uzyskiwanych w ten sposób informacji.
Przy wyborze samoobsługowego rozwiązania do przygotowywania danych należy wziąć pod uwagę następujące kwestie:
- Czy rozwiązanie będzie łączyć się z różnymi źródłami danych, zarówno na miejscu, jak i w chmurze?
- Czy może pracować z nieprzetworzonymi i nieuporządkowanymi danymi lub danymi uporządkowanymi tylko połowicznie?
- W jakim stopniu automatyzuje proces przygotowywania danych?
- Czy posiada solidne, intuicyjne narzędzia?
- Czy rozwiązanie zapewnia współpracę międzyorganizacyjną i współdzielenie danych?
- Czy umożliwia skalowanie do obsługi Big Data?
- Czy będzie wspierać platformy analityczne w chmurze? Jeśli tak, to jakie?
- Czy zapewni bezpieczeństwo i prywatność danych oraz zgodność z przepisami?
- Ile to będzie kosztować, biorąc pod uwagę licencje na oprogramowanie, wymagania dotyczące przetwarzania i przechowywania danych oraz wdrożenie i szkolenie pracowników?
Kiedy już zdecydujesz się na rozwiązanie, zacznij od wdrożenia na małą skalę. Poproś analityków danych, przedstawicieli biznesu i innych interesariuszy o wybranie kilku zespołów potrafiących pracować z danymi, których procesy nadają się do wspomaganego przygotowywania danych. Na podstawie celów firmy związanych z rozszerzoną analizą danych stopniowo rozszerzaj rozwiązanie na inne zespoły.
Uzyskaj większą wartość danych dzięki Microsoft Power BI
Microsoft Power BI może pomóc Twojej firmie uprościć, przyspieszyć i ujednolicić rozszerzoną analitykę danych. Dzięki zapytaniom i rekomendacjom NLG oraz wizualizacjom danych zespoły biznesowe mogą szybciej i pewniej przygotowywać dokładne, kompleksowe zestawy danych, które generują wnioski o wysokiej jakości.
Często zadawane pytania
Co to jest przygotowywanie danych?
Przygotowywanie danych obejmuje wszystkie etapy tworzenia dokładnych i kompletnych zbiorów danych o wysokiej jakości na potrzeby analityki biznesowej. Dzięki temu organizacja jest w stanie generować informacje niezbędne do zdobycia przewagi konkurencyjnej.
Co to są narzędzia do przygotowywania danych?
Narzędzia do przygotowywania danych ułatwiają gromadzenie, odkrywanie i profilowanie danych, jak również ich oczyszczanie, strukturyzowanie, przekształcanie i wzbogacanie, walidację oraz publikację.
Co to jest wspomagane przygotowywanie danych?
Wspomagane przygotowywanie danych wykorzystuje rozszerzoną analitykę — w tym ML, NLG i wizualizację danych — do automatyzacji tradycyjnie żmudnych i czasochłonnych czynności i przekształcenia ich w procesy bardziej inteligentne.
Dlaczego wspomagane przygotowywanie danych jest ważne?
Wspomagane przygotowywanie danych zapewnia szereg korzyści. Może zwiększać produktywność, podnosić jakość analiz, przyspieszać zwrot z inwestycji w projekty analityczne, zwiększać dostępność danych i usprawniać działanie firmy.
Co to jest wspomagane przygotowywanie danych do uczenia maszynowego?
Skuteczne przygotowanie danych do uczenia maszynowego zapewnia wysoką jakość zbiorów danych do budowy i testowania modeli ML. W wielu wspomaganych narzędziach przygotowywania danych stosuje się na przykład algorytmy ML, które sugerują użytkownikom sposoby oczyszczania i wzbogacania danych oraz przekształcania ich w odpowiednie formaty na potrzeby analiz modeli ML.