
Eine Einführung in die erweiterte Datenaufbereitung
Beschleunigen Sie die Erkenntnisse Ihres Unternehmens mit maschinellem Lernen und anderen erweiterten Analysen.
Was ist erweiterte Datenaufbereitung?
Einfach ausgedrückt, ermöglicht die erweiterte Datenaufbereitung Geschäftsleuten und anderen Mitarbeitern, denen es an fundierten Kenntnissen in Data Science und Analytik mangelt, umfassende, zuverlässige Datasets für die Analyse zu erstellen. Unterstützt durch maschinelles Lernen (ML) und künstliche Intelligenz (KI) – und bereitgestellt auf einer automatisierten Self-Service-Plattform – transformieren erweiterte Datenaufbereitungstools den Prozess des Auffindens und Untersuchens von Rohdaten und deren Umwandlung in verwendbare Formen. Sie ersetzen nicht die menschliche Intelligenz und das Kontextbewusstsein; sie verbessern es.
Um Wettbewerbsvorteile zu erzielen, verlassen sich Führungskräfte, Geschäftsbereichsleiter, Partner und andere auf Business Intelligence (BI) und Business Analytics, um ihnen genaue, zeitnahe und relevante Erkenntnisse bereitzustellen. Mithilfe der erweiterten Datenaufbereitung kann Ihr Unternehmen dazu beitragen, die Datenaufbereitung zu dezentralisieren und zu demokratisieren, sodass mehr Mitarbeiter an der Gewinnung dieser Erkenntnisse mitwirken können.
Wie werden Tools für die erweiterte Datenaufbereitung verwendet?
Erweiterte Datenaufbereitungstools rationalisieren den ersten und vielleicht wichtigsten Schritt der Datenverarbeitung – das Erstellen von Datasets, die zum Erstellen, Testen und Trainieren von Analysemodellen benötigt werden.
Traditionell fiel die Datenaufbereitung in die Zuständigkeit von technischen Teams, die Code schrieben und spezialisierte Software verwendeten, um Daten aus internen Betriebssystemen zu extrahieren, zu bereinigen, zu strukturieren und sie in Data Warehouses zu laden. Diese als Datenextraktion, -transformation und -laden (ETL) bezeichneten Prozesse können komplex, zeitaufwändig und fehleranfällig sein.
Die meisten durchschnittlichen im geschäftlichen Bereich tätigen Personen hatten nicht die Fähigkeiten oder die Zeit, um ETL-Arbeiten selbst durchzuführen. Sogar Citizen Data Scientists – Wirtschaftsanalysten, Entwickler und andere, die keine formelle Data-Science-Ausbildung haben, aber einige fortgeschrittene Analysearbeiten durchführen – mussten sich bei der Entscheidung, welche Daten wie analysiert werden sollten, auf Data Engineers und andere Datenexperten verlassen.
Die Zeiten haben sich geändert. Heutzutage speichern Organisationen riesige Mengen strukturierter, halbstrukturierter und unstrukturierter Daten, einschließlich Text und Bilder, in mehreren isolierten Anwendungen und Systemen. Selten haben zentralisierte IT- und Datenmanagementteams die Zeit und die Ressourcen, um Daten zu sammeln und aufzubereiten, geschweige denn zu modellieren und zu prüfen und so alle vielfältigen Analyseinitiativen eines Unternehmens zu unterstützen.
Dank erweiterter Datenaufbereitungstools können mehr Mitarbeiter aktiv werden und helfen. Mit Point-and-Click-Konversationsschnittstellen führen die Tools Benutzer in Bezug auf die Datenaufbereitung kontinuierlich durch datengesteuerte Entscheidungen.
Was sind die Schritte zur Datenaufbereitung?
Der Datenaufbereitungsprozess, auch bekannt als Data Wrangling oder Munging, umfasst eine Reihe aufeinanderfolgender Aktivitäten zum Integrieren, Strukturieren und Organisieren von Daten. Die Schritte zur Datenaufbereitung, die unten in häufig verwendeten Kategorien beschrieben werden, führen zum Erstellen eines einzigen, vertrauenswürdigen Datasets für einen oder mehrere spezifische Anwendungsfälle:
- Sammlung. Geleitet von den Zielen der beabsichtigten Analyse identifiziert und zieht das Analyseteam relevante Daten aus internen und externen Datenquellen. Wenn das Ziel beispielsweise darin besteht, die Produktpräferenzen der Kunden zu beleuchten, kann das Team quantitative und qualitative Daten aus CRM- und Vertriebsanwendungen, Kundenbefragungen und Feedback aus sozialen Medien ziehen. Während dieser Phase sollte das Team alle Beteiligten konsultieren und zuverlässige Datasets verwenden, da es sonst zu voreingenommenen oder anderweitig verzerrten Ergebnissen kommt.
- Ermittlung und Profilerstellung. Durch iterative Erkundungs- und Analysephasen untersucht das Team die gesammelten Rohdaten, um die Gesamtstruktur und die einzelnen Inhalte in jedem Dataset besser zu verstehen. Es untersucht auch Beziehungen zwischen Datasets. Durch Datenprofilerstellung sammelt und fasst das Team Statistiken zu Anomalien, Inkonsistenzen, Lücken und anderen Problemen zusammen, die angegangen werden müssen, bevor die Daten zum Entwickeln und Trainieren von Analysemodellen verwendet werden. Beispielsweise unterscheiden sich Kunden-, Patienten- und andere Datasets, die systemübergreifend gespeicherte Namen und Adressen enthalten, häufig in der Schreibweise und auf andere Weise.
- Bereinigung. In dieser Phase muss das Team alle Datenqualitätsprobleme genauestens beheben. Die Bereinigung umfasst Aktivitäten wie das Ausfüllen fehlender Werte, das Korrigieren oder Entfernen fehlerhafter Daten, das Herausfiltern irrelevanter Daten und das Maskieren vertraulicher Daten. Dieser zeitaufwändige und langwierige Schritt zur Datenaufbereitung ist entscheidend für die Sicherstellung der Datengenauigkeit und -konsistenz. Gerade bei der Arbeit mit Big Data ist die Bereinigung aufgrund der riesigen Datenmengen, die harmonisiert werden müssen, besonders wichtig.
- Strukturierung. Dieser Schritt umfasst die Entwicklung eines Datenbankschemas, das beschreibt, wie die Daten in Tabellen organisiert werden, um einen reibungslosen Zugriff durch Modellierungstools zu ermöglichen. Das Schema kann als dauerhafte Struktur betrachtet werden, die sich ständig ändernde Daten auf einheitliche Weise enthält. Alle schematischen Komponenten sind definiert.
- Transformation und Anreicherung. Sobald das Schema festgelegt ist, muss das Team sicherstellen, dass alle Daten übereinstimmen. Einige vorhandene Datenformate müssen geändert werden, z. B. durch Anpassen von Hierarchien und Hinzufügen, Zusammenführen oder Löschen von Spalten und Feldern. Das Team kann die Daten auch mit verhaltensbezogenen, demografischen, geografischen und anderen kontextbezogenen Informationen aus Quellen innerhalb und außerhalb der Organisation anreichern. Mit einem angereicherten Dataset können Analysemodelle mit umfassenderen Datasets trainiert und somit präzisere, wertvolle Erkenntnisse bereitgestellt werden.
- Prüfung. Nun muss das Team schriftliche Skripte oder Tools verwenden, um die Qualität und Genauigkeit seines Datasets zu überprüfen. Außerdem wird bestätigt, dass die Datenstruktur und -formatierung mit den Projektanforderungen übereinstimmt, sodass Benutzer und Projektmodellierungstools problemlos auf die Daten zugreifen können. Abhängig von der Größe des Datasets kann sich das Team dafür entscheiden, eine Datenstichprobe statt des vollständigen Datasets zu testen. Es sollte alle Probleme lösen, bevor es mit dem letzten Schritt des Datenaufbereitungsprozesses fortfährt.
- Veröffentlichung. Wenn das Team von der hohen Qualität seiner Daten überzeugt ist, überträgt es sie an das gewünschte Data Warehouse, den Data Lake oder ein anderes Repository. Hier können das Team und andere innerhalb der Organisation darauf zugreifen, um Analysemodelle zu entwickeln und zu testen.
Wie verbessert die Datenaufbereitung und -modellierung das maschinelle Lernen?
Die erweiterte Datenanalyse wird durch erweiterte Analyse, ermöglicht, einschließlich ML, Automatisierung, Generierung natürlicher Sprache (NLG) und Datenvisualisierung. Beispielsweise stützt sich die erweiterte Datenanalyse stark auf ML – eine Art von KI, die Algorithmen und statistische Modelle verwendet, um aus Daten zu lernen und sich ohne menschliche Hilfe anzupassen.
Mithilfe von ML wenden Ermittlungstools erlerntes Wissen an, um zu überlegen, welche Arten von Datasets angesichts des Problems, das das Modell lösen muss, und der zu testenden Hypothese benötigt werden. Sie berücksichtigen auch den Kontext, in dem die Datasets erhoben wurden. Dann analysieren und ziehen die Tools schnell Schlussfolgerungen aus Mustern in den Datasets und schlagen auf intelligente Weise vor, welche zu kombinieren sind.
Die erweiterte Datenermittlung nutzt nicht nur ML, sondern trägt auch zur effektiven Datenaufbereitung für maschinelle Lernmodelle bei. Beispielsweise verwenden die Ermittlungstools ML-Algorithmen, um Empfehlungen für Benutzer zu generieren, wie Daten bereinigt und angereichert und in ein geeignetes Format für die ML-Modellanalyse umgewandelt werden können.
Wie kann Ihr Unternehmen von der erweiterten Datenaufbereitung profitieren?
Jeden Tag identifizieren Führungskräfte und Teams aus allen Branchen neue, strategische Wege, um Daten profitabel zu nutzen. Mit der erweiterten Datenaufbereitung können sie innovative Ideen für Analyseprojekte ohne die Hilfe von IT-Experten umsetzen.
Die Vorteile der erweiterten Datenaufbereitung können sich auf Ihre gesamte Organisation auswirken:
- Steigert die Produktivität – Mithilfe intuitiver, grafischer Benutzeroberflächen mit automatisierten Self-Service-Tools können erfahrene Geschäftsanwender schnell Daten aus mehreren, unterschiedlichen Quellen sammeln und sie durch Profilerstellung, Bereinigung und andere wichtige Datenaufbereitungsfunktionen führen. Die erweiterte Datenaufbereitung trägt auch dazu bei, zeitaufwändige Aufgaben für IT- und Datenexperten zu reduzieren oder zu beseitigen.
- Stellt hochqualifiziertere Daten bereit – Bei der manuellen Datenaufbereitung können selbst erfahrene Data Scientists versehentlich ungenaue und irrelevante Daten einfügen – oder wichtige Daten nicht einbeziehen. Die erweiterte Datenaufbereitung kann Qualitätsprobleme automatisch lokalisieren und korrigieren und so sicherstellen, dass Ihr Dataset gültige Ergebnisse bereitstellt.
- Beschleunigt den ROI – Höhere Produktivität am Front-End von Analyseprojekten lässt mehr Zeit und Ressourcen für Datenmodellierung, Mining und Analyse. Anstatt sich mit der manuellen Datenaufbereitung zu beschäftigen, können sich die Benutzer darauf konzentrieren, Erkenntnisse zu studieren und sie anzuwenden, um Geschäftsabläufe und Herausforderungen zu transformieren. Einmal erstellt, kann ein Dataset mehrere Anwendungen haben, wodurch Ihre Investitionen weiter optimiert werden.
- Fördert die Datendemokratisierung – Mit den richtigen Tools an der Hand, um bei der Aufbereitung und Veröffentlichung von Daten für die Analyse zu helfen, können sich nicht spezialisierte Benutzer mit der Arbeit von Rohdaten vertraut machen. Darüber hinaus können Benutzer, die mit dem Analyseproblem am besten vertraut sind, auf ihr Geschäftswissen und ihre Fachkenntnisse zurückgreifen, um statistisch signifikante Datasets auszuwählen und Daten zu strukturieren und anzureichern, um die Projektziele zu unterstützen. Mit zunehmender Datenkompetenz in Ihrer Organisation gewinnen die Mitarbeiter mehr Vertrauen in datengesteuerte Entscheidungen und Strategien.
- Geschäftliche Agilität verbessern – Durch die schnelle Aufbereitung umfassender Datasets können Benutzer schnell neue Analyseprojekte starten, um sich ändernde Geschäfts- und Marktbedingungen zu unterstützen. Je kürzer die Time-to-Insight ist, desto schneller kann Ihr Unternehmen diese Erkenntnisse nutzen, um Wettbewerbsvorteile zu erzielen.
Wie wenden Unternehmen die erweiterte Datenaufbereitung an?
In allen Branchen verwenden Unternehmen Business Intelligence und Geschäftsanalysetools, um einen größeren Wert aus Daten zu ziehen. Beispielsweise haben die folgenden Organisationen, nachdem sie die erweiterte Datenaufbereitung in ihre Workflows integriert haben, Daten effizient gesammelt und verarbeitet, um ihre Analysen voranzutreiben:
Bankwesen
Um besser zu verstehen, welche Kunden am ehesten Vermögensanlagedienste nutzen – und sie dann mit personalisierten Werbeaktionen anzusprechen – hat eine große Bank schnell Konto-, Einzahlungs-, Abhebungs- und Kreditkartendaten aus ihrem Filial- und Geldautomatennetzwerk gesammelt und konsolidiert. Es zog auch demografische, sozioökonomische und andere kontextbezogene Daten aus externen Quellen.
Einzelhandel
Eine internationale Apothekenkette wollte wissen, warum die Aufmachung ihres Markennamens an einigen Standorten unterdurchschnittlich abschneidet, an anderen jedoch nicht. Es kombinierte Point-of-Sale-, Produktkategorie-, Kundenloyalitäts-, Net Promoter Score- und Preisdaten aus seinen internen Systemen mit externen geografischen Daten, um einen umfangreichen Dataset für die Analyse zu erstellen.
Landwirtschaft
Ein kleines Agrartechnologieunternehmen wollte seine proprietären Algorithmen verwenden, um Ernteertragstrends in von Dürre heimgesuchten Gebieten zu untersuchen, damit es Kleinbauern beraten kann, welche Pflanzen wann angebaut werden sollen. Es nutzte große Datenpools, die von öffentlichen und privaten Organisationen gepflegt werden, und sammelte sowie kombinierte Daten zu mehreren Variablen, darunter Wetterbedingungen, Bodentemperaturen, Feuchtigkeitsgehalt, Wasserverbrauch und Pflanzenstatus.
Rechtswesen
Eine Anwaltskanzlei, die einen Firmenkunden in einem großen Rechtsstreit verteidigt, hat Millionen von Kunden-E-Mails und andere unstrukturierte Dokumente auf relevante Historie analysiert. Durch die drastische Reduzierung manueller, sich wiederholender Datenermittlungsaktivitäten hatte das Unternehmen mehr Zeit, relevante Ergebnisse zu überprüfen und zu analysieren.
Behörden
Eine US-Bundesstaatsregierung wollte Predictive Maintenance-Praktiken einsetzen, um die Kraftstoff-, Wartungs- und Servicekosten für ihre Flotte von Automobilen und Schwermaschinen zu senken. Um besser zu bestimmen, welche Fahrzeuge zu welchem Zeitpunkt gewartet werden mussten, und um die Echtzeit-Nähe jedes Fahrzeugs zu einer Serviceeinrichtung zu bestimmen, integrierte das Asset-Management-Team Informationen aus Fahrzeugwartungsaufzeichnungen und Leistungssensoren mit externen GPS-Daten.
Wie kann Ihr Unternehmen eine erweiterte Datenaufbereitungslösung implementieren?
Bevor Sie die erweiterte Datenaufbereitung bei Mitarbeitern einführen, sollte Ihr Unternehmen deren Vertrauen gewinnen. Einige Mitarbeiter könnten besorgt sein, dass die neuen Technologien ihre Rollen verändern oder sogar ersetzen. Um die Akzeptanz zu fördern, können Manager betroffene Teams einladen, bei der Definition neuer Datenaufbereitungsprozesse zu helfen und zu diskutieren, wie sich ihre Rollen weiterentwickeln könnten. Auch die proaktive Förderung der Datenkompetenz in der gesamten Organisation, insbesondere bei Teams, die mit der erweiterten Datenanalyse nicht vertraut sind, trägt dazu bei, das Vertrauen in die daraus resultierenden Erkenntnisse zu stärken.
Stellen Sie sich bei der Auswahl einer Self-Service-Datenaufbereitungslösung die folgenden Fragen:
- Lässt sich die Lösung mit verschiedenen Datenquellen, entweder lokal oder in der Cloud, verbinden?
- Kann sie halbstrukturierte und unstrukturierte Rohdaten verarbeiten?
- Inwieweit automatisiert sie den Datenaufbereitungsprozess?
- Verfügt sie über stabile, intuitive Tools?
- Unterstützt die Lösung die organisationsübergreifende Zusammenarbeit und den Datenaustausch?
- Kann sie für Big Data skaliert werden?
- Unterstützt sie cloudbasierte Analyseplattformen? Wenn ja, welche?
- Ermöglicht sie Datensicherheit und Datenschutz und unterstützt sie die Einhaltung gesetzlicher Vorschriften?
- Was kostet sie unter Berücksichtigung von Softwarelizenzen, Verarbeitungs- und Speicheranforderungen sowie der Einarbeitung und Schulung der Mitarbeiter?
Sobald Sie sich für eine Lösung entschieden haben, fangen Sie mit der Implementierung klein an. Bitten Sie Data Science, Unternehmen und andere Stakeholder, einige datenkompetente Teams mit Anwendungsfällen auszuwählen, die sich für eine erweiterte Datenaufbereitung eignen. Führen Sie die Lösung schrittweise basierend auf Ihren Unternehmenszielen für die erweiterte Datenanalyse bei anderen Teams ein.
Profitieren Sie mit Microsoft Power BI stärker von Ihren Daten
Microsoft Power BI kann Ihrem Unternehmen dabei helfen, die erweiterte Datenanalyse zu einem einfacheren, schnelleren und umfassenderen Prozess zu machen. Aufgefordert durch NLG-Abfragen und -Empfehlungen und unterstützt durch Datenvisualisierungen können Geschäftsteams schneller und zuverlässiger genaue, umfassende Datensätze erstellen, die qualitativ hochwertige Erkenntnisse bereitstellen.
Häufig gestellte Fragen
Was ist Datenaufbereitung?
Die Datenaufbereitung umfasst alle Phasen der Erstellung hochwertiger, genauer und umfassender Datasets für Business Intelligence und Business Analytics. Es stellt sicher, dass eine Organisation Erkenntnisse gewinnen kann, die für einen Wettbewerbsvorteil erforderlich sind.
Was sind Datenaufbereitungstools?
Datenaufbereitungstools vereinfachen die Erfassung, Entdeckung und Profilerstellung, Bereinigung, Strukturierung, Transformation und Anreicherung, Validierung und Veröffentlichung von Daten.
Was ist der erweiterte Datenaufbereitungsprozess?
Der erweiterte Datenaufbereitungsprozess nutzt erweiterte Analysen – einschließlich ML, NLG und Datenvisualisierung – um traditionell mühsame, zeitaufwändige Aktivitäten in automatisierte, intelligentere Workflows umzuwandeln.
Warum ist die erweiterte Datenaufbereitung wichtig?
Die erweiterte Datenaufbereitung bietet mehrere Vorteile. Sie kann die Produktivität steigern, Analysen mit qualitativ hochwertigeren Daten durchführen, den ROI von Analyseprojekten beschleunigen, Daten demokratisieren und die geschäftliche Agilität verbessern.
Was ist die Datenaufbereitung für maschinelles Lernen?
Eine effektive Datenaufbereitung für maschinelle Lernanwendungen bietet hochwertige Datasets zum Erstellen und Testen von ML-Modellen. Beispielsweise verwenden viele erweiterte Datenaufbereitungstools ML-Algorithmen, um Benutzern Empfehlungen zur Bereinigung und Anreicherung von Daten zu geben und sie in ein geeignetes Format für die ML-Modellanalyse umzuwandeln.