兩個人討論事情

增強資料準備入門

使用機器學習和其他增強分析,加快公司獲得見解的速度。


什麼是增強資料準備?

簡單地說,增強資料準備可讓缺乏資料科學和分析領域深入知識的商業人士和其他工作者建立豐富可靠的資料集,以供分析。在機器學習 (ML) 和人工智慧 (AI) 的技術支援下,並提供於自動、自助平台上,增強資料準備工具轉換尋找及檢查原始資料的程序,並將其轉換為可取用的形式。這些工具不會取代人類智慧和脈絡感知,而是予以加強。

為了獲得競爭優勢,領導者、企業營運經理、合作夥伴和其他人依賴商業智慧 (BI) 和商務分析,來為他們提供準確、及時和相關的見解。使用增強資料準備,公司可以將資料準備去中心化和普及化,讓更多員工幫助建立見解。


如何使用增強資料準備工具?

增強資料準備工具簡化資料處理的第一個步驟 (或許也是最重要的一步):建立必要的資料集,以建立、測試及訓練分析模型。

傳統上,資料準備落在技術團隊的領域中,該團隊編寫程式碼和使用專業軟體,從內部作業系統中擷取資料、進行資料清理和結構化,然後再將資料載入到資料倉儲中。此程序稱為資料擷取、轉換和載入 (ETL),可能既複雜、耗時又容易出錯。

大多數的普通商務使用者沒有自行進行 ETL 工作所需的技能或時間。即使是公民資料科學家 (商務分析師、開發人員,以及缺乏正規資料科學訓練但執行某些進階分析工作的其他人),往往也要依賴資料工程師和其他資料專業人員來決定要分析的資料及分析方式。

時代變了。現在,組織在多個孤立應用程式和系統中儲存大量的結構化、半結構化和非結構化資料,包括文字和影像。中心化的 IT 和資料管理團隊很少有收集及準備資料 (更不用說資料模型化和研究) 的時間和資源,以支援公司的所有各種分析計劃。

多虧了增強資料準備工具,更多人可以站出來幫忙。這些工具有點選、交談式介面,可隨時引導使用者完成與資料準備相關的資料驅動決策。


資料準備有哪些步驟?

資料準備程序又稱為資料整頓或整理,包含一系列整合、結構化及組織資料的循序活動。資料準備步驟 (以常用類別概述如下) 最終結束於建立單一受信任的資料集,以便為一個或多個特定使用案例提供資訊:

  1. 收集。在預期分析目標的引導下,分析團隊從內部和外部資料來源中識別及提取相關資料。例如,如果目標是闡明客戶的產品喜好,團隊可以從 CRM 和銷售應用程式、客戶問卷和社交媒體意見反應中提取量化和質化資料。在此階段中,團隊應諮詢所有利害關係人,並使用可靠的資料集,否則可能會導致結果偏差或扭曲。
  2. 探索和剖析。在探索和分析的疊代階段中,團隊檢查所收集的原始資料,以更加了解每個資料集的整體結構和個別內容。團隊也會研究不同資料集之間的關係。透過資料剖析,團隊收集及概述有關異常、不一致性、缺口和其他問題的統計資料,這些問題必須先解決,才能將資料用來開發及訓練分析模型。例如,跨系統儲存的客戶、患者,以及其他包含姓名和地址的資料集,通常在拼字和其他方面相異。
  3. 清理。在這個步驟,團隊必須仔細更正所有資料品質問題。清理涉及例如填入遺漏值、更正或移除瑕疵資料、篩選出不相關的資料,以及遮蔽敏感資料等活動。這個資料準備步驟既耗時又繁瑣,卻是確保資料正確性和一致性的關鍵。由於必須協調龐大的資料量,清理在處理巨量資料時尤其重要。
  4. 結構化。這個步驟需要開發資料庫結構描述,用以描述如何將資料組織到資料表中,以供模型化工具順利存取。結構描述可視為一種用統一方式容納不斷變化之資料的永久結構。所有結構描述元件均已定義。
  5. 轉換和擴充。一旦設定了結構描述,團隊必須確保所有資料符合結構描述。某些現有資料格式需要改變,例如調整階層,以及新增、合併或刪除資料行和欄位。團隊也可以透過從組織內外來源提取的行為、人口統計、地理和其他脈絡資訊,來加強資料。擴充的資料集可讓分析模型使用更全面的資料集加以訓練,因此提供更精準、有價值的見解。
  6. 驗證。現在,團隊必須使用書面指令碼或工具來驗證資料集品質和正確性。此外,團隊還要確認資料結構和格式與專案需求吻合,以便使用者和專案模型化工具可以輕鬆存取資料。視資料集大小而定,團隊可能會選擇測試資料樣本,而非完整資料集。團隊應解決任何問題,然後移到資料準備程序的最後步驟。
  7. 發佈。當團隊確信其資料是高品質時,將其傳輸至目標資料倉儲、資料湖或其他存放庫。在這裡,團隊和組織內部其他人員可以存取資料,以開發及測試分析模型。

機器學習如何加強資料準備和模型化?

在包括 ML、自動化、自然語言產生 (NLG) 和資料視覺效果等增強分析的技術支援下,增強資料分析成為可能。例如,增強資料探索重度依賴於 ML,一種使用演算法和統計模型的 AI,可從資料中學習和適應,而無需人類協助。

使用 ML,探索工具會應用所學到的知識,以根據模型必須解決的給定問題或待測試的假設,考慮所需的資料集類型。工具還會考慮收集資料集所在的上下文。然後工具會快速分析,從資料集的模式中得出推論,並智慧地提出要合併哪些資料集的建議。

增強資料探索不只使用 ML,還會幫助確保機器學習模型的有效資料準備。例如,探索工具會使用 ML 演算法,為使用者建議如何清理及擴充資料,並將其轉換為適當格式以供 ML 模型分析。


公司如何從增強資料準備中獲益?

每天,跨產業的業務領導者和團隊都在識別利用資料新的策略性方法。使用增強資料準備,無需 IT 專業人員的協助,他們也可以根據分析專案的創新構想採取行動。

增強資料準備的好處可以遍及整個組織:

  • 提升生產力 – 使用自動化自助工具的直覺圖形化使用者介面,熟練的商務使用者可以快速地從多個不同的來源中收集資料,並透過剖析、清理和其他主要資料準備功能來執行資料。增強資料準備還有助於為 IT 和資料專業人員減少或消除耗時的工作。
  • 提供更高品質的資料 – 手動準備資料時,即使是有經驗的資料科學家也會意外地導入不正確和不相關的資料,或未能包含重要資料。增強資料準備可以自動找出並更正品質問題,協助確保資料集產生有效的結果。
  • 加快 ROI 速度 – 在分析專案前端階段所提高的生產力,可以為資料模型化、採礦和分析保留餘裕的時間和資源。有別於陷入手動資料準備工作之中,使用者可以專注於研究見解,並予以應用,以便轉變企業營運和挑戰。一旦建立,資料集可以有多種應用方式,進一步優化投資。
  • 推動資料普及化 – 非專業使用者能夠協助準備及發佈資料以供分析,在處理原始資料時就會變得更加自在。此外,最熟悉分析問題的使用者可以利用自己的商業知識和專業技能,選取具有統計意義的資料集,並協助將資料結構化和擴充,以支援專案目標。隨著組織的資料素養提升,人們在資料驅動決策和策略上會更有自信。
  • 提高企業敏捷度 – 使用者能夠快速準備全面的資料集,就可以快速啟動新的分析專案,以支援不斷變化的企業和市場狀況。獲得見解的時間越快,公司應用見解取得競爭優勢的速度就會越快。

公司如何應用增強資料準備?

跨產業,各公司使用商業智慧商務分析工具,從資料中獲得更大價值。例如,在將增強資料準備整合至工作流程後,下列組織有效率地收集及處理資料,以推動分析:

銀行業

為了更了解哪些客戶最可能使用財富投資服務,然後使用個人化促銷鎖定這些目標客戶,大型銀行快速地從其分行和 ATM 網路中收集和合併帳戶、存款、提款和信用卡資料。該銀行也從外部來源提取人口統計、社會經濟和其他脈絡資料。

零售

國際藥局連鎖店想知道為何其名牌化妝品在某些據點業績不佳的問題。該店將其內部系統的銷售點、產品類別、客戶中程度、淨推薦分數和價格資料,與外部地理資料相結合,建立豐富的資料集以供分析。

農業

小型農業技術公司想使用其專屬演算法來研究乾旱地區的作物產量趨勢,以便就適合種植的作物和時間向小規模農民提供建議。利用公立和私人組織所維護的巨量資料集區,該公司取得並結合多個變數的相關資料,包括天氣情況、土壤溫度、水分含量、用水和作物狀態。

法律

在大型訴訟中為公司客戶辯護的律師事務所,分析數百萬封的客戶電子郵件和其他非結構化的文件,以了解相關歷史。透過大幅減少手動重複的資料探索活動,該律師事務所有更多的時間來檢閱及分析相關的發現結果。

政府

美國州政府想運用預測性維護做法,來協助削減其車隊和重型機械的燃料、維修和服務成本。為了更有效判斷哪些車輛及其何時需要維修,以及每部車輛的即時鄰近服務設施資訊,資產管理團隊將車輛維修記錄和效能感應器的資訊與外部 GPS 資料進行整合。


公司如何實作增強資料準備解決方案?

向員工介紹增強資料準備之前,公司應取得員工的信任。某些個人可能擔憂,新科技會改變或甚至消除其職位角色。為了推廣接受度,經理可以邀請受影響團隊協助定義新的資料準備程序,並討論他們的角色可能如何演變。此外,在整個組織中積極培養資料素養,特別是在不熟悉增強資料分析的團隊之間,有助於提高對所產生之見解的信任。

在選擇自助資料準備解決方案時,提出以下問題:

  • 解決方案是否會連線到內部部署和雲端中的各種資料來源?
  • 它是否可以處理半結構化和非結構化原始資料?
  • 它將資料準備程序自動化到什麼程度?
  • 它是否有強大、直覺的工具?
  • 解決方案是否支援跨組織協作和資料共用?
  • 它能否擴展以處理巨量資料?
  • 它是否支援雲端式分析平台?如果是的話,支援哪些平台?
  • 它是否啟用資料安全性和隱私權,並支援法規遵循?
  • 考慮到軟體授權、處理和儲存需求,以及員工上線和訓練,它的成本是多少?

一旦決定了解決方案,先從小型實作開始。讓資料科學、業務和其他利害關係人選擇一些具有資料素養的團隊與適合增強資料準備的使用案例。根據公司的增強資料分析目標,逐漸向其他團隊推出該解決方案。

使用 Microsoft Power BI 從資料中獲得更多價值

Microsoft Power BI 可以協助公司讓增強資料分析成為更簡單、更快速且更包容的程序。在 NLG 查詢和建議的提示下,並由資料視覺效果輔助,業務團隊可以更快、更自信地準備準確全面的資料集以產生優質見解。


常見問題集

什麼是資料準備?

資料準備涉及了為商業智慧和商務分析建立優質、準確且全面資料集的所有階段。它有助於確保組織可以產生取得競爭優勢所需的見解。

什麼是資料準備工具?

資料準備工具促進資料收集、探索和剖析、清理、結構化、轉換和擴充、驗證和發佈。

什麼是增強資料準備程序?

增強資料準備程序使用增強分析 (包括 ML、NLG 和資料視覺效果),將傳統上繁瑣、耗時的活動轉換為自動、更智慧型的工作流程。

為什麼增強資料準備很重要?

增強資料準備可以提供多種好處。它可以提高生產力、使用更高品質的資料執行分析、加快分析專案的 ROI 速度、將資料普及化,以及提高企業敏捷性。

什麼是機器學習的資料準備?

機器學習應用程式的有效資料準備,為建置及測試 ML 模型提供了優質資料集。例如,許多增強資料準備工具都會運用 ML 演算法,向使用者建議如何清理及擴充資料,並將其轉換為適當格式以供 ML 模型分析。