
增强型数据准备的基础知识
借助机器学习和其他增强型分析,让您的公司加速获取见解。
什么是增强型数据准备?
简单地说,增强型数据准备可助力缺乏深厚数据科学和分析专业知识的商务人士和其他工作人员创建丰富、可靠的数据集,以进行分析。增强型数据准备工具由机器学习 (ML) 和人工智能 (AI) 提供支持,并在自动化的自助服务平台上提供,能够转变查找和检查原始数据的流程并将这些数据转换为可使用的形式。增强型数据准备工具不会取代人工智能和上下文感知,相反还会增强它们。
为了获得竞争优势,领导者、业务线经理、合作伙伴和其他人员依靠商业智能 (BI) 和商业分析来为获得准确、及时和相关的见解。利用增强型数据准备,您的公司可帮助实现数据准备的推广普及,以便让更多员工参与到生成见解的过程中来。
如何使用增强型数据准备工具?
增强型数据准备工具可简化数据处理的第一步(可能也是最重要的一步),从而创建构建、测试和训练分析模型所需的数据集。
在以往,数据准备是技术团队的事情,这些团队会编写代码并使用专业软件从内部运营系统中提取数据、清理和构建数据并将其加载到数据仓库。这些流程又称为数据提取、转换和加载 (ETL),可能会十分复杂、耗时且容易出错。
大多数普通业务用户不具备相应技能,也没有时间亲自执行 ETL 工作。即使是公民数据科学家,也就是没有接受过正式数据科学培训但要执行一些高级分析工作的业务分析师、开发人员和其他人员,也发现自己需要依靠数据工程师和其他数据专业人员来决定要分析哪些数据以及如何进行分析。
但是时代变了。现在,组织会在多个孤立的应用程序和系统中存储大量结构化、半结构化和非结构化数据,包括文本和图像。集中式 IT 和数据管理团队具有相应时间和资源,可收集和准备数据、大幅简化数据建模和研究,从而为公司的各个分析计划提供支持。
得益于增强型数据准备工具,更多人可以安装工具并提供帮助。这些工具采用点击操作的对话型界面,可逐步指导用户制定与数据准备相关的数据驱动型决策。
什么是数据准备步骤?
数据准备流程也称为数据整理或再加工,包括一系列用于集成、构建和整理数据的连续活动。下面在常用类别中概述的数据准备步骤最终可创建单个可信数据集,以提供一个或多个特定用例:
- 收集。在预期分析目标的引导下,分析团队可确定并提取内部和外部数据源中的相关数据。例如,如果目标是揭示客户的产品偏好,则团队可以提取 CRM 和销售应用程序、客户调查和社交媒体反馈中的定量和定性数据。在这个阶段,团队应咨询所有利益干系人并使用可靠的数据集,否则会存在结果有偏差或有失偏颇的风险。
- 发现和分析。通过探索和分析的迭代阶段,团队可以检查收集的原始数据,以更好地了解每个数据集的整体结构及其各个内容。此外,还要研究各个数据库之间的关系。通过数据分析,团队会收集和汇总有关异常情况、不一致性、差距以及在使用数据开发和训练分析模型之前必须解决的其他问题。例如,客户、患者数据集以及包含各个系统中存储的姓名和地址的其他数据集经常会在拼写和其他方面存在差异。
- 清理。在这个阶段,团队必须仔细更正所有数据质量问题。清理涉及填写缺失值、更正或删除有缺陷的数据、筛选掉不相关的数据以及掩盖敏感数据。这个耗时且繁琐的数据准备步骤对于确保数据准确性和一致性至关重要。在处理大数据时,由于必须协调的数据量十分庞大,清理尤为重要。
- 构建。此步骤需要开发数据库架构,说明如何将数据整理到表中,以便通过建模工具实现顺畅访问。可将架构视为以统一的方式放置不断变化的数据的永久结构。定义了所有架构组件。
- 转换和扩充。设置架构后,团队必须确保所有数据均合规。需要更改某些现有数据格式,例如对数据格式调整层次结构以及添加、合并或删除列和字段。团队还可利用从组织内外的来源中提取的行为、人口统计、地理和其他上下文信息改进数据。扩充的数据集允许使用更全面的数据集训练分析模型,从而提供更准确、有价值的见解。
- 验证。现在,团队必须使用编写的脚本或工具来验证其数据集的质量和准确性。此外,还要确认数据结构和格式符合项目要求,以便用户和项目建模工具可轻松访问数据。根据数据集的大小,团队可以选择测试数据示例,而不是完整的数据集。在继续执行数据准备流程的最后一步之前,团队应解决好所有问题。
- 发布。团队确信数据质量很高时,会将其传输到目标数据仓库、数据湖或其他存储库。此时,团队和组织内的其他人员可访问这些数据来开发和测试分析模型。
机器学习如何改进数据准备和建模?
得益于包括 ML、自动化、自然语言生成 (NLG) 和数据可视化在内的增强型分析,增强型数据分析成为可能。例如,增强型数据发现在很大程度上依赖于 ML,这是一种 AI,其使用算法和统计模型从数据中学习并进行调整,而无需人工协助。
使用 ML,发现工具会应用所学知识,鉴于模型必须解决的问题以及要测试的假设,考虑需要哪些类型的数据集。它们还会考虑收集数据集的上下文。这些工具会快速分析数据集中的模式并从中引出推理,然后智能建议要合并的数据集。
增强型数据发现不仅使用 ML,还可帮助确保针对机器学习模型进行有效的数据准备。例如,发现工具使用 ML 算法,为用户生成有关如何清理和扩充数据并将其转换为适用于 ML 模型分析的格式的建议。
您的公司如何受益于增强型数据准备?
各个行业的企业领导者和业务团队每天都在寻找利用数据的全新战略方法。借助增强型数据准备,他们可以针对分析项目践行创新理念,而无需 IT 专业人员的帮助。
增强型数据准备可使整个组织受益:
- 提高工作效率 - 使用直观的图形用户界面和自动化自助服务工具,技能娴熟的业务用户可快速从多个不同来源收集数据,并通过分析、清理和其他关键数据准备功能运行这些数据。增强型数据准备还可帮助减少或消除 IT 和数据专业人员承担的耗时任务。
- 提供更高质量的数据 - 手动准备数据时,即使经验丰富的数据科学家也可能会意外引入不准确且不相关的数据,或者未能包含重要数据。增强型数据准备可自动查找和更正质量问题,从而帮助确保数据集生成有效的结果。
- 提高 ROI - 提高分析项目前端的工作效率可留出更多时间和资源来进行数据建模、挖掘和分析。用户不必费时费力手动数据准备事务,可以专注于研究和应用见解来转变业务运营和挑战。构建完成后,数据集可以有多个应用,从而进一步优化您的投资。
- 推动数据普及 - 非专业用户能够帮助准备和发布数据以进行分析,在处理原始数据方面变得越来越娴熟。此外,熟知分析问题的用户可以凭借其业务知识和专长根据统计信息选择重要数据集,并帮助构建和扩充数据来支持实现项目目标。随着整个组织的数据素养不断增强,员工可更自信地制定数据驱动型决策和战略。
- 提高业务敏捷性 - 用户能够快速准备全面的数据集,从而快速启动新的分析项目来支持应对不断变化的业务和市场条件。获取见解的速度越快,您的公司就能越快地应用这些见解来获得竞争优势。
公司如何应用增强型数据准备?
各个行业的公司使用商业智能和商业分析工具来从数据中获得更大价值。例如,以下组织将增强型数据准备整合到其工作流中,从而高效地收集和处理数据来促进分析:
银行业
为了更好地了解哪些客户最有可能使用财富投资服务,然后通过个性化促销锁定这些客户,一家大型银行快速收集并整合了其支行和 ATM 网络中的帐户、存款、提款和信用卡数据。这家银行还提取了外部来源中的人口统计、社会经济和其他上下文数据。
零售业
一家国际连锁药店希望了解为何其品牌名称构造在某些地方效果不佳,在其他地方却广受欢迎。它将内部系统中的销售点、产品类别、客户忠诚度、Net Promoter Score 和定价数据与外部地理数据相结合,构建了丰富的数据集以进行分析。
农业
一家小型农业技术公司想要使用其专有算法来研究受旱灾困扰的区域的作物产量趋势,以便为小型农场主提供有关种植什么作物以及何时种植的建议。它利用由公共和私营组织维护的大数据池,搜集并合并与多个变量有关的数据,包括天气条件、土壤温度、水分含量、用水情况和作物状况。
法律行业
一家在一起大型诉讼中为其公司客户辩护的律师事务所分析了数百万封客户电子邮件和其他非结构化文档,以获取相关历史记录。通过大幅减少手动的重复性数据发现活动,这家公司得以有更多时间来查看和分析相关结果。
政府
美国的一个州政府希望采用预测性维护实践来帮助削减其汽车和重型机械设备的燃油、维护和服务成本。为了更好地确定哪些车辆需要保养以及何时进行保养,以及每辆车接近服务设施的实时动态,资产管理团队将车辆维护记录和性能传感器中的信息与外部 GPS 数据进行了整合。
您的公司如何实施增强型数据准备解决方案?
在向员工推介增强型数据准备之前,您的公司应获得员工的信任。有些人可能会担心新技术会改变甚至取消他们的角色。要提高接受率,经理可以邀请受影响的团队帮助定义新的数据准备流程,并讨论其角色可能会发生什么变化。此外,主动培养整个组织的数据素养,特别是在不熟悉增强型数据分析的团队之间开展这项工作可帮助增进对所得结果的信任。
选择自助服务数据准备解决方案时,提出以下问题:
- 此解决方案是否会连接到本地或云中的各种数据源?
- 它能否使用半结构化和非结构化原始数据?
- 它可在多大程度上实现数据准备流程自动化?
- 它是否具有强大、直观的工具?
- 此解决方案是否支持跨组织协作和数据共享?
- 它能否进行扩展来处理大数据?
- 它是否会支持基于云的分析平台?如果是,会支持哪些平台?
- 它是否会实现数据安全和隐私并支持监管合规性?
- 考虑到软件许可证、处理和存储要求以及员工入职和培训,其成本是多少?
决定解决方案后,先进行小规模实施。让数据科学、业务和其他利益干系人选择几个具有高数据素养的团队以及促进其采用增强型数据准备的用例。根据您公司的增强型数据分析目标,逐步向其他团队推行此解决方案。
利用 Microsoft Power BI 从数据中获得更大价值
Microsoft Power BI 可帮助您的公司简化和加快增强型数据分析并使此流程更具包容性。在 NLG 查询和建议提示下,借助数据可视化,业务团队可以更快、更自信地准备准确、全面的数据集来生成高质量的见解。
常见问题解答
什么是数据可视化?
数据准备涉及创建准确、全面的高质量商业智能和商业分析数据集的所有阶段。它有助于确保组织可生成获得竞争优势所需的见解。
什么是数据准备工具?
数据准备工具有助于进行数据收集、发现和分析、清理、构建、转换和扩充、验证与发布。
什么是增强型数据准备流程?
增强型数据准备流程使用包括 ML、NLG 和数据可视化在内的增强型分析,从而将以往繁琐、耗时的活动转变为更智能的自动化工作流。
为何增强型数据准备十分重要?
增强型数据准备可带来多项好处。它可以提高工作效率、使用更高质量的数据运行分析、提高分析项目的 ROI、实现数据普及并提高业务敏捷性。
什么是针对机器学习的数据准备?
通过针对机器学习应用程序进行有效的数据准备,可提供高质量的数据集来构建和测试 ML 模型。例如,许多增强型数据准备工具利用 ML 算法,为用户提供有关如何清理和扩充数据并将其转换为适用于 ML 模型分析的格式的建议。