你可以在 Power BI Desktop 查询编辑器中使用 R,R 是统计学家、数据科学家和数据分析师使用最广泛的一种编程语言。 查询编辑器中集成的 R 可使你用 R 来执行数据清理,并在数据集中执行高级数据调整和分析,包括丢失数据补全、预测和聚类分析,此处仅举几例。 R 是功能强大的语言,可用于在“查询编辑器”中准备你的数据模型并创建报表。

安装 R

若要在 Power BI Desktop 的查询编辑器中使用 R,需要在本地计算机上安装 R。 可以从很多位置免费下载并安装 R,其中包括 Revolution Open download page(Revolution Open 下载页),以及 CRAN 存储库

在查询编辑器中使用 R

为了演示如何在查询编辑器中使用 R,我们将使用股票市场数据集中的示例,该示例基于 .CSV 文件,你可以从此处下载并按照示例进行操作。 此示例中的步骤如下所示:

  1. 首先,将数据加载到 Power BI Desktop中。 在此示例中,我们将加载 EuStockMarkets_NA.csv 文件。 在 Power BI Desktop 的“主页”功能区中选择“获取数据”>“CSV”。

  2. 选择该文件,并选择“打开”,然后该 CSV 将显示在“CSV 文件”对话框中。

  3. 加载数据后,你会在 Power BI Desktop 中的“字段”窗格中看到它。

  4. 通过从 Power BI Desktop 中的“主页”选项卡中选择“查询编辑器”来打开“查询编辑器”。

  5. 在“转换”选项卡中,选择“运行 R 脚本”,然后“运行 R 脚本”编辑器随即出现(下一步中所示)。 注意,第 15 和 20 行受数据丢失影响。下图中无法看见的其他行也是如此。 以下步骤演示 R(将)如何为你补全这些行。

  6. 此示例中,我们将输入以下脚本代码:

    library(mice)
    tempData <- mice(dataset,m=1,maxit=50,meth='pmm',seed=100)
    completedData <- complete(tempData,1)
    output <- dataset
    output$completedValues <- completedData$"SMI missing values"
    

    注意:你需要具有针对之前脚本代码,在 R 环境中安装的 mice 库才能正常工作。 若要安装 mice,请在 R 安装中运行以下命令:| > install.packages('mice')

    当放入“运行 R 脚本”对话框时,代码如下所示:

  7. 选择“确定”时,“查询编辑器”将显示与数据隐私相关的警告。

  8. 为使 R 脚本在 Power BI 服务中正常工作,所有的数据源都需要设置为“公用”。 有关隐私设置及其含义的详细信息,请参阅隐私级别

    执行这些操作后,我们会在“字段”框中看到一个名为 completedValues 的新列。 注意,有一些行缺少数据元素,如第 15 和 18 行。 我们将在下一节中了解 R 如何处理该问题。

    注意

只需要五行 R 脚本,查询编辑器就能用预测模型填写丢失的值。

从 R 脚本数据创建视觉效果

现在,我们可以创建视觉对象以查看 R 脚本代码如何使用 mice 库补全缺少的值,如下图所示。

完成视觉对象后,在有其它任何我们可能想使用 Power BI Desktop 创建的视觉对象时,可以保存 Power BI Desktop 文件(保存为 .pbix 文件),然后在 Power BI 服务中使用该数据模型以及作为其中一部分的 R 脚本。

注意:想要查看完成了这些步骤的完整 .pbix 文件吗? 真幸运 - 你可以在此处下载示例中使用的完整 Power BI Desktop 文件。

将 .pbix 文件上传到 Power BI 服务后,还需要几个步骤来启用数据刷新(在服务中),以及启用服务中待更新的视觉对象(为了更新视觉对象,数据需要访问 R)。 其它步骤如下所示:

  • 启用数据集的计划刷新 - 若要为包含 R 脚本数据集的工作簿启用计划刷新,请参阅配置计划刷新,其中也包含有关 个人网关 的信息。

  • 安装个人网关 - 需要在计算机上与文件和 R 安装位置相同的位置安装个人网关;Power BI 服务必须访问该工作簿并重新呈现任何已更新的视觉对象。 你可以获取有关如何安装和配置个人网关的详细信息。

限制

对包括 R 脚本,在查询编辑器中创建的查询有一些限制:

  • 所有 R 数据源设置都必须设置为“公用”,并且查询编辑器中创建的查询中的所有其它步骤也必须设为“公用”。 若要获取数据源设置,请在 Power BI Desktop 中,选择“文件”>“选项和设置”>“数据源设置”。

    从“数据源设置”对话框中,选择“数据源”,然后选择“编辑权限...”并确保“隐私级别”设置为“公用”。

  • 若要启用 R 视觉对象或数据集的计划更新,你需要启用“计划更新”,并且拥有安装在存储工作簿和 R 安装的计算机上的个人网关。 有关这两方面的详细信息,请参阅本文中的之前章节,其中提供了链接可了解每个方面的详细信息。

通过 R 和自定义查询你能进行各种各样的操作,因此你可以按照你想要显示的方式来探索和分析你的数据。