在 Power BI 中使用 PyCaret 构建自己的 AutoML

文档

在 Power BI 中使用 PyCaret 2.0 构建自己的 AutoML

作者 Moez Ali

PyCaret 2.0

阅读本文后，你将学习如何在 Power BI 中实现以下内容

设置 Python conda 环境并安装 pycaret==2.0。
将新创建的 conda 环境与 Power BI 关联。
在 Power BI 中构建你的第一个 AutoML 解决方案并在仪表板上展示性能指标。
在 Power BI 中将你的 AutoML 解决方案生产化/部署。

Microsoft Power BI

什么是自动化机器学习？

自动化机器学习（AutoML）是自动化机器学习中耗时且重复性任务的过程。它允许数据科学家和分析师高效地构建机器学习模型，同时保持模型质量。任何 AutoML 解决方案的最终目标是根据某些性能标准确定最佳模型。

传统的机器学习模型开发过程需要大量资源，需要丰富的领域知识和时间来生成和比较几十个模型。通过自动化机器学习，你将能够轻松高效地加速获得可用于生产的机器学习模型所需的时间。

PyCaret 如何工作？

PyCaret 是用于监督和无监督机器学习的工作流自动化工具。它由六个模块组成，每个模块都有一套用于执行特定操作的函数。每个函数接受一个输入并返回一个输出，在大多数情况下是一个训练好的机器学习模型。第二次发布后可用的模块有

PyCaret 中的所有模块都支持数据准备（超过 25 种基本预处理技术，附带大量的未训练模型和自定义模型支持、自动超参数调优、模型分析和可解释性、自动模型选择、实验日志记录和简易的云部署选项。

“PyCaret 通过为业务分析师、领域专家、公民数据科学家和经验丰富的数据科学家提供免费、开源、低代码的机器学习解决方案，正在普及机器学习和高级分析的使用。”

在我们开始之前

环境设置

在我们开始在 Power BI 中使用 PyCaret 的机器学习功能之前，我们需要创建一个虚拟环境并安装 pycaret。这是一个三步过程

从开始菜单打开 **Anaconda Prompt** 并执行以下代码

conda create --name **myenv** python=3.7

在 Anaconda Prompt 中执行以下代码

pip install **pycaret==2.0**

创建的虚拟环境必须与 Power BI 关联。这可以通过 Power BI Desktop 中的全局设置（文件 → 选项 → 全局 → Python 脚本）完成。Anaconda 环境默认安装在

C:\Users*用户名*\AppData\Local\Continuum\anaconda3\envs\myenv

👉 让我们开始吧

设置业务背景

一家保险公司希望通过在住院时使用人口统计学和基本患者健康风险指标更好地预测患者费用来改善其现金流预测。

目标

训练并选择基于数据集中其他变量（即年龄、性别、bmi、子女、吸烟者和地区）预测患者费用的最佳回归模型。

👉 步骤 1 — 加载数据集

你可以通过 Power BI Desktop → 获取数据 → Web 直接从我们的 GitHub 加载数据集

在 Power Query 中创建一个重复数据集

👉 步骤 2 — 以 Python 脚本运行 AutoML

在 Power Query 中运行以下代码（转换 → 运行 Python 脚本）

**# import regression module**
from pycaret.regression import *

**# init setup**
reg1 = setup(data=dataset, target = 'charges', silent = True, html = False)

**# compare models**
best_model = compare_models()

**# finalize best model
**best = finalize_model(best_model)

**# save best model**
save_model(best, 'c:/users/moezs/best-model-power')

**# return the performance metrics df
**dataset = pull()

代码的前两行用于导入相关模块并初始化 setup 函数。setup 函数执行机器学习中必需的几个重要步骤，例如清洗缺失值（如果有）、将数据拆分为训练集和测试集、设置交叉验证策略、定义评估指标、执行特定于算法的转换等。

训练多个模型、比较并评估性能指标的神奇函数是 **compare_models**。它根据可在 compare_models 内定义的“**sort**”参数返回最佳模型。默认情况下，它在回归用例中使用“R2”，在分类用例中使用“Accuracy”。

其余行用于确定通过 compare_models 返回的最佳模型，并将其保存为本地目录中的 pickle 文件。最后一行返回包含已训练模型及其性能指标详细信息的 dataframe。

输出

仅用几行代码，我们训练了 20 多个模型，表格展示了基于 10 折交叉验证的性能指标。

表现最好的模型 Gradient Boosting Regressor 将与整个转换管道一起保存为本地目录中的 pickle 文件。该文件稍后可用于在新数据集上生成预测（参见下面的步骤 3）。

PyCaret 基于模块化自动化的理念工作。因此，如果你有更多资源和时间进行训练，可以扩展脚本以执行超参数调优、集成以及其他可用的建模技术。参见下面的示例

**# import regression module**
from pycaret.regression import *

**# init setup**
reg1 = setup(data=dataset, target = 'charges', silent = True, html = False)

**# compare models**
top5 = compare_models(n_select = 5)
results = pull()

**# tune top5 models
**tuned_top5 = [tune_model(i) for i in top5]

**# select best model
**best = automl()

**# save best model**
save_model(best, 'c:/users/moezs/best-model-power')

**# return the performance metrics df
**dataset = results

现在我们返回了前 5 个模型，而不是表现最好的那一个。然后我们创建了一个列表推导式（循环）来调优排名前列的候选模型的超参数，最后 **automl 函数**选择了表现最佳的单一模型，并将其保存为 pickle 文件（请注意，这次我们没有使用 **finalize_model**，因为 automl 函数返回的是已定型模型）。

示例仪表板

👉 步骤 3 — 部署模型生成预测

一旦我们将最终模型保存为 pickle 文件，就可以使用它来预测新数据集上的费用。

加载新数据集

为了演示目的，我们将再次加载相同的数据集，并从数据集中删除“charges”列。在 Power Query 中将以下代码作为 Python 脚本执行以获取预测结果

**# load functions from regression module**
from pycaret.regression import load_model, predict_model

**# load model in a variable
**model = load_model(‘c:/users/moezs/best-model-powerbi’)

**# predict charges
**dataset = predict_model(model, data=dataset)