在 Alteryx 中使用 PyCaret 进行机器学习

文档

一篇关于如何在 Alteryx Designer 中使用 PyCaret 训练和部署机器学习模型的逐步教程

介绍

👉 什么是 PyCaret 以及如何开始使用？

👉 什么是 Alteryx Designer 以及如何进行设置？

👉 在 Alteryx Designer 中训练端到端机器学习流水线，包括缺失值填充、独热编码、缩放、转换等数据准备步骤。

👉 部署训练好的流水线并在 ETL 过程中生成推理结果。

PyCaret

Alteryx Designer

教程先决条件

👉我们现在准备好了

打开 Alteryx Designer 并点击文件 → 新建工作流

在顶部，有一些工具你可以拖放到画布上，并通过连接各个组件来执行工作流。

数据集

我将创建两个独立的 Alteryx 工作流。第一个用于模型训练与选择，第二个用于使用训练好的流水线对新数据进行评分。

👉 模型训练与选择

首先，让我们使用**输入数据**工具读取 CSV 文件，然后使用**Python 脚本**。在 Python 脚本中执行以下代码

**# install pycaret
**from ayx import Package
Package.installPackages('pycaret')

**# read data from input data tool**
from ayx import Alteryx
data = Alteryx.read("#1")

**# init setup, prepare data**
from pycaret.regression import *
s = setup(data, target = 'charges', silent=True)

**# model training and selection
**best = compare_models()

**# store the results, print and save**
results = pull()
results.to_csv('c:/users/moezs/pycaret-demo-alteryx/results.csv', index = False)
Alteryx.write(results, 1)

**# finalize best model and save**
best_final = finalize_model(best)
save_model(best_final, 'c:/users/moezs/pycaret-demo-alteryx/pipeline')

这个脚本从 pycaret 导入回归模块，然后初始化 setup 函数，该函数自动处理 train_test_split 以及所有数据准备任务，如缺失值填充、缩放、特征工程等。compare_models 使用 k 折交叉验证训练并评估所有估计器，并返回最佳模型。

pull 函数将模型性能指标作为 Dataframe 调用，然后将其保存到驱动器上的 results.csv 文件，同时也被写入 Alteryx 中 Python 工具的第一个锚点（以便你可以在屏幕上查看结果）。

最后，save_model 将包括最佳模型在内的整个转换流水线保存为 pickle 文件。

当你成功执行此工作流时，会生成 pipeline.pkl 和 results.csv 文件。你也可以在屏幕上看到最佳模型及其交叉验证指标的输出。

这是 results.csv 文件的内容

这些是所有模型的交叉验证指标。在这种情况下，最佳模型是梯度提升回归器。

👉 模型评分

现在我们可以使用 pipeline.pkl 对新数据集进行评分。由于我没有一份用于 ***insurance.csv 不含标签***的独立数据集，我将删除目标列，即charges，然后使用训练好的流水线生成预测结果。

我使用了**选择工具**来删除目标列，即 charges。在 Python 脚本中执行以下代码

**# read data from the input tool**
from ayx import Alteryx**
**data = Alteryx.read("#1")

**# load pipeline
**from pycaret.regression import load_model, predict_model
pipeline = load_model('c:/users/moezs/pycaret-demo-alteryx/pipeline')

**# generate predictions and save to csv
**predictions = predict_model(pipeline, data)
predictions.to_csv('c:/users/moezs/pycaret-demo-alteryx/predictions.csv', index=False)

**# display in alteryx
**Alteryx.write(predictions, 1)