在 Tableau 中使用 PyCaret 进行机器学习

是一个最近发布的开源 Python 机器学习库，可以在**低代码**环境中训练和部署机器学习模型。要了解更多关于 PyCaret 的信息，请阅读这篇文章.

本文将演示 PyCaret 如何与 Tableau Desktop 和 Tableau Prep 集成，这为分析师和数据科学家在他们的仪表板、报告和可视化中添加一层机器学习开辟了新的途径。通过减少编码所需的时间以及购买额外软件的需求，现在可以在组织中分析师已经熟悉和可用的环境中进行快速原型开发。

这里的示例将重点介绍如何设置一个基本的直销倾向模型，该模型使用分类算法来预测哪些客户在收到短信或电子邮件优惠后最有可能发起访问。

然后将创建一个仪表板，该仪表板可以利用训练好的模型预测新营销活动可能有多成功，这对于设计促销计划的营销人员非常有价值。

通过使用 PyCaret 和 Tableau，企业可以快速建立报告产品，利用现有软件并以最少的前期开发时间持续生成预测性视图。

所需的软件

1 — Tableau Desktop

2 — Tableau Prep

3 — Python 3.7 或更高版本

4 — PyCaret Python 库

pip install pycaret

5 — TabPy Python 库

TabPy 是 Tableau 支持的库，用于运行 Python 脚本。

TabPy (Tableau Python 服务器) 是一个分析扩展实现，通过允许用户通过 Tableau 的表计算执行 Python 脚本和已保存的函数来扩展 Tableau 的功能。

要在 Anaconda prompt 或终端中安装 TabPy，请使用以下代码。

pip install tabpy

安装后，使用以下代码以默认设置启动本地服务器。

tabpy

要将 Tableau 连接到 TabPy 服务器，请转到帮助 > 设置和性能 > 管理分析扩展连接。选择 TabPy 并输入 localhost，端口 9004（默认），然后测试连接。

现在可以通过 Tableau 中的计算字段运行 Python 脚本，这些字段输出为表计算。

虽然可以在 Tableau 内部执行模型训练过程，但这通常不是首选方法，因为每次数据刷新或用户与视图交互时，脚本都会重新运行。这带来了问题，因为

更合适的方法是在 Tableau 中使用预训练模型来对新数据生成预测。本例将使用 Jupyter Notebook 演示如何使用 PyCaret 使此过程变得简单直观。

在 Jupyter Notebook 中运行以下代码将训练一个朴素贝叶斯分类模型，并创建一个保存为 pickle 文件的 ML pipeline。

这些未见过的数据将用于模拟尚未收到优惠的新客户列表。当仪表板部署到生产环境时，它将连接到包含新客户信息的数据库。

请注意，在 setup 阶段，PyCaret 会执行自动预处理，在本例中，通过独热编码将特征数量从 10 个扩展到 39 个。

未见过的数据现在将被传递给训练好的模型，并在 Tableau Desktop 中进行标记。

操作步骤

脚本函数指定了计算将返回的数据类型。在本例中，它是访问的二元预测标签。
PyCaret 的 load_model() 函数加载之前保存的模型和转换 pipeline，该 pipeline 被保存为一个 pickle 文件。
X_pred 是一个数据框，它将通过 _arg1, _arg2, _arg3… 的符号将连接到 Tableau 的数据映射为输入。字段列在脚本的末尾。
predict_model() 函数接收训练好的模型，并对新的数据输入进行预测。注意，新数据会通过在 PyCaret setup 阶段创建的转换 pipeline（编码）进行处理。
然后将标签作为列表返回，可以在 Tableau 中查看。