在 Alteryx 中使用 PyCaret 进行机器学习
上次更新于
这有帮助吗?
上次更新于
这有帮助吗?
👉 什么是 PyCaret 以及如何开始使用?
👉 什么是 Alteryx Designer 以及如何进行设置?
👉 在 Alteryx Designer 中训练端到端机器学习流水线,包括缺失值填充、独热编码、缩放、转换等数据准备步骤。
👉 部署训练好的流水线并在 ETL 过程中生成推理结果。
打开 Alteryx Designer 并点击 文件 → 新建工作流
在顶部,有一些工具你可以拖放到画布上,并通过连接各个组件来执行工作流。
我将创建两个独立的 Alteryx 工作流。第一个用于模型训练与选择,第二个用于使用训练好的流水线对新数据进行评分。
首先,让我们使用**输入数据**工具读取 CSV 文件,然后使用**Python 脚本**。在 Python 脚本中执行以下代码
这个脚本从 pycaret 导入回归模块,然后初始化 setup 函数,该函数自动处理 train_test_split 以及所有数据准备任务,如缺失值填充、缩放、特征工程等。compare_models 使用 k 折交叉验证训练并评估所有估计器,并返回最佳模型。
pull 函数将模型性能指标作为 Dataframe 调用,然后将其保存到驱动器上的 results.csv 文件,同时也被写入 Alteryx 中 Python 工具的第一个锚点(以便你可以在屏幕上查看结果)。
最后,save_model 将包括最佳模型在内的整个转换流水线保存为 pickle 文件。
当你成功执行此工作流时,会生成 pipeline.pkl 和 results.csv 文件。你也可以在屏幕上看到最佳模型及其交叉验证指标的输出。
这是 results.csv 文件的内容
这些是所有模型的交叉验证指标。在这种情况下,最佳模型是梯度提升回归器。
现在我们可以使用 pipeline.pkl 对新数据集进行评分。由于我没有一份用于 ***insurance.csv 不含标签***的独立数据集,我将删除目标列,即charges,然后使用训练好的流水线生成预测结果。
我使用了**选择工具**来删除目标列,即 charges。在 Python 脚本中执行以下代码
当你成功执行此工作流时,将生成 predictions.csv 文件。
使用这个轻量级的 Python 工作流自动化库,你可以实现无限可能。如果你觉得它有用,请别忘了在我们的 GitHub 仓库给我们加个 ⭐️。
在本教程中,我将向你展示如何在一种非常流行的 ETL 工具中训练和部署机器学习流水线使用—— 一个开源的 Python 低代码机器学习库。本教程的学习目标包括
是一个开源、低代码的机器学习库,也是一个端到端模型管理工具,内置于 Python 中,用于自动化机器学习工作流。PyCaret 以其易用性、简洁性以及快速有效地构建和部署端到端机器学习流水线的能力而闻名。要了解更多关于 PyCaret 的信息,请查阅其.
是由** 开发的专有工具,用于自动化分析的每个步骤,包括数据准备、混合、报告、预测分析和数据科学。你可以访问任何数据源、文件、应用程序或数据类型,体验一个拥有 260 多个拖放构建块的自助式平台的简单性和强大功能。你可以在这里下载 Alteryx Designer 的一个月免费试用版.
对于本教程,你需要两样东西。第一样是 Alteryx Designer,这是一款桌面软件,你可以从这里下载。其次,你需要 Python。获取 Python 的最简单方法是下载 Anaconda Distribution。要下载它,.
在本教程中,我使用 PyCaret 仓库中一个名为insurance的回归数据集。你可以在这里下载数据.
下周我将深入探讨并在 Alteryx 中使用 PyCaret 的更高级功能来增强你的机器学习工作流。如果你想自动收到通知,可以关注我的, ,以及.
要了解更多关于 PyCaret 的信息,请关注我们和.
加入我们的 slack 频道。邀请链接.