文档
  • PyCaret 3.0
  • 开始使用
    • 💻安装
    • 🚀快速入门
    • ⭐教程
    • 📶模块
    • ⚙️数据预处理
      • 数据准备
      • 缩放和转换
      • 特征工程
      • 特征选择
      • 其他设置参数
    • 💡函数
      • 初始化
      • 训练
      • 优化
      • 分析
      • 部署
      • 其他
  • 学习 PYCARET
    • 📖博客
      • 宣布 PyCaret 1.0
      • 宣布 PyCaret 2.0
      • 关于 PyCaret 你不知道的 5 件事
      • 构建和部署你的第一个机器学习 Web 应用
      • 在 Power BI 中使用 PyCaret 构建你自己的 AutoML
      • 在 Google Kubernetes 上部署 ML 流水线
      • 在 AWS Fargate 上部署 PyCaret 和 Streamlit
      • 在 Power BI 中使用 PyCaret 进行异常检测
      • 在 Google Kubernetes 上部署 ML 应用
      • 在 GKE 上部署机器学习流水线
      • 在 AWS Fargate 上部署机器学习流水线
      • 使用 Docker 在云端部署 ML 流水线
      • 在 Power BI 中使用 PyCaret 进行聚类分析
      • 使用 ONNX Runtime 在边缘部署 PyCaret 模型
      • GitHub 是你需要的最佳 AutoML
      • 在 AWS Fargate 上部署 PyCaret 和 Streamlit
      • 使用 PyCaret 和 MLflow 轻松实现 MLOps
      • 在 Power BI 中使用 PyCaret 进行聚类分析
      • 在 Alteryx 中使用 PyCaret 进行机器学习
      • 在 KNIME 中使用 PyCaret 进行机器学习
      • 在 SQL 中使用 PyCaret 进行机器学习 第一部分
      • 在 Power BI 中使用 PyCaret 进行机器学习
      • 在 Tableau 中使用 PyCaret 进行机器学习
      • 使用 PyCaret 进行多时间序列预测
      • 使用 PyCaret 预测客户流失
      • 使用 PyCaret 预测销售线索得分(正确方法)
      • 在 Python 中使用 PyCaret 进行 NLP 文本分类
      • 使用 PyCaret 预测销售线索得分(正确方法)
      • 使用 PyCaret 预测黄金价格暴跌
      • 使用机器学习预测黄金价格
      • PyCaret 2.1 功能总结
      • 使用 PyCaret 将 ML 模型部署到 SQL Server
      • 使用 PyCaret 和 Gradio 为你的 ML 加速
      • 时间序列 101 - 初学者指南
      • 使用 PyCaret 进行时间序列异常检测
      • 使用 PyCaret 回归进行时间序列预测
      • 在 Power BI 中使用 PyCaret 进行主题建模
      • 使用 PyCaret 编写和训练自定义 ML 模型
      • 使用 PyCaret 和 Streamlit 构建和部署 ML 应用
      • PyCaret 2.3.6 发布!看看有什么新功能?
    • 📺视频
    • 🛩️备忘单
    • ❓常见问题
    • 👩‍💻示例
  • 重要链接
    • 🛠️发行说明
    • ⚙️API 参考
    • 🙋 讨论
    • 📤问题
    • 👮 许可
  • 媒体
    • 💻Slack
    • 📺YouTube
    • 🔗LinkedIn
    • 😾GitHub
    • 🔅Stack Overflow
由 GitBook 提供支持
本页内容
  • 在 Alteryx 中使用 PyCaret 进行机器学习
  • 介绍
  • PyCaret
  • Alteryx Designer
  • 教程先决条件
  • 👉我们现在准备好了
  • 数据集
  • 👉 模型训练与选择
  • 👉 模型评分
  • 即将推出!
  • 重要链接
  • 更多 PyCaret 相关教程

这有帮助吗?

  1. 学习 PYCARET
  2. 博客

在 Alteryx 中使用 PyCaret 进行机器学习

上一篇在 Power BI 中使用 PyCaret 进行聚类分析下一篇在 KNIME 中使用 PyCaret 进行机器学习

上次更新于 2 年前

这有帮助吗?

在 Alteryx 中使用 PyCaret 进行机器学习

一篇关于如何在 Alteryx Designer 中使用 PyCaret 训练和部署机器学习模型的逐步教程

介绍

👉 什么是 PyCaret 以及如何开始使用?

👉 什么是 Alteryx Designer 以及如何进行设置?

👉 在 Alteryx Designer 中训练端到端机器学习流水线,包括缺失值填充、独热编码、缩放、转换等数据准备步骤。

👉 部署训练好的流水线并在 ETL 过程中生成推理结果。

PyCaret

Alteryx Designer

教程先决条件

👉我们现在准备好了

打开 Alteryx Designer 并点击 文件 → 新建工作流

在顶部,有一些工具你可以拖放到画布上,并通过连接各个组件来执行工作流。

数据集

我将创建两个独立的 Alteryx 工作流。第一个用于模型训练与选择,第二个用于使用训练好的流水线对新数据进行评分。

👉 模型训练与选择

首先,让我们使用**输入数据**工具读取 CSV 文件,然后使用**Python 脚本**。在 Python 脚本中执行以下代码

**# install pycaret
**from ayx import Package
Package.installPackages('pycaret')

**# read data from input data tool**
from ayx import Alteryx
data = Alteryx.read("#1")

**# init setup, prepare data**
from pycaret.regression import *
s = setup(data, target = 'charges', silent=True)

**# model training and selection
**best = compare_models()

**# store the results, print and save**
results = pull()
results.to_csv('c:/users/moezs/pycaret-demo-alteryx/results.csv', index = False)
Alteryx.write(results, 1)

**# finalize best model and save**
best_final = finalize_model(best)
save_model(best_final, 'c:/users/moezs/pycaret-demo-alteryx/pipeline')

这个脚本从 pycaret 导入回归模块,然后初始化 setup 函数,该函数自动处理 train_test_split 以及所有数据准备任务,如缺失值填充、缩放、特征工程等。compare_models 使用 k 折交叉验证训练并评估所有估计器,并返回最佳模型。

pull 函数将模型性能指标作为 Dataframe 调用,然后将其保存到驱动器上的 results.csv 文件,同时也被写入 Alteryx 中 Python 工具的第一个锚点(以便你可以在屏幕上查看结果)。

最后,save_model 将包括最佳模型在内的整个转换流水线保存为 pickle 文件。

当你成功执行此工作流时,会生成 pipeline.pkl 和 results.csv 文件。你也可以在屏幕上看到最佳模型及其交叉验证指标的输出。

这是 results.csv 文件的内容

这些是所有模型的交叉验证指标。在这种情况下,最佳模型是梯度提升回归器。

👉 模型评分

现在我们可以使用 pipeline.pkl 对新数据集进行评分。由于我没有一份用于 ***insurance.csv 不含标签***的独立数据集,我将删除目标列,即charges,然后使用训练好的流水线生成预测结果。

我使用了**选择工具**来删除目标列,即 charges。在 Python 脚本中执行以下代码

**# read data from the input tool**
from ayx import Alteryx**
**data = Alteryx.read("#1")

**# load pipeline
**from pycaret.regression import load_model, predict_model
pipeline = load_model('c:/users/moezs/pycaret-demo-alteryx/pipeline')

**# generate predictions and save to csv
**predictions = predict_model(pipeline, data)
predictions.to_csv('c:/users/moezs/pycaret-demo-alteryx/predictions.csv', index=False)

**# display in alteryx
**Alteryx.write(predictions, 1)

当你成功执行此工作流时,将生成 predictions.csv 文件。

即将推出!

使用这个轻量级的 Python 工作流自动化库,你可以实现无限可能。如果你觉得它有用,请别忘了在我们的 GitHub 仓库给我们加个 ⭐️。

重要链接

更多 PyCaret 相关教程

在本教程中,我将向你展示如何在一种非常流行的 ETL 工具中训练和部署机器学习流水线使用—— 一个开源的 Python 低代码机器学习库。本教程的学习目标包括

是一个开源、低代码的机器学习库,也是一个端到端模型管理工具,内置于 Python 中,用于自动化机器学习工作流。PyCaret 以其易用性、简洁性以及快速有效地构建和部署端到端机器学习流水线的能力而闻名。要了解更多关于 PyCaret 的信息,请查阅其.

是由** 开发的专有工具,用于自动化分析的每个步骤,包括数据准备、混合、报告、预测分析和数据科学。你可以访问任何数据源、文件、应用程序或数据类型,体验一个拥有 260 多个拖放构建块的自助式平台的简单性和强大功能。你可以在这里下载 Alteryx Designer 的一个月免费试用版.

https://www.alteryx.com

对于本教程,你需要两样东西。第一样是 Alteryx Designer,这是一款桌面软件,你可以从这里下载。其次,你需要 Python。获取 Python 的最简单方法是下载 Anaconda Distribution。要下载它,.

Alteryx Designer 中的新建工作流

在本教程中,我使用 PyCaret 仓库中一个名为insurance的回归数据集。你可以在这里下载数据.

示例数据集
训练工作流
评分工作流
predictions.csv

下周我将深入探讨并在 Alteryx 中使用 PyCaret 的更高级功能来增强你的机器学习工作流。如果你想自动收到通知,可以关注我的, ,以及.

PyCaret — 作者配图
PyCaret — 作者配图

要了解更多关于 PyCaret 的信息,请关注我们和.

加入我们的 slack 频道。邀请链接.

📖
Alteryx
PyCaret
PyCaret
GitHub
Alteryx Designer
**Alteryx
这里
这里
点击这里
这里
Medium
LinkedIn
Twitter
LinkedIn
Youtube
这里
文档
博客
GitHub
StackOverflow
安装 PyCaret
Notebook 教程
为 PyCaret 贡献
在 KNIME 中使用 PyCaret 进行机器学习 一篇关于如何在 KNIME 中使用 PyCaret 训练和部署端到端机器学习流水线的逐步指南towardsdatascience.com
使用 PyCaret + MLflow 轻松实现 MLOps 一篇关于如何在机器学习实验中使用 PyCaret 集成 MLOps 的对初学者友好的逐步教程towardsdatascience.com
使用 PyCaret 编写和训练你自己的自定义机器学习模型 towardsdatascience.com
使用 PyCaret 构建,使用 FastAPI 部署 *一篇关于如何使用 PyCaret 构建端到端机器学习流水线的逐步、对初学者友好的教程,以及…*towardsdatascience.com
使用 PyCaret 进行时间序列异常检测 一篇关于如何使用 PyCaret 对时间序列数据进行无监督异常检测的逐步教程towardsdatascience.com
使用 PyCaret 和 Gradio 为你的机器学习实验加速 一篇关于如何快速开发机器学习流水线并与其交互的逐步教程towardsdatascience.com
使用 PyCaret 进行多时间序列预测 一篇关于如何使用 PyCaret 预测多个时间序列的逐步教程towardsdatascience.com