文档
  • PyCaret 3.0
  • 入门
    • 💻安装
    • 🚀快速入门
    • ⭐教程
    • 📶模块
    • ⚙️数据预处理
      • 数据准备
      • 缩放和转换
      • 特征工程
      • 特征选择
      • 其他设置参数
    • 💡函数
      • 初始化
      • 训练
      • 优化
      • 分析
      • 部署
      • 其他
  • 学习 PYCARET
    • 📖博客
      • 宣布 PyCaret 1.0
      • 宣布 PyCaret 2.0
      • 关于 PyCaret 你不知道的 5 件事
      • 构建和部署你的第一个机器学习 Web 应用
      • 在 Power BI 中使用 PyCaret 构建你自己的 AutoML
      • 在 Google Kubernetes 上部署机器学习管道
      • 在 AWS Fargate 上部署 PyCaret 和 Streamlit
      • 在 Power BI 中使用 PyCaret 构建异常检测器
      • 在 Google Kubernetes 上部署机器学习应用
      • 在 GKE 上部署机器学习管道
      • 在 AWS Fargate 上部署机器学习管道
      • 使用 Docker 在云上部署机器学习管道
      • 在 Power BI 中使用 PyCaret 进行聚类分析
      • 使用 ONNX Runtime 在边缘部署 PyCaret 模型
      • GitHub 是你永远需要的最佳 AutoML
      • 在 AWS Fargate 上部署 PyCaret 和 Streamlit
      • 使用 PyCaret 和 MLflow 轻松实现 MLOps
      • 在 Power BI 中使用 PyCaret 进行聚类分析
      • 在 Alteryx 中使用 PyCaret 进行机器学习
      • 在 KNIME 中使用 PyCaret 进行机器学习
      • 在 SQL 中使用 PyCaret 进行机器学习 第一部分
      • 在 Power BI 中使用 PyCaret 进行机器学习
      • 在 Tableau 中使用 PyCaret 进行机器学习
      • 使用 PyCaret 进行多个时间序列预测
      • 使用 PyCaret 预测客户流失
      • 使用 PyCaret 预测潜在客户得分(正确方法)
      • 在 Python 中使用 PyCaret 进行 NLP 文本分类
      • 使用 PyCaret 预测潜在客户得分(正确方法)
      • 使用 PyCaret 预测黄金价格暴跌
      • 使用机器学习预测黄金价格
      • PyCaret 2.1 功能摘要
      • 使用 PyCaret 将机器学习模型发送到 SQL Server
      • 使用 PyCaret 和 Gradio 加速你的机器学习
      • 时间序列 101 - 专为初学者
      • 使用 PyCaret 进行时间序列异常检测
      • 使用 PyCaret 回归进行时间序列预测
      • 在 Power BI 中使用 PyCaret 进行主题建模
      • 使用 PyCaret 编写和训练自定义机器学习模型
      • 使用 PyCaret 和 Streamlit 构建和部署机器学习应用
      • PyCaret 2.3.6 来了!了解新功能?
    • 📺视频
    • 🛩️备忘单
    • ❓常见问题
    • 👩‍💻示例
  • 重要链接
    • 🛠️发行说明
    • ⚙️API 参考
    • 🙋 讨论区
    • 📤问题
    • 👮 许可
  • 媒体
    • 💻Slack
    • 📺YouTube
    • 🔗LinkedIn
    • 😾GitHub
    • 🔅Stack Overflow
由 GitBook 提供支持
本页内容
  • 在 KNIME 中使用 PyCaret 进行机器学习
  • PyCaret
  • KNIME
  • 安装
  • 👉我们现在准备好了
  • 数据集
  • 👉 模型训练与选择
  • 👉 模型评分
  • 即将推出!
  • 你可能还感兴趣
  • 重要链接
  • 想了解特定模块?
  • 更多 PyCaret 相关教程

这有帮助吗?

  1. 学习 PYCARET
  2. 博客

在 KNIME 中使用 PyCaret 进行机器学习

上一篇在 Alteryx 中使用 PyCaret 进行机器学习下一篇在 SQL 中使用 PyCaret 进行机器学习 第一部分

最后更新于 2 年前

这有帮助吗?

在 KNIME 中使用 PyCaret 进行机器学习

在 KNIME 中使用 PyCaret 训练和评分机器学习模型的逐步指南

PyCaret 是一个开源 Python 库,KNIME 是一个开源数据分析平台

PyCaret

PyCaret 是一个备选的低代码库,可以用少量代码替代数百行代码。这使得实验周期呈指数级地快速且高效。

PyCaret 简单易用。**PyCaret 中执行的所有操作都按顺序存储在 Pipeline 中,该 Pipeline 完全自动化,可用于 **部署。**无论是缺失值填充、独热编码、分类数据转换、特征工程,甚至是超参数调优,PyCaret 都能自动化完成。要了解更多关于 PyCaret 的信息,请观看此 1 分钟视频。

KNIME

KNIME Analytics Platform 是数据科学中最受欢迎的开源平台之一,用于自动化数据科学流程。KNIME 在节点仓库中有数千个节点,你可以将节点拖放到 KNIME 工作台。相互关联的节点集合创建一个工作流,该工作流可以在本地执行,部署到 KNIME 服务器后也可以在 KNIME web 门户中执行。

安装

安装好 KNIME Analytics Platform 和 Python 后,你需要创建一个独立的 conda 环境,我们将在其中安装 PyCaret。打开 Anaconda 提示符并运行以下命令

***# create a conda environment*
**conda create --name knimeenv python=3.6

***# activate environment*
**conda activate knimeenv

***# install pycaret*
**pip install pycaret

现在打开 KNIME Analytics Platform,然后转到 File → Install KNIME Extensions → KNIME & Extensions → 选择 KNIME Python Extension 并安装它。

安装完成后,转到 File → Preferences → KNIME → Python 并选择你的 Python 3 环境。请注意,在我的例子中,环境名称是“powerbi”。如果你按照上述命令操作,环境名称是“knimeenv”。

👉我们现在准备好了

点击“新建 KNIME 工作流”,将打开一个空白画布。

在左侧,有一些工具你可以拖放到画布上,并通过将每个组件相互连接来执行工作流。左侧仓库中的所有操作都称为 节点。

数据集

我将创建两个独立的工作流。第一个用于模型训练和选择,第二个用于使用训练好的管道对新数据进行评分。

👉 模型训练与选择

首先,让我们从 CSV Reader 节点读取 CSV 文件,然后是一个 **Python Script。**在 Python 脚本中执行以下代码

**# init setup, prepare data**
from pycaret.regression import *
s = setup(input_table_1, target = 'charges', silent=True)

**# model training and selection
**best = compare_models()

**# store the results, print and save**
output_table_1 = pull()
output_table_1.to_csv('c:/users/moezs/pycaret-demo-knime/results.csv', index = False)

**# finalize best model and save**
best_final = finalize_model(best)
save_model(best_final, 'c:/users/moezs/pycaret-demo-knime/pipeline')

此脚本从 pycaret 导入回归模块,然后初始化 setup 函数,该函数自动处理 train_test_split 和所有数据准备任务,如缺失值填充、缩放、特征工程等。compare_models 使用 kfold 交叉验证训练和评估所有估计器并返回最佳模型。pull 函数将模型性能指标作为 DataFrame 调用,然后将其保存为本地驱动器上的 results.csv。最后,save_model 将整个转换管道和模型保存为 pickle 文件。

当你成功执行此工作流时,将在定义的文件夹中生成 pipeline.pkl 和 results.csv 文件。

这是 results.csv 的内容

这些是所有模型的交叉验证指标。在这种情况下,最佳模型是 Gradient Boosting Regressor。

👉 模型评分

我们现在可以使用 pipeline.pkl 在新数据集上进行评分。由于我没有一个单独的‘insurance.csv’数据集,我将从同一个文件中删除目标列,仅用于演示。

我使用了 Column Filter 节点来移除目标列,即 charges。在 Python 脚本中执行以下代码

**# load pipeline
**from pycaret.regression import load_model, predict_model
pipeline = load_model('c:/users/moezs/pycaret-demo-knime/pipeline')

**# generate predictions and save to csv**
output_table_1 = predict_model(pipeline, data = input_table_1)
output_table_1.to_csv('c:/users/moezs/pycaret-demo-knime/predictions.csv', index=False)

当你成功执行此工作流时,它将生成 predictions.csv 文件。

我希望你会欣赏 PyCaret 的易用性和简洁性。在像 KNIME 这样的分析平台中使用时,它可以为你节省大量编码时间以及在生产环境中维护代码的时间。用不到 10 行代码,我已经使用 PyCaret 训练和评估了多个模型,并在 KNIME 中部署了一个机器学习管道。

即将推出!

使用这个轻量级的 Python 工作流自动化库,你可以实现无限可能。如果你觉得这有用,请不要忘记在我们的 GitHub 仓库中给我们点亮 ⭐️。

你可能还感兴趣

重要链接

想了解特定模块?

点击以下链接查看文档和工作示例。

更多 PyCaret 相关教程

是一个开源、低代码的机器学习库,也是一个用 Python 构建的端到端模型管理工具,用于自动化机器学习工作流。它的易用性、简洁性以及快速高效地构建和部署端到端机器学习管道的能力将让你惊叹。

是用于创建数据科学的开源软件。KNIME 直观、开放并不断整合新的发展,使每个人都能理解数据、设计数据科学工作流和可重用组件。

KNIME Analytics Platform — 创建数据科学

对于本教程,你需要两样东西。第一是 KNIME Analytics Platform,这是一个桌面软件,你可以从这里下载:。第二,你需要 Python。

开始使用 Python 最简单的方法是下载 Anaconda Distribution。下载请:.

在 KNIME Analytics Platform 中设置 Python
KNIME 新工作流

对于本教程,我将使用 PyCaret 仓库中的一个回归数据集,名为“insurance”。你可以从这里下载数据:.

示例数据集
训练工作流
评分工作流
predictions.csv

下周我将深入探讨 PyCaret 的更高级功能,你可以在 KNIME 中使用这些功能来增强你的机器学习工作流。如果你想自动收到通知,可以关注我的, ,以及.

作者图片
PyCaret — 作者图片

要了解更多关于 PyCaret 的信息,请关注我们:和.

加入我们的 Slack 频道。邀请链接:.

📖
PyCaret
KNIME Analytics Platform
这里
点击这里
这里
Medium
LinkedIn
Twitter
LinkedIn
Youtube
这里
在 Power BI 中使用 PyCaret 2.0 构建你自己的 AutoML
使用 Docker 在 Azure 上部署机器学习管道
在 Google Kubernetes Engine 上部署机器学习管道
在 AWS Fargate 上部署机器学习管道
构建和部署你的第一个机器学习 Web 应用
使用 AWS Fargate 无服务器部署 PyCaret 和 Streamlit 应用
使用 PyCaret 和 Streamlit 构建和部署机器学习 Web 应用
在 GKE 上部署使用 Streamlit 和 PyCaret 构建的机器学习应用
文档
博客
GitHub
Stack Overflow
安装 PyCaret
Notebook 教程
为 PyCaret 贡献
分类
回归
聚类
异常检测
自然语言处理
关联规则挖掘
使用 PyCaret + MLflow 轻松实现 MLOps 使用 PyCaret 在机器学习实验中集成 MLOps 的入门级逐步教程towardsdatascience.com
使用 PyCaret 编写和训练你自己的自定义机器学习模型 towardsdatascience.com
使用 PyCaret 构建,使用 FastAPI 部署 *关于如何使用 PyCaret 构建端到端机器学习管道的逐步入门级教程…*towardsdatascience.com
使用 PyCaret 进行时间序列异常检测 使用 PyCaret 对时间序列数据进行无监督异常检测的逐步教程towardsdatascience.com
使用 PyCaret 和 Gradio 加速你的机器学习实验 快速开发和与机器学习管道交互的逐步教程towardsdatascience.com
使用 PyCaret 进行多个时间序列预测 使用 PyCaret 预测多个时间序列的逐步教程towardsdatascience.com
使用 PyCaret 回归模块进行时间序列预测 使用 PyCaret 进行时间序列预测的逐步教程towardsdatascience.com
使用 PyCaret 你做错了的 5 件事 来自 PyCaret 创作者towardsdatascience.com
GitHub 是你永远需要的最佳 AutoML 使用 PyCaret 2.0 构建 AutoML 的逐步教程towardsdatascience.com
在 Power BI 中使用 PyCaret 构建你自己的 AutoML 在 Power BI 中构建 AutoML 解决方案的逐步教程towardsdatascience.com
使用 AWS Fargate — 无服务器基础设施部署 PyCaret 和 Streamlit 应用 *使用 AWS Fargate 容器化和部署机器学习应用的逐步教程。*towardsdatascience.com
在 Google Kubernetes Engine 上部署使用 Streamlit 和 PyCaret 构建的机器学习应用 在 Google Kubernetes Engine 上容器化和部署 Streamlit 应用的逐步入门指南towardsdatascience.com
使用 PyCaret 和 Streamlit 构建和部署机器学习 Web 应用 在 Heroku PaaS 上部署机器学习应用的入门指南towardsdatascience.com
在 AWS Fargate 上部署机器学习管道 在 AWS Fargate 上以无服务器方式容器化和部署机器学习管道的入门指南towardsdatascience.com
在 Power BI 中使用 PyCaret 进行主题建模 在 Power BI 中实现主题模型的逐步教程towardsdatascience.com
在 Google Kubernetes Engine 上部署机器学习管道 在 Google Kubernetes Engine 上容器化和部署机器学习管道的入门指南towardsdatascience.com
如何在 Power BI 中使用 PyCaret 实现聚类 在 Power BI 中实现聚类的逐步教程towardsdatascience.com
在 Power BI 中使用 PyCaret 构建你的第一个异常检测器 在 Power BI 中实现异常检测的逐步教程towardsdatascience.com
使用 Docker 容器在云上部署机器学习管道 *使用 PyCaret、Flask、Docker 容器和 Azure Web 在云上部署机器学习管道的入门指南…*towardsdatascience.com
构建和部署你的第一个机器学习 Web 应用 使用 PyCaret 在 Python 中训练和部署机器学习管道的入门指南towardsdatascience.com
在 Power BI 中使用 PyCaret 进行机器学习 在 Power BI 中在几分钟内实现机器学习的逐步教程towardsdatascience.com