KNIME 中使用 PyCaret 进行机器学习 | 文档

在 KNIME 中使用 PyCaret 进行机器学习

在 KNIME 中使用 PyCaret 训练和评分机器学习模型的逐步指南

PyCaret

PyCaret 是一个备选的低代码库，可以用少量代码替代数百行代码。这使得实验周期呈指数级地快速且高效。

PyCaret 简单易用。**PyCaret 中执行的所有操作都按顺序存储在 Pipeline 中，该 Pipeline 完全自动化，可用于 **部署。**无论是缺失值填充、独热编码、分类数据转换、特征工程，甚至是超参数调优，PyCaret 都能自动化完成。要了解更多关于 PyCaret 的信息，请观看此 1 分钟视频。

KNIME

KNIME Analytics Platform 是数据科学中最受欢迎的开源平台之一，用于自动化数据科学流程。KNIME 在节点仓库中有数千个节点，你可以将节点拖放到 KNIME 工作台。相互关联的节点集合创建一个工作流，该工作流可以在本地执行，部署到 KNIME 服务器后也可以在 KNIME web 门户中执行。

安装

安装好 KNIME Analytics Platform 和 Python 后，你需要创建一个独立的 conda 环境，我们将在其中安装 PyCaret。打开 Anaconda 提示符并运行以下命令

***# create a conda environment* **conda create --name knimeenv python=3.6 ***# activate environment* **conda activate knimeenv ***# install pycaret* **pip install pycaret

现在打开 KNIME Analytics Platform，然后转到 File → Install KNIME Extensions → KNIME & Extensions → 选择 KNIME Python Extension 并安装它。

安装完成后，转到 File → Preferences → KNIME → Python 并选择你的 Python 3 环境。请注意，在我的例子中，环境名称是“powerbi”。如果你按照上述命令操作，环境名称是“knimeenv”。

👉我们现在准备好了

点击“新建 KNIME 工作流”，将打开一个空白画布。

在左侧，有一些工具你可以拖放到画布上，并通过将每个组件相互连接来执行工作流。左侧仓库中的所有操作都称为节点。

数据集

我将创建两个独立的工作流。第一个用于模型训练和选择，第二个用于使用训练好的管道对新数据进行评分。

👉 模型训练与选择

首先，让我们从 CSV Reader 节点读取 CSV 文件，然后是一个 **Python Script。**在 Python 脚本中执行以下代码

**# init setup, prepare data** from pycaret.regression import * s = setup(input_table_1, target = 'charges', silent=True) **# model training and selection **best = compare_models() **# store the results, print and save** output_table_1 = pull() output_table_1.to_csv('c:/users/moezs/pycaret-demo-knime/results.csv', index = False) **# finalize best model and save** best_final = finalize_model(best) save_model(best_final, 'c:/users/moezs/pycaret-demo-knime/pipeline')

此脚本从 pycaret 导入回归模块，然后初始化 setup 函数，该函数自动处理 train_test_split 和所有数据准备任务，如缺失值填充、缩放、特征工程等。compare_models 使用 kfold 交叉验证训练和评估所有估计器并返回最佳模型。pull 函数将模型性能指标作为 DataFrame 调用，然后将其保存为本地驱动器上的 results.csv。最后，save_model 将整个转换管道和模型保存为 pickle 文件。

当你成功执行此工作流时，将在定义的文件夹中生成 pipeline.pkl 和 results.csv 文件。

这是 results.csv 的内容

这些是所有模型的交叉验证指标。在这种情况下，最佳模型是 Gradient Boosting Regressor。

👉 模型评分

我们现在可以使用 pipeline.pkl 在新数据集上进行评分。由于我没有一个单独的‘insurance.csv’数据集，我将从同一个文件中删除目标列，仅用于演示。

我使用了 Column Filter 节点来移除目标列，即 charges。在 Python 脚本中执行以下代码

**# load pipeline **from pycaret.regression import load_model, predict_model pipeline = load_model('c:/users/moezs/pycaret-demo-knime/pipeline') **# generate predictions and save to csv** output_table_1 = predict_model(pipeline, data = input_table_1) output_table_1.to_csv('c:/users/moezs/pycaret-demo-knime/predictions.csv', index=False)