文档
  • PyCaret 3.0
  • 入门
    • 💻安装
    • 🚀快速入门
    • ⭐教程
    • 📶模块
    • ⚙️数据预处理
      • 数据准备
      • 缩放和转换
      • 特征工程
      • 特征选择
      • 其他设置参数
    • 💡函数
      • 初始化
      • 训练
      • 优化
      • 分析
      • 部署
      • 其他
  • 学习 PYCARET
    • 📖博客
      • 宣布 PyCaret 1.0
      • 宣布 PyCaret 2.0
      • 关于 PyCaret 你可能不知道的 5 件事
      • 构建并部署您的第一个机器学习 Web 应用
      • 使用 PyCaret 在 Power BI 中构建您自己的 AutoML
      • 在 Google Kubernetes 上部署 ML 管道
      • 在 AWS Fargate 上部署 PyCaret 和 Streamlit
      • 使用 PyCaret 在 Power BI 中进行异常检测
      • 在 Google Kubernetes 上部署 ML 应用
      • 在 GKE 上部署机器学习管道
      • 在 AWS Fargate 上部署机器学习管道
      • 使用 Docker 在云端部署 ML 管道
      • 使用 PyCaret 在 Power BI 中进行聚类分析
      • 使用 ONNX Runtime 在边缘部署 PyCaret 模型
      • GitHub 是您所需的最强 AutoML
      • 在 AWS Fargate 上部署 PyCaret 和 Streamlit
      • 使用 PyCaret 和 MLflow 轻松进行 MLOps
      • 使用 PyCaret 在 Power BI 中进行聚类分析
      • 使用 PyCaret 在 Alteryx 中进行机器学习
      • 使用 PyCaret 在 KNIME 中进行机器学习
      • 使用 PyCaret 在 SQL 中进行机器学习 第一部分
      • 使用 PyCaret 在 Power BI 中进行机器学习
      • 使用 PyCaret 在 Tableau 中进行机器学习
      • 使用 PyCaret 进行多时间序列预测
      • 使用 PyCaret 预测客户流失
      • 使用 PyCaret (正确方法) 预测潜在客户分数
      • 使用 PyCaret 在 Python 中进行 NLP 文本分类
      • 使用 PyCaret (正确方法) 预测潜在客户分数
      • 使用 PyCaret 预测黄金价格暴跌
      • 使用机器学习预测黄金价格
      • PyCaret 2.1 功能总结
      • 使用 PyCaret 将 ML 模型部署到 SQL Server
      • 使用 PyCaret 和 Gradio 增强您的 ML
      • 时间序列 101 - 初学者指南
      • 使用 PyCaret 进行时间序列异常检测
      • 使用 PyCaret 回归进行时间序列预测
      • 使用 PyCaret 在 Power BI 中进行主题建模
      • 使用 PyCaret 编写和训练自定义 ML 模型
      • 使用 PyCaret 和 Streamlit 构建和部署 ML 应用
      • PyCaret 2.3.6 来了!了解新特性
    • 📺视频
    • 🛩️备忘单
    • ❓常见问题
    • 👩‍💻示例
  • 重要链接
    • 🛠️发布说明
    • ⚙️API 参考
    • 🙋 讨论
    • 📤问题
    • 👮 许可证
  • 媒体
    • 💻Slack
    • 📺YouTube
    • 🔗LinkedIn
    • 😾GitHub
    • 🔅Stack Overflow
由 GitBook 提供支持
本页内容
  • setup
  • 必需参数
  • 实验日志记录
  • 模型验证
  • GPU 支持
  • 示例

这对您有帮助吗?

  1. 入门
  2. 函数

初始化

在 PyCaret 中初始化实验

上一页函数下一页训练

最后更新于 2 年前

这对您有帮助吗?

setup

此函数在 PyCaret 中初始化实验,并根据函数中传递的所有参数创建转换管道。setup 函数必须在执行任何其他函数之前调用。它需要两个必需参数:data 和 target。所有其他参数都是可选的。

PyCaret 3.0 有两种 API。您可以根据偏好选择其中一种。功能和实验结果是一致的。

函数式 API

# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data = diabetes, target = 'Class variable', session_id = 123)

面向对象 API

# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import ClassificationExperiment
clf1 = ClassificationExperiment()
clf1.setup(data = diabetes, target = 'Class variable', session_id = 123)

必需参数

setup 中只有两个必需参数

  • target: float, int, str or sequence, default = -1

    如果为整型或字符串,则分别为数据中目标列的索引或名称。默认值选择数据集中的最后一列。如果为序列,其形状应为 (n_samples,)。

  • data_func: Callable[[], DATAFRAME_LIKE] = None

    生成 data(类数据框输入)的函数。当数据集较大且需要并行操作(如 compare_models)时,这很有用。它可以避免将大型数据集从驱动器广播到 worker。请注意,data 和 data_func 中必须且只能设置一个。

  • data: dataframe-like = None

    形状为 (n_samples, n_features) 的数据集,其中 n_samples 是样本数量,n_features 是特征数量。如果 data 不是 pandas 数据框,则使用默认列名将其转换为数据框。

注意:pycaret.clustering 和 pycaret.anomaly 模块中不需要 target 参数。

实验日志记录

您可以在 PyCaret 中自动跟踪整个实验。可以通过启用 setup 中的一个参数来自动跟踪所有指标、超参数和模型 artifacts。默认情况下,PyCaret 使用 MLFlow 进行实验日志记录。其他可用选项包括 wandb、cometml、dagshub。

示例

# load dataset
from pycaret.datasets import get_data
data = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data, target = 'Class variable', log_experiment = True, experiment_name = 'diabetes1')

# model training
best_model = compare_models() 

在 localhost 上初始化 MLflow 服务器

# init server
!mlflow ui

模型验证

GPU 支持

示例

要查看 setup 在 PyCaret 其他模块中的用法,请参见下方

以下章节中的所有示例均仅使用函数式 API 展示。

要了解更多关于 PyCaret 中的实验跟踪信息,.

setup 函数中有相当多参数与预处理或数据转换没有直接关系,但被用作模型验证和选择策略的一部分,例如 train_size、fold_strategy 或交叉验证的 fold 数量。要了解 setup 中所有模型验证和选择设置的更多信息,请参见.

使用 PyCaret,您可以在 GPU 上训练模型,并将工作流程速度提高 10 倍。要在 GPU 上训练模型,只需在 setup 函数中传递 use_gpu = True。API 的用法没有变化,但在某些情况下,由于默认版本或完整版本未安装附加库,因此需要安装它们。要了解更多关于 GPU 支持的信息,请参见.

💡
此页面
请参见此页面
此页面
分类
回归
聚类
异常检测
时间序列预测