初始化 | 文档 - PyCaret 机器学习库

setup

此函数在 PyCaret 中初始化实验，并根据函数中传递的所有参数创建转换管道。setup 函数必须在执行任何其他函数之前调用。它需要两个必需参数：data 和 target。所有其他参数都是可选的。

PyCaret 3.0 有两种 API。您可以根据偏好选择其中一种。功能和实验结果是一致的。

函数式 API

# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data = diabetes, target = 'Class variable', session_id = 123)

面向对象 API

# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import ClassificationExperiment
clf1 = ClassificationExperiment()
clf1.setup(data = diabetes, target = 'Class variable', session_id = 123)

必需参数

setup 中只有两个必需参数

target: float, int, str or sequence, default = -1
如果为整型或字符串，则分别为数据中目标列的索引或名称。默认值选择数据集中的最后一列。如果为序列，其形状应为 (n_samples,)。
data_func: Callable[[], DATAFRAME_LIKE] = None
生成 data（类数据框输入）的函数。当数据集较大且需要并行操作（如 compare_models）时，这很有用。它可以避免将大型数据集从驱动器广播到 worker。请注意，data 和 data_func 中必须且只能设置一个。
data: dataframe-like = None
形状为 (n_samples, n_features) 的数据集，其中 n_samples 是样本数量，n_features 是特征数量。如果 data 不是 pandas 数据框，则使用默认列名将其转换为数据框。

注意：pycaret.clustering 和 pycaret.anomaly 模块中不需要 target 参数。

实验日志记录

您可以在 PyCaret 中自动跟踪整个实验。可以通过启用 setup 中的一个参数来自动跟踪所有指标、超参数和模型 artifacts。默认情况下，PyCaret 使用 MLFlow 进行实验日志记录。其他可用选项包括 wandb、cometml、dagshub。

示例

# load dataset
from pycaret.datasets import get_data
data = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data, target = 'Class variable', log_experiment = True, experiment_name = 'diabetes1')

# model training
best_model = compare_models()

在 localhost 上初始化 MLflow 服务器

# init server
!mlflow ui

模型验证

GPU 支持

示例

要查看 setup 在 PyCaret 其他模块中的用法，请参见下方

以下章节中的所有示例均仅使用函数式 API 展示。