初始化
在 PyCaret 中初始化实验
最后更新于
这对您有帮助吗?
此函数在 PyCaret 中初始化实验,并根据函数中传递的所有参数创建转换管道。setup
函数必须在执行任何其他函数之前调用。它需要两个必需参数:data
和 target
。所有其他参数都是可选的。
PyCaret 3.0 有两种 API。您可以根据偏好选择其中一种。功能和实验结果是一致的。
setup
中只有两个必需参数
target: float, int, str or sequence, default = -1
如果为整型或字符串,则分别为数据中目标列的索引或名称。默认值选择数据集中的最后一列。如果为序列,其形状应为 (n_samples,)。
data_func: Callable[[], DATAFRAME_LIKE] = None
生成 data
(类数据框输入)的函数。当数据集较大且需要并行操作(如 compare_models
)时,这很有用。它可以避免将大型数据集从驱动器广播到 worker。请注意,data
和 data_func
中必须且只能设置一个。
data: dataframe-like = None
形状为 (n_samples, n_features) 的数据集,其中 n_samples 是样本数量,n_features 是特征数量。如果 data 不是 pandas 数据框,则使用默认列名将其转换为数据框。
您可以在 PyCaret 中自动跟踪整个实验。可以通过启用 setup 中的一个参数来自动跟踪所有指标、超参数和模型 artifacts。默认情况下,PyCaret 使用 MLFlow
进行实验日志记录。其他可用选项包括 wandb
、cometml
、dagshub
。
在 localhost 上初始化 MLflow
服务器
要查看 setup
在 PyCaret 其他模块中的用法,请参见下方
要了解更多关于 PyCaret 中的实验跟踪信息,.
setup 函数中有相当多参数与预处理或数据转换没有直接关系,但被用作模型验证和选择策略的一部分,例如 train_size
、fold_strategy
或交叉验证的 fold
数量。要了解 setup 中所有模型验证和选择设置的更多信息,请参见.
使用 PyCaret,您可以在 GPU 上训练模型,并将工作流程速度提高 10 倍。要在 GPU 上训练模型,只需在 setup 函数中传递 use_gpu = True
。API 的用法没有变化,但在某些情况下,由于默认版本或完整版本未安装附加库,因此需要安装它们。要了解更多关于 GPU 支持的信息,请参见.