数据预处理 | 文档 - PyCaret 机器学习库

数据集由于各种原因可能包含缺失值或空记录，通常编码为空白或 NaN。大多数机器学习算法无法处理缺失值。

数据集中的每个特征都有关联的数据类型，例如数值、分类或日期时间。PyCaret 自动检测每个特征的数据类型。

数据集中的分类特征包含标签值（有序或名义），而不是连续数字。大多数机器学习算法无法在不编码的情况下处理分类数据。

当数据集中的分类特征包含具有内在自然顺序的变量时，例如 低、中、高，这些变量的编码必须不同于名义变量（其中没有内在顺序，例如男性或女性）。

当数据集中的分类特征包含许多级别（也称为高基数特征）的变量时，典型的 One-Hot Encoding 会导致创建大量新特征。

当训练数据集中的目标类分布不均匀时，可以使用 setup 中的 fix_imbalance 参数进行修正。

PyCaret 中的 remove_outliers 函数允许你在训练模型之前识别并移除数据集中的异常值。

归一化是一种常用于机器学习数据准备的技术。归一化的目标是重新缩放数据集中的数值列的值，同时不扭曲值的范围差异。

虽然归一化在新的范围内重新缩放数据以减少幅度对方差的影响，但特征变换是一种更根本的技术。变换会改变分布的形状。

目标变换类似于特征变换，它会改变目标变量的分布形状，而不是特征的分布形状。

在机器学习实验中经常看到，当两个特征通过算术运算组合后，在解释数据方差方面比单独使用这两个特征更显著。

在机器学习实验中，因变量和自变量之间的关系通常被假定为线性，然而并非总是如此。有时因变量和自变量之间的关系更为复杂。

当数据集包含以某种方式相互关联的特征时，例如，以固定时间间隔记录的特征，则可以为这样一组特征创建新的统计特征，例如均值、中位数、方差和标准差。

特征分箱是一种使用预定义数量的分箱将连续变量转换为分类值的方法。当连续特征具有太多唯一值或少量超出预期范围的极端值时，这种方法很有效。

有时数据集可能包含具有非常高数量级别（即高基数特征）的分类特征（或多个分类特征）。如果此类特征（或特征）被编码为数值，则结果矩阵是稀疏矩阵。

使用数据中现有特征创建聚类是一种无监督的机器学习技术，用于工程化和创建新特征。

特征选择是一种用于选择数据集中对预测目标变量贡献最大的特征的过程。使用选定的特征而不是所有特征可以降低过拟合的风险，提高准确性并缩短训练时间。

多重共线性（也称为 共线性）是一种现象，其中数据集中的一个特征变量与同一数据集中的另一个特征变量高度线性相关。

主成分分析 (PCA) 是一种用于机器学习的无监督技术，用于降低数据的维度。它通过压缩特征空间来实现这一点。

有时数据集可能包含具有多个级别的分类特征，其中这些级别的分布是偏斜的，并且一个级别可能支配其他级别。

setup 函数中只有两个非可选参数，即 data 和目标变量的名称。

PyCaret 使用 MLflow 进行实验跟踪。可以设置 setup 中的一个参数来自动跟踪所有指标、超参数和其他模型工件。

setup 中的参数可用于设置模型选择过程的参数。这些参数与数据预处理无关，但会影响你的模型选择过程。

setup 中的其他杂项参数用于控制实验设置，例如使用 GPU 进行训练或设置实验的详细程度。