数据预处理
PyCaret 中可用的数据预处理和转换
最后更新
这有帮助吗?
数据集由于各种原因可能包含缺失值或空记录,通常编码为空白或 NaN
。大多数机器学习算法无法处理缺失值。
数据集中的每个特征都有关联的数据类型,例如数值、分类或日期时间。PyCaret 自动检测每个特征的数据类型。
数据集中的分类特征包含标签值(有序或名义),而不是连续数字。大多数机器学习算法无法在不编码的情况下处理分类数据。
当数据集中的分类特征包含具有内在自然顺序的变量时,例如 低、中、高,这些变量的编码必须不同于名义变量(其中没有内在顺序,例如男性或女性)。
当数据集中的分类特征包含许多级别(也称为高基数特征)的变量时,典型的 One-Hot Encoding 会导致创建大量新特征。
当训练数据集中的目标类分布不均匀时,可以使用 setup 中的 fix_imbalance
参数进行修正。
PyCaret 中的 remove_outliers
函数允许你在训练模型之前识别并移除数据集中的异常值。