文档
  • PyCaret 3.0
  • 入门
    • 💻安装
    • 🚀快速入门
    • ⭐教程
    • 📶模块
    • ⚙️数据预处理
      • 数据准备
      • 缩放和变换
      • 特征工程
      • 特征选择
      • 其他 setup 参数
    • 💡函数
      • 初始化
      • 训练
      • 优化
      • 分析
      • 部署
      • 其他
  • 学习 PYCARET
    • 📖博客
      • 宣布 PyCaret 1.0
      • 宣布 PyCaret 2.0
      • 关于 PyCaret 你不知道的 5 件事
      • 构建和部署你的第一个机器学习 Web 应用
      • 在 Power BI 中使用 PyCaret 构建你自己的 AutoML
      • 在 Google Kubernetes 上部署 ML Pipeline
      • 在 AWS Fargate 上部署 PyCaret 和 Streamlit
      • 在 Power BI 中使用 PyCaret 进行异常检测
      • 在 Google Kubernetes 上部署 ML 应用
      • 在 GKE 上部署机器学习 Pipeline
      • 在 AWS Fargate 上部署机器学习 Pipeline
      • 使用 Docker 在云端部署 ML Pipeline
      • 在 Power BI 中使用 PyCaret 进行聚类分析
      • 使用 ONNX Runtime 在边缘部署 PyCaret 模型
      • GitHub 是你唯一需要的最佳 AutoML
      • 在 AWS Fargate 上部署 PyCaret 和 Streamlit
      • 使用 PyCaret 和 MLflow 实现轻松 MLOps
      • 在 Power BI 中使用 PyCaret 进行聚类分析
      • 在 Alteryx 中使用 PyCaret 进行机器学习
      • 在 KNIME 中使用 PyCaret 进行机器学习
      • 在 SQL 中使用 PyCaret 进行机器学习 第一部分
      • 在 Power BI 中使用 PyCaret 进行机器学习
      • 在 Tableau 中使用 PyCaret 进行机器学习
      • 使用 PyCaret 进行多时间序列预测
      • 使用 PyCaret 预测客户流失
      • 使用 PyCaret (正确地) 预测 Lead Score
      • 使用 PyCaret 在 Python 中进行 NLP 文本分类
      • 使用 PyCaret (正确地) 预测 Lead Score
      • 使用 PyCaret 预测黄金价格暴跌
      • 使用机器学习预测黄金价格
      • PyCaret 2.1 功能摘要
      • 使用 PyCaret 将 ML 模型发送到 SQL Server
      • 使用 PyCaret 和 Gradio 增强你的 ML
      • 时间序列 101 - 入门指南
      • 使用 PyCaret 进行时间序列异常检测
      • 使用 PyCaret 回归进行时间序列预测
      • 在 Power BI 中使用 PyCaret 进行主题建模
      • 使用 PyCaret 编写和训练自定义 ML 模型
      • 使用 PyCaret 和 Streamlit 构建和部署 ML 应用
      • PyCaret 2.3.6 来了!了解新特性?
    • 📺视频
    • 🛩️速查表
    • ❓常见问题
    • 👩‍💻示例
  • 重要链接
    • 🛠️发布说明
    • ⚙️API 参考
    • 🙋 讨论
    • 📤问题
    • 👮 许可证
  • 媒体
    • 💻Slack
    • 📺YouTube
    • 🔗LinkedIn
    • 😾GitHub
    • 🔅Stack Overflow
由 GitBook 提供支持
在本页

这有帮助吗?

  1. 入门

数据预处理

PyCaret 中可用的数据预处理和转换

上一页模块下一页数据准备

最后更新 1 年前

这有帮助吗?

数据集由于各种原因可能包含缺失值或空记录,通常编码为空白或 NaN。大多数机器学习算法无法处理缺失值。

数据集中的每个特征都有关联的数据类型,例如数值、分类或日期时间。PyCaret 自动检测每个特征的数据类型。

数据集中的分类特征包含标签值(有序或名义),而不是连续数字。大多数机器学习算法无法在不编码的情况下处理分类数据。

当数据集中的分类特征包含具有内在自然顺序的变量时,例如 低、中、高,这些变量的编码必须不同于名义变量(其中没有内在顺序,例如男性或女性)。

当数据集中的分类特征包含许多级别(也称为高基数特征)的变量时,典型的 One-Hot Encoding 会导致创建大量新特征。

当训练数据集中的目标类分布不均匀时,可以使用 setup 中的 fix_imbalance 参数进行修正。

PyCaret 中的 remove_outliers 函数允许你在训练模型之前识别并移除数据集中的异常值。

归一化是一种常用于机器学习数据准备的技术。归一化的目标是重新缩放数据集中的数值列的值,同时不扭曲值的范围差异。

虽然归一化在新的范围内重新缩放数据以减少幅度对方差的影响,但特征变换是一种更根本的技术。变换会改变分布的形状。

目标变换类似于特征变换,它会改变目标变量的分布形状,而不是特征的分布形状。

在机器学习实验中经常看到,当两个特征通过算术运算组合后,在解释数据方差方面比单独使用这两个特征更显著。

在机器学习实验中,因变量和自变量之间的关系通常被假定为线性,然而并非总是如此。有时因变量和自变量之间的关系更为复杂。

当数据集包含以某种方式相互关联的特征时,例如,以固定时间间隔记录的特征,则可以为这样一组特征创建新的统计特征,例如均值、中位数、方差和标准差 。

特征分箱是一种使用预定义数量的分箱将连续变量转换为分类值的方法。 当连续特征具有太多唯一值或少量超出预期范围的极端值时,这种方法很有效。

有时数据集可能包含具有非常高数量级别(即高基数特征)的分类特征(或多个分类特征)。如果此类特征(或特征)被编码为数值,则结果矩阵是稀疏矩阵。

使用数据中现有特征创建聚类是一种无监督的机器学习技术,用于工程化和创建新特征。

特征选择是一种 用于选择数据集中对预测目标变量贡献最大的特征的过程。使用选定的特征而不是所有特征可以降低过拟合的风险,提高准确性并缩短训练时间。

多重共线性(也称为 共线性)是一种现象,其中数据集中的一个特征变量与同一数据集中的另一个特征变量高度线性相关。

主成分分析 (PCA) 是一种用于机器学习的无监督技术,用于降低数据的维度。它通过压缩特征空间来实现这一点。

有时数据集可能包含具有多个级别的分类特征,其中这些级别的分布是偏斜的,并且一个级别可能支配其他级别。

setup 函数中只有两个非可选参数,即 data 和目标变量的名称。

PyCaret 使用 MLflow 进行实验跟踪。可以设置 setup 中的一个参数来自动跟踪所有指标、超参数和其他模型工件。

setup 中的参数可用于设置模型选择过程的参数。这些参数与数据预处理无关,但会影响你的模型选择过程。

setup 中的其他杂项参数用于控制实验设置,例如使用 GPU 进行训练或设置实验的详细程度。

⚙️
缺失值
数据类型
独热编码
序数编码
基数编码
目标不平衡
移除异常值
归一化
特征变换
目标变换
特征选择
移除多重共线性
主成分分析
忽略低方差
特征交互
多项式特征
特征分组
数值特征分箱
合并稀有级别
创建聚类
必需参数
实验日志记录
模型选择
其他杂项